[发明专利]词链模型的生成方法、装置、设备及计算机可读存储介质有效
申请号: | 201811462225.3 | 申请日: | 2018-11-30 |
公开(公告)号: | CN109753648B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 黄越;陈明东 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 生成 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明公开一种词链模型的生成方法、装置、设备及计算机可读存储介质,所述方法包括:读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。本方案将标准词依据划分的标准分词形成词链模型,通过词链模型中各标准分词之间的相关性实现对非标准词的匹配,简化了匹配操作,同时提高匹配的效率以及自动化程度。
技术领域
本发明主要涉及数据处理技术领域,具体地说,涉及一种词链模型的生成方法、装置、设备及计算机可读存储介质。
背景技术
医药领域中涉及到众多表征疾病名称、药品名称、诊断手段的标准词,而市面上也涉及到多种表征标准词的非标准词;为了规范化管理,通常需要为各非标准词匹配对应的标准词;在匹配前将各标准词划分为各个分词,而通过各个分词实现对非标准词的匹配。
在用各标准词的分词为非标准词匹配对应的标准词时,匹配的准确性与分词结果相关;因非标准词的形式多种多样,而分词的形式较为固定,使得在匹配的过程中需要针对不同的非标准词调整分词结果,来确保匹配的准确性。此调整的过程增加了匹配的复杂性,降低了匹配效率,匹配的自动化程度低。
发明内容
本发明的主要目的是提供一种词链模型的生成方法、装置、设备及计算机可读存储介质,旨在解决现有技术中通过调整分词结果来对非匹配词进行匹配,导致匹配过程复杂,匹配效率低的问题。
为实现上述目的,本发明提供一种词链模型的生成方法,所述词链模型的生成方法包括以下步骤:
读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;
根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;
将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。
优选地,所述根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型的步骤包括:
将各所述目标汉字和各所述标准分词对比,确定包含各所述目标汉字的目标标准分词;
统计各所述目标标准分词中所包括的汉字个数,将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型。
优选地,所述将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合的步骤包括:
读取各所述目标汉字所生成的各所述字链模型中在同一层级上的目标字链模型,并将各所述目标字链模型中所具有的所述目标标准分词进行合并,形成字链集合;
判断所述字链集合中是否存在重复的所述目标标准分词,若存在重复的所述目标标准分词,则将重复的所述目标标准分词从所述字链集合中删除,并检测各所述目标汉字在各层级上是否均形成所述字链集合;
若各所述目标汉字在各层级上均形成所述字链集合,则将各所述字链集合确定为所述标准词在各层级上的分词集合。
优选地,所述根据所述分词集合,形成所述标准词的词链模型的步骤包括:
将所述标准词和各层级上分词集合中的目标标准分词对比,从各层级上的分词集合中确定包括各个数量所述目标汉字的目标分词集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811462225.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:段落的划分方法及装置
- 下一篇:基于细粒度匹配信号的文本相关性度量方法和系统