[发明专利]词链模型的生成方法、装置、设备及计算机可读存储介质有效

申请号：	201811462225.3	申请日：	2018-11-30
公开（公告）号：	CN109753648B	公开（公告）日：	2022-12-20
发明（设计）人：	黄越;陈明东	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/247
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模型生成方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种词链模型的生成方法、装置、设备及计算机可读存储介质，所述方法包括：读取预设标准词库中的标准词以及与所述标准词对应的各目标分词，将各所述目标分词拆分为单个的目标汉字；根据所述预设标准词库中的各标准分词，确定各所述目标汉字在各层级上的字链模型，其中所述层级的级数与所述标准词中汉字的数量对应；将各所述目标汉字在各层级上的字链模型进行合并，生成所述标准词在各层级上的分词集合，并根据所述分词集合，形成所述标准词的词链模型。本方案将标准词依据划分的标准分词形成词链模型，通过词链模型中各标准分词之间的相关性实现对非标准词的匹配，简化了匹配操作，同时提高匹配的效率以及自动化程度。

技术领域

本发明主要涉及数据处理技术领域，具体地说，涉及一种词链模型的生成方法、装置、设备及计算机可读存储介质。

背景技术

医药领域中涉及到众多表征疾病名称、药品名称、诊断手段的标准词，而市面上也涉及到多种表征标准词的非标准词；为了规范化管理，通常需要为各非标准词匹配对应的标准词；在匹配前将各标准词划分为各个分词，而通过各个分词实现对非标准词的匹配。

在用各标准词的分词为非标准词匹配对应的标准词时，匹配的准确性与分词结果相关；因非标准词的形式多种多样，而分词的形式较为固定，使得在匹配的过程中需要针对不同的非标准词调整分词结果，来确保匹配的准确性。此调整的过程增加了匹配的复杂性，降低了匹配效率，匹配的自动化程度低。

发明内容

本发明的主要目的是提供一种词链模型的生成方法、装置、设备及计算机可读存储介质，旨在解决现有技术中通过调整分词结果来对非匹配词进行匹配，导致匹配过程复杂，匹配效率低的问题。

为实现上述目的，本发明提供一种词链模型的生成方法，所述词链模型的生成方法包括以下步骤：

读取预设标准词库中的标准词以及与所述标准词对应的各目标分词，将各所述目标分词拆分为单个的目标汉字；

根据所述预设标准词库中的各标准分词，确定各所述目标汉字在各层级上的字链模型，其中所述层级的级数与所述标准词中汉字的数量对应；

将各所述目标汉字在各层级上的字链模型进行合并，生成所述标准词在各层级上的分词集合，并根据所述分词集合，形成所述标准词的词链模型。

优选地，所述根据所述预设标准词库中的各标准分词，确定各所述目标汉字在各层级上的字链模型的步骤包括：