[发明专利]实体名词链接方法、装置、计算机设备和存储介质在审
| 申请号: | 202011239234.3 | 申请日: | 2020-11-09 |
| 公开(公告)号: | CN112364640A | 公开(公告)日: | 2021-02-12 |
| 发明(设计)人: | 谢忠玉;陈立 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295;G06F40/242 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 陈小娜 |
| 地址: | 518048 广东省深圳市福田区益田路503*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 名词 链接 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及大数据技术领域,提供了一种实体名词链接方法、装置、计算机设备和存储介质。方法包括:获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果,将分词结果中存在于领域词典中的名词标记为候选实体名词,建立候选实体名词与领域词典中对应实体名词的链接关系。针对垂直领域,通过领域词典和与领域词典关联的分词工具,快速构建轻量级的实体链接,有效提高实体名词链接效率。本申请可应用于智慧政务,从而推动智慧城市的建设。
技术领域
本申请涉及大数据技术领域,特别是涉及一种实体名词链接方法、装置、计算机设备和存储介质。
背景技术
随着自然语言处理技术的发展,实体链接在自然语言处理中的许多领域都得到了应用,比如问题回答,语义搜索,信息提取等。
现有实体链接需要较大的知识库作为支撑,同时也需要大量实体识别语料来训练一个实体识别模型和消歧模型,对数据基础设施和算力基础设施的要求都比较高,构建一个庞大的知识库和大量的实体识别语料和消歧语料,需要消耗大量的计算资源,而且,基数庞大的语料,会导致文本中的实体名词链接建立过程效率降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高实体名词链接效率的实体名词链接方法、装置、计算机设备和存储介质。
一种实体名词链接方法,方法包括:
获取待处理文本,并根据待处理文本所属的垂直领域,确定垂直领域的领域词典;
基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果;
将分词结果中存在于领域词典中的名词标记为候选实体名词;
建立候选实体名词与领域词典中对应实体名词的链接关系。
在其中一个实施例中,领域词典中的实体名词类别包括待展示实体名词和无需展示实体名词;
将分词结果中存在于领域词典中的名词标记为候选实体名词包括:
根据分词结果,筛选出存在于领域词典中的目标实体名词;
根据领域词典中实体名词携带的实体名词类别标识,确定目标实体名词的实体名词类别;
将实体名词类别为待展示实体名词的目标实体名词标记为候选实体名词。
在其中一个实施例中,基于与领域词典关联的分词工具,对待处理文本进行分词处理,得到分词结果包括:
基于与领域词典关联的分词工具,遍历领域词典,将待处理文本与领域词典中的实体名词进行匹配,得到匹配结果;
根据匹配结果,对待处理文本进行分词处理,得到分词结果。
在其中一个实施例中,建立候选实体名词与领域词典中对应实体名词的链接关系包括:
当候选实体名词满足预设的链接展示条件时,建立候选实体名词与领域词典中对应实体名词的链接关系,其中,预设的链接展示条件包括在待处理文本中不包含候选实体名词的释义文本、候选实体名词在待处理文本中第一次出现、在待处理文本中不包含候选实体名词的链接、以及待处理文本中链接数量与分词结果数量的比例未达到预设比例中的至少一项条件。
在其中一个实施例中,建立候选实体名词与领域词典中对应实体名词的链接关系包括:
获取待处理文本中链接数量与分词结果数量的比例数据;
当比例数据小于预设比例时,获取候选实体名词在待处理文本中的链接信息;
当链接信息为候选实体名词无对应链接时,获取候选实体名词在待处理文本中的出现次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011239234.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种给袋式包装机用夹取装置
- 下一篇:一种高效的水稻秧苗种植方法





