[发明专利]一种复杂中文文本中的实体消歧方法有效
申请号: | 202110603755.0 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113283236B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 王玉龙;王闯;刘同存;王纯;张乐剑;王晶 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复杂 中文 文本 中的 实体 方法 | ||
1.一种复杂中文文本中的实体消歧方法,其特征在于,包括有:
步骤一、从待消歧的中文文本中提取所有待消歧的实体指称;
步骤二、采用实体检索技术,从实体知识库中为每个待消歧实体指称选取若干个实体作为预候选实体,并由所有预候选实体构成每个待消歧实体指称的预候选实体集,然后计算每个待消歧实体指称和其预候选实体集中的每个预候选实体的第一相似度,并根据第一相似度挑选若干个预候选实体作为候选实体,由所有候选实体构成每个待消歧实体指称的候选实体集,其中,实体知识库中保存有实体名称和描述文本两部分信息,待消歧实体指称和预候选实体的第一相似度是各自表示向量之间的余弦相似度;
步骤三、计算每个待消歧实体指称和其候选实体集中的每个候选实体的消歧相似度,并判断每个待消歧实体指称和其所有候选实体的消歧相似度中的最大值是否大于消歧相似度阈值,如果是,则表示待消歧实体指称是可链接实体,将待消歧实体指称链接至实体知识库中消歧相似度最大值对应的候选实体,然后继续判断下一个待消歧实体指称和其所有候选实体的消歧相似度中的最大值,当判断完所有待消歧实体指称后,继续步骤四;如果否,则表示待消歧实体指称是不可链接实体,然后继续判断下一个待消歧实体指称和其所有候选实体的消歧相似度中的最大值,当判断完所有待消歧实体指称后,继续步骤四;其中,消歧相似度用于描述待消歧实体指称和候选实体的相似程度;
步骤四、对所有不可链接实体进行聚类以分成若干个分组,并设定每个分组的序号,然后将每个不可链接实体按照其分组序号进行标记。
2.根据权利要求1所述的方法,其特征在于,步骤一进一步包括有:
构建、并训练实体指称识别模型,实体指称识别模型由中文预训练模型加上BiLSTM-CRF结构构成,其输入是中文文本,输出是从输入的中文文本中识别出的实体指称,实体指称类型包括有人物、场景、组织,
这样,将待消歧的中文文本输入训练后的实体指称识别模型,其输出即是从待消歧的中文文本中提取的所有待消歧的实体指称。
3.根据权利要求1所述的方法,其特征在于,步骤二进一步包括有:
步骤21、采用实体检索技术,在实体知识库中进行搜索,为每个待消歧实体指称选取若干个预候选实体,从而构成每个待消歧实体指称的预候选实体集;
步骤22、从待消歧的中文文本中获取每个待消歧实体指称的上下文文本,所述上下文文本由待消歧实体指称、左右m个单词、待消歧的中文文本构成,同时,获取每个待消歧实体指称的每个预候选实体的知识文本,所述知识文本由预候选实体的实体名称和其在实体知识库中的描述文本构成;
步骤23、将每个待消歧实体指称的上下文文本和其每个预候选实体的知识文本作为一组文本对,输入至双塔式相似度计算模型,从而获得每组文本对的第一相似度,其中,双塔式相似度计算模型先分别计算输入文本对中两个文本各自的表示向量,然后再计算两个文本表示向量之间的余弦相似度,所述余弦相似度即是输入文本对的第一相似度;
步骤24、将每个待消歧实体指称的上下文文本和其所有预候选实体的知识文本的第一相似度按照从大到小的次序进行排序,然后挑选排序位置在前的若干个实体作为每个待消歧实体指称的候选实体,由所有候选实体构成每个待消歧实体指称的候选实体集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110603755.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可回吸乳液的乳液瓶
- 下一篇:文件导出方法、装置及计算机可读介质