[发明专利]一种概念词语确定方法、装置、电子设备及存储介质在审
申请号: | 202111597882.0 | 申请日: | 2021-12-24 |
公开(公告)号: | CN114519105A | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 梅立军;林闯;付瑞吉;李月雷 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/901;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 概念 词语 确定 方法 装置 电子设备 存储 介质 | ||
本公开关于一种概念词语确定方法、装置、电子设备及存储介质,涉及数据处理技术领域,解决了概念的识别率较低的问题。所述方法包括:获取待处理知识文本;采用数据处理模型对待处理知识文本进行处理,从待处理知识文本中确定目标句子,目标句子为包含概念词语的概率满足预设规则的句子;对目标句子进行全切分处理,得到词语集合;根据词语集合包括的每个词语所属的目标句子,从词语集合中确定概念词语集合。
技术领域
本公开涉及数据处理技术领域,尤其涉及一种概念词语确定方法、装置、电子设备及存储介质。
背景技术
知识图谱是结构化的语义知识库,用于描述物理世界中的概念及其相互关系。知识图谱中主要包含有三种节点:实体、概念、属性。其中,概念指的是具有同种特性的实体构成的集合,如电脑、牛奶等。
现有技术中,经常需要从各个知识文本中抽取概念。电子设备可以根据预设词表对待提取文本进行术语抽取,得到该待提取文本包含的概念。或者,电子设备可以根据预设的知识图谱对待提取文本进行实体链接,得到该待提取文本包含的概念。
但是,现有技术中从知识文本中获取概念依赖于已有的概念词语集合,无法从知识文本中识别出新的概念词语,且当已有的概念词语集合不完善时,会导致从知识文本中识别出的概念的数量较少,从而导致概念的识别率较低。
发明内容
本公开提供一种概念词语确定方法、装置、电子设备及存储介质,解决了概念的识别率较低的问题。
本公开的技术方案如下:
根据本公开的第一方面,提供一种概念词语确定方法,该方法包括:
获取待处理知识文本;
采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,所述目标句子为包含概念词语的概率满足预设规则的句子;
对所述目标句子进行全切分处理,得到词语集合;
根据所述词语集合包括的每个词语所属的目标句子,从所述词语集合中确定概念词语集合。
可选的,数据处理模型包括第一处理模型,所述待处理知识文本包括至少一个段落,每个段落包括至少一个句子;
所述采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,包括:
采用所述第一处理模型对所述至少一个段落进行处理,得到每个段落包含概念词语的概率;
将所述至少一个段落中,段落包含概念词语的概率大于第一预设值的段落确定为目标段落;
根据所述目标段落确定所述目标句子。
可选的,根据所述目标段落确定所述目标句子,包括:
将每个所述目标段落包括的句子确定为所述目标句子;
或者,
所述数据处理模型还包括第二处理模型,采用所述第二处理模型对所述目标段落中的句子进行处理,得到所述目标段落中的每个句子包含概念词语的概率;
将所述目标段落中的句子中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
可选的,采用数据处理模型对所述待处理知识文本进行处理,从所述待处理知识文本中确定目标句子,包括:
采用所述数据处理模型对所述待处理知识文本中的每个句子进行处理,得到每个句子包含概念词语的概率;
将所述待处理知识文本中,句子包含概念词语的概率大于第二预设值的句子确定为所述目标句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111597882.0/2.html,转载请声明来源钻瓜专利网。