[发明专利]一种对句子中多义词进行消岐的方法及系统在审
申请号: | 201910365418.5 | 申请日: | 2019-04-30 |
公开(公告)号: | CN111858952A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 周林 | 申请(专利权)人: | 广东小天才科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289;G06F40/30;G06F40/247 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
地址: | 523851 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 句子 多义词 进行 方法 系统 | ||
本发明提供了一种对句子中多义词进行消岐的方法及系统,其方法包括:获取多义词以及所述多义词对应的词语信息,根据所述多义词和所述词语信息生成第一类三元组数据;获取包含所述多义词的语料样本,根据所述语料样本生成第二类三元组数据;根据所述第一类三元组数据和所述第二类三元组数据生成知识图谱;获取用户语料;若所述用户语料中包含多义词,根据所述知识图谱解析所述用户语料确定所述用户语料中多义词的语义。本发明通过多义词以及包含多义词的语料样本生成知识图谱,然后通过知识图谱对用户语料进行解析,从而快速准确地确定用户语料中包含的多义词对应的语义,避免理解出现歧义。
技术领域
本发明涉及自然语言处理技术领域,尤指一种对句子中多义词进行消岐的方法及系统。
背景技术
随着互联网的快速发展,人们的生活变得越来越智能化。通过智能终端识别用户输入的信息然后执行相应的操作也是越来越常见,例如关键词搜索等,因此识别用户通过智能终端所输入的信息的准确性严重影响着智能终端所作出的反馈。
但是,汉字中存在大量的多义词,当语句中存在多义词时,智能终端可能无法准确识别出语句中该多义词的语义,导致无法识别用户的真实意图。另外,在翻译的过程中,对于多义词语义的选取也直接影响翻译文本的准确性。因此,目前市场上需要一种对句子中多义词进行消岐的方法及系统。
发明内容
本发明的目的是提供一种对句子中多义词进行消岐的方法及系统,实现通过多义词以及包含多义词的语料样本生成知识图谱,然后通过知识图谱对用户语料进行解析,从而快速准确地确定用户语料中包含的多义词对应的语义,避免理解出现歧义。
本发明提供的技术方案如下:
本发明提供一种对句子中多义词进行消岐的方法,包括:
获取多义词以及所述多义词对应的词语信息,根据所述多义词和所述词语信息生成第一类三元组数据;
获取包含所述多义词的语料样本,根据所述语料样本生成第二类三元组数据;
根据所述第一类三元组数据和所述第二类三元组数据生成知识图谱;
获取用户语料;
若所述用户语料中包含多义词,根据所述知识图谱解析所述用户语料确定所述用户语料中多义词的语义。
进一步的,获取多义词以及所述多义词对应的词语信息,根据所述多义词和所述词语信息生成第一类三元组数据具体包括:
获取所述多义词以及所述多义词对应的所述词语信息,所述词语信息包含多义词词性以及多义词词义;
根据所述多义词、多义词词性以及所述多义词词义生成所述第一类三元组数据,所述第一类三元组数据中第一元素为所述多义词,第二元素为所述多义词词性,第三元素为所述多义词词义。
进一步的,获取包含所述多义词的语料样本,根据所述语料样本生成第二类三元组数据具体包括:
获取包含所述多义词的所述语料样本;
对所述语料样本进行分词得到所述多义词和样本分词;
根据所述语料样本获取所述多义词和所述样本分词的相对位置;
获取所述语料样本中所述多义词对应的样本多义词语义;
根据所述样本多义词语义、所述相对位置以及所述样本分词生成所述第二类三元组数据,所述第二类三元组数据中第一元素为所述样本多义词语义,第二元素为所述相对位置,第三元素为所述样本分词。
进一步的,获取用户语料之后,若所述用户语料中包含多义词,根据所述知识图谱解析所述用户语料确定所述用户语料中包含的多义词的语义之前包括:
对所述用户语料进行分词得到语料分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910365418.5/2.html,转载请声明来源钻瓜专利网。