[发明专利]一种基于HowNet的图模型词义消歧方法和系统有效
申请号: | 201811503356.1 | 申请日: | 2018-12-10 |
公开(公告)号: | CN109614620B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 鹿文鹏;张旭;张若雨;成金勇;乔新晓;张维玉;孟凡擎 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/951 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 250022 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hownet 模型 词义 方法 系统 | ||
本发明公开了一种基于HowNet的图模型词义消歧方法和系统,属于自然语言处理技术领域,本发明要解决的技术问题为如何充分利用知网知识,深入挖掘知网蕴含的语义知识,将其作为词义消歧的依据,提升词义消歧的性能,采用的技术方案为:①、一种基于HowNet的图模型词义消歧方法,包括如下步骤:S1、构建依存消歧图:分别对歧义句和目标歧义词在HowNet中的例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;S2、构建上下文消歧图;S3、利用消歧图进行消歧处理;S4、选择正确词义。②、一种基于HowNet的图模型词义消歧系统,该系统包括依存消歧图构建单元、上下文消歧图构建单元、消歧图处理单元和正确词义选择单元。
技术领域
本发明涉及自然语言处理技术领域,具体地说是一种基于HowNet的图模型词义消歧方法和系统。
背景技术
知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。即,知网是一个以各类概念为描述对象的知识系统,其并不是义类词典,也不是语义词典。知网把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统,其与其他的树状的词汇数据库有着本质不同。
词义消歧是指根据歧义词所处的特定上下文环境确定其具体词义,它是自然语言处理领域的一项基础性研究,对机器翻译、信息抽取、信息检索、文本分类、情感分析等上层应用有着直接影响。无论是中文还是英文等其他西方语言,一词多义的现象是普遍存在的。
传统的词义消歧方法存在着对知网知识利用不充分的问题,没有充分挖掘出知网中存在的消歧知识,例如,知网中的例句就有着较强的词义区分能力。故如何充分利用知网知识,深入挖掘知网蕴含的语义知识,将其作为词义消歧的依据,提升词义消歧的性能是目前急需解决的技术问题。
专利号为CN105893346A的专利文献公开了一种基于依存句法树的图模型词义消歧方法,其步骤为:1.对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;2.对句子进行依存句法分析,构建其依存句法树;3.获得句子中词语在依存句法树上的距离,即最短路径的长度;4.根据知识库,为句子中词语的词义概念构建消歧知识图;5.根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;6.为每个歧义词,选择图评分值最大的词义作为正确词义。但是该技术方案利用BabelNet中蕴含的语义关联关系,而不是HowNet中的语义知识;其适用于英文词义消歧工作,但对于中文并不适用,不能解决利用知网知识,提升词义消歧的性能的问题。
专利号为CN104281645B的专利文献公开了一种基于词汇语义和句法依存的情感关键句识别方法,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。但是该技术方案使用HowNet的情感词典与其他资源,共同构成基础情感词典,进而去发现获取候选情感句;利用依存句法分析提取依存模板特征;将各种特征融合,利用SVM分类器识别情感关键句,不能解决利用知网知识,提升词义消歧的性能的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811503356.1/2.html,转载请声明来源钻瓜专利网。