[发明专利]一种基于人工智能文本语义相似度分析的语义解释方法有效
申请号: | 201710315331.8 | 申请日: | 2017-05-05 |
公开(公告)号: | CN108804410B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 朱瑾鹏;朱笑萱;黄诗剑 | 申请(专利权)人: | 北京数洋智慧科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/9032 |
代理公司: | 北京鼎真知识产权代理事务所(普通合伙) 11815 | 代理人: | 洪波 |
地址: | 100000 北京市海淀区中关村南大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 文本 语义 相似 分析 解释 方法 | ||
本发明公开了一种基于人工智能文本语义相似度分析的语义解释方法,包括步骤:步骤1)建立语义解释模型;步骤2)构建语义语料库,按语义解释模型人工标注文本并存储,每个文本对应一条语料;步骤3)统计计算,依据建立的语料库,统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数;步骤4)词语语义转换,对新文本D进行分词及过滤处理后,按需选取若干特征词语进行语义转换,建立向量空间模型V1;步骤5)建立全部文本向量空间模型,对未进行语义转换的词语建立向量空间模型V2,合并V1与V2,得到全文本向量空间模型V;步骤6)对新文本D'重复步骤3、步骤4,得到其向量空间模型V';步骤7)利用余弦公式,计算文本D与D'相似度。
技术领域
本发明涉及一种文本语义分析领域,具体涉及一种基于人工智能文本语义相似度分析的语义解释方法。
背景技术
随着计算机互联网的飞速发展,文本相似度计算在许多领域有着广发的应用。例如,在智能机器翻译中,语义相似度通过衡量参考译文与智能机器翻译输出的等价程度来评估机器翻译的质量,此外,在信息检索、情感分析、文本分类、文本聚类、自动问答、语义消歧等领域中,文本相似度计算都是一项基础又重要的手段。
目前现有通过文本相似度计算对文本语义解释主要还存在仅能依赖词形计算,计算复杂,并且现有的分析方法准确率较低。
发明内容
本发明的目的即在于克服现有技术不足,,目的在于提供一种基于人工智能文本语义相似度分析的语义解释方法,解决现有通过文本相似度计算对文本语义解释仅能依赖词形计算,计算复杂,并且现有的分析方法准确率较低的问题。
本发明通过下述技术方案实现:
一种基于人工智能文本语义相似度分析的语义解释方法,包括步骤:
步骤1)建立语义解释模型;
步骤2)构建语义语料库,按语义解释模型人工标注文本并存储,每个文本对应一条语料;
步骤3)统计计算,依据建立的语料库,统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数;
步骤4)词语语义转换,对新文本D进行分词及过滤处理后,按需选取若干特征词语进行语义转换,建立向量空间模型V1;
步骤5)建立全部文本向量空间模型,对未进行语义转换的词语建立向量空间模型V2,合并V1与V2,得到全文本向量空间模型V;
步骤6)对新文本D'重复步骤3、步骤4,得到其向量空间模型V';
步骤7)利用余弦公式,计算文本D与D'相似度。
进一步的,所述步骤4)词语语义转换步骤包括:
步骤4.1)对于词语t,在语义语料库中选取包含t的所有语料,将原文t附近的j个词语作为t的正下文C;
步骤4.2)使用C与每条包含t的语料中的p类节点内容,计算词语匹配率;
步骤4.3)依据匹配率由高到低排序,根据设置的阈值ε,选取n条语料;
步骤4.4)在这n条语料中统计t的语义表示,将出现次数最多的p类型作为t的语义表示。
进一步的,所述步骤4.1),对新输入文本D,分词,去停止词,得到按出现顺序排列的词语列表[t1,t2,……,tn],依据统计词频由高到低选取前m个词语[t1',t2',……,tm'],m可取从1到n内的任意整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数洋智慧科技有限公司,未经北京数洋智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710315331.8/2.html,转载请声明来源钻瓜专利网。