[发明专利]一种基于人工智能文本语义相似度分析的语义解释方法有效
申请号: | 201710315331.8 | 申请日: | 2017-05-05 |
公开(公告)号: | CN108804410B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 朱瑾鹏;朱笑萱;黄诗剑 | 申请(专利权)人: | 北京数洋智慧科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/9032 |
代理公司: | 北京鼎真知识产权代理事务所(普通合伙) 11815 | 代理人: | 洪波 |
地址: | 100000 北京市海淀区中关村南大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 文本 语义 相似 分析 解释 方法 | ||
1.一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,包括步骤:
步骤1)建立语义解释模型;
步骤2)构建语义语料库:按语义解释模型人工标注文本并存储,每个文本对应一条语料;
步骤3)统计计算:依据建立的语料库,统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数;
步骤4)词语语义转换:对新输入文本D,分词,去停止词,得到按出现顺序排列的词语列表[t1,t2,......,tn],依据统计词频由高到低选取前m个词语[t1',t2',......,tm'],m可取从1到n内的任意整数,按下述步骤行语义转换后,建立向量空间模型V1;
步骤4.1)取其中任一词语tk'设其在原文排序为i,将距离其最近的j个词语作为tk'上下文,即C:[ti-j/2,ti-j/2+1,......,ti+1,......,ti+j/2],其中j为窗口长度,取整数;当i-j/2<0时,令j=2i;当i-j/2在不为整数时,下取整;当i+j/2不为整数时,上取整;
步骤4.2),在语义语料库中,选取包含tk'的所有语料,计算上下文C与各条语料p类节点内容的词语匹配率,公式如下:
其中,Nsame为tk'的上下文C与某语料p类节点内容相同的词语数;
步骤4.3),选取匹配率高于ε的N条语料为候选语料,ε为阈值,取0到1间小数;
步骤4.4),在N条候选语料中统计tk'的p类节点内容,将出现次数最多的p类节点内容作为tk'的语义表示;
步骤4.5)重复所述步骤4.1~4.4,依次转换剩余的m-1个词语;
步骤5)建立全部文本向量空间模型,对未进行语义转换的词语建立向量空间模型V2,将V1与V2相加,得到全文本向量空间模型V;
步骤6)对新文本D'重复步骤3、步骤4和步骤5,得到其向量空间模型V';
步骤7)利用余弦公式,计算文本D与D'相似度。
2.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤4,依据TF-IDF计算公式,计算权重,构建前m个高频词语的所述向量空间模型V1:[p1,p2,......,pm];TF-IDF值计算公式如下:
其中,tf为某词语经过语义转换后,该语义表示出现的频率,例如若词语为t,转换后其语义表示为pi,则tf即指文本中,语义表示为pi的t出现的次数;D为语义语料库中语料总数;Dw为包含t,且其语义表示为pi的语料数。
3.根据权利要求2所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤5),依据所述TF-IDF值计算公式,计算余下n-m个词语的权重,构建所述向量空间模型V2:[w1,w2,......,wn-m],其中tf为词语在文中出现的频率,Dw为包含该词语的语料数。
4.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法,其特征在于,所述步骤7),利用余弦公式:
计算V与V'的夹角余弦值,即D与D'的文本相似度;n为文本向量维数,wik为文档Di第k维的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数洋智慧科技有限公司,未经北京数洋智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710315331.8/1.html,转载请声明来源钻瓜专利网。