[发明专利]一种基于人工智能文本语义相似度分析的语义解释方法有效

申请号：	201710315331.8	申请日：	2017-05-05
公开（公告）号：	CN108804410B	公开（公告）日：	2022-03-29
发明（设计）人：	朱瑾鹏;朱笑萱;黄诗剑	申请（专利权）人：	北京数洋智慧科技有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/289;G06F16/9032
代理公司：	北京鼎真知识产权代理事务所(普通合伙) 11815	代理人：	洪波
地址：	100000 北京市海淀区中关村南大***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于人工智能文本语义相似分析解释方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于人工智能文本语义相似度分析的语义解释方法，其特征在于，包括步骤：

步骤1)建立语义解释模型；

步骤2)构建语义语料库：按语义解释模型人工标注文本并存储，每个文本对应一条语料；

步骤3)统计计算：依据建立的语料库，统计所有词语及其各个语义表示出现的语料数及语料库中的语料总数；

步骤4)词语语义转换：对新输入文本D，分词，去停止词，得到按出现顺序排列的词语列表[t₁,t₂,......,t_n]，依据统计词频由高到低选取前m个词语[t₁',t₂',......,t_m']，m可取从1到n内的任意整数，按下述步骤行语义转换后，建立向量空间模型V₁；

步骤4.1)取其中任一词语t_k'设其在原文排序为i,将距离其最近的j个词语作为t_k'上下文，即C:[t_i-j/2,t_i-j/2+1,......,t_i+1,......,t_i+j/2]，其中j为窗口长度，取整数；当i-j/2＜0时，令j＝2i；当i-j/2在不为整数时，下取整；当i+j/2不为整数时，上取整；

步骤4.2)，在语义语料库中，选取包含t_k'的所有语料，计算上下文C与各条语料p类节点内容的词语匹配率，公式如下：

其中，N_same为t_k'的上下文C与某语料p类节点内容相同的词语数；

步骤4.3)，选取匹配率高于ε的N条语料为候选语料，ε为阈值，取0到1间小数；

步骤4.4)，在N条候选语料中统计t_k'的p类节点内容，将出现次数最多的p类节点内容作为t_k'的语义表示；

步骤4.5)重复所述步骤4.1～4.4，依次转换剩余的m-1个词语；

步骤5)建立全部文本向量空间模型，对未进行语义转换的词语建立向量空间模型V₂，将V₁与V₂相加，得到全文本向量空间模型V；

步骤6)对新文本D'重复步骤3、步骤4和步骤5，得到其向量空间模型V'；

步骤7)利用余弦公式，计算文本D与D'相似度。

2.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法，其特征在于，所述步骤4，依据TF-IDF计算公式，计算权重，构建前m个高频词语的所述向量空间模型V₁:[p₁,p₂,......,p_m]；TF-IDF值计算公式如下：

其中，tf为某词语经过语义转换后，该语义表示出现的频率，例如若词语为t，转换后其语义表示为p_i，则tf即指文本中，语义表示为p_i的t出现的次数；D为语义语料库中语料总数；D_w为包含t，且其语义表示为p_i的语料数。

3.根据权利要求2所述的一种基于人工智能文本语义相似度分析的语义解释方法，其特征在于，所述步骤5)，依据所述TF-IDF值计算公式，计算余下n-m个词语的权重，构建所述向量空间模型V₂:[w₁,w₂,......,w_n-m]，其中tf为词语在文中出现的频率，D_w为包含该词语的语料数。

4.根据权利要求1所述的一种基于人工智能文本语义相似度分析的语义解释方法，其特征在于，所述步骤7)，利用余弦公式：