[发明专利]文本相似度的计算方法、装置、电子设备及存储介质在审
申请号: | 201811551461.2 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109635077A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 徐乐乐 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 周天宇 |
地址: | 430000 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词汇 文本相似度 交集 词汇集合 并集 存储介质 电子设备 文本 权重 信息技术领域 相似度计算 分词处理 计算装置 空间向量 综合文本 相似度 集合 应用 | ||
1.一种文本相似度的计算方法,其特征在于,包括:
对待处理的两条文本分别进行分词处理,得到组成所述两条文本的两个词汇集合;
将所述两个词汇集合进行并集处理和交集处理,得到所述两个词汇集合的并集词汇和交集词汇;
分别输入各所述词汇至预先训练的TF-IDF空间向量集合,得出各所述词汇的权重值;
基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度。
2.根据权利要求1所述的计算方法,其特征在于,所述基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度包括:
输入所述并集词汇和交集词汇的权重值至如下文本相似度计算公式,计算得出所述两条文本的相似度:
其中,A和B分别表示所述两条文本,w∈A∩B表示文本A与文本B中的交集词汇,w∈A∪B表示文本A与文本B中的并集词汇,wtf-idf表示词汇的权重值,len(A∩B)表示文本A和文本B中交集词汇的数量,len(A)表示文本A中词汇的数量,len(B)表示文本B中词汇的数量,sim(A,B)表示文本A和文本B的相似度。
3.根据权利要求1所述的计算方法,其特征在于,所述TF-IDF空间向量集合由多条语料文本训练得出。
4.根据权利要求3任意一项所述的计算方法,其特征在于,所述TF-IDF空间向量集合由多条语料文本训练得出包括:
对各所述语料文本进行预处理,得到所述语料文本中的特征词;
通过TF-IDF权重公式,向量化各所述特征词,得到所述TF-IDF空间向量集合;
令i表示第i个语料文本,j表示第j个特征词,tfij表示第i个语料文本中第j个特征词的词频,N为语料文本总数,Nwij表示出现第i个语料文本中第j个特征词的语料文本数量,wij表示第i个语料文本中第j个特征词的权重值,则:
5.一种文本相似度的计算装置,其特征在于,包括:
分词模块,用于对待处理的两条文本分别进行分词处理,得到组成所述两条文本的两个词汇集合;
并集处理模块,用于将所述两个词汇集合进行并集处理,得到所述两个词汇集合的并集词汇;
交集处理模块,用于将所述两个词汇集合进行交集处理,得到所述两个词汇集合的交集词汇;
输入模块,用于分别输入各所述词汇至预先训练的TF-IDF空间向量集合,得出各所述词汇的权重值;
计算模块,用于基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度。
6.根据权利要求5所述的计算装置,其特征在于,所述计算模块具体用于输入所述并集词汇和交集词汇的权重值至如下文本相似度计算公式,计算得出所述两条文本的相似度:
其中,A和B分别表示所述两条文本,w∈A∩B表示文本A与文本B中的交集词汇,w∈A∪B表示文本A与文本B中的并集词汇,wtf-idf表示词汇的权重值,len(A∩B)表示文本A和文本B中交集词汇的数量,len(A)表示文本A中词汇的数量,len(B)表示文本B中词汇的数量,sim(A,B)表示文本A和文本B的相似度。
7.根据权利要求5所述的计算装置,其特征在于,所述输入模块的TF-IDF空间向量集合由多条语料文本训练得出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811551461.2/1.html,转载请声明来源钻瓜专利网。