[发明专利]一种文本聚合方法以及文本推荐方法在审
申请号: | 202210177000.3 | 申请日: | 2022-02-25 |
公开(公告)号: | CN114443820A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 贺广福;薛源海;陈翠婷;俞晓明;刘悦;沈华伟;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F40/216;G06F40/237;G06F40/284 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 聚合 方法 以及 推荐 | ||
本发明提供了一种文本聚合方法以及文本推荐方法,该一种文本聚合方法包括获取待处理的文本;利用经改进的SimHash算法计算文本的指纹信息,其中,经改进的SimHash算法在对文本中相应词语的哈希值进行加权时,利用词语在该文本内的权值以及在该文本所处领域中该词语的领域权值进行加权;利用领域权值对文本的领域关联性进行打分,得到文本的领域分值;将文本的指纹信息分为多个指纹段,基于指纹段的数值构建倒排索引,其中,倒排索引对应的键值对中,键存储指纹段的数值,值存储文本相关信息,文本相关信息包括文本的指纹信息和领域分值;通过领域权重对文本进行打分,构建倒排索引,以避免后期推荐相似文本时重复处理数据库内的文本,极大地提升了处理效率。
技术领域
本发明涉及数据处理领域,具体来说涉及文本相似性分析领域,更具 体地说,涉及一种文本聚合方法以及文本推荐方法。
背景技术
在文本推荐领域,通常需要计算文本相似性。文本相似性检测算法主 要有K-shingle算法、MinHash算法和SimHash算法。下面对这三种算法 分别进行介绍:
假设文档Doc=[w1,w2,…,wn]是由n个词语组成的。K-shingle算法 中,将文档表示为k(k值的大小可以根据需要设置)个连续的词语组成 的词组,即K-shingle=[wi,wi+1,…,wi+k-1],其中,i≥1,i+k-1≤n。 对比文档A和文档B的K-shingle,将同时出现在文档A和文档B中的词 组记作A∩B,将出现在文档A或者文档B中的词组记作A∪B,通过Jaccard相似度计算文档A和B的相似度为:K-shingle算法中k值设置得越 大,对文档语义的表达能力越强,计算出的相似度越可靠;反之相似度越 不可靠。假设文档集合包含T个文档,为了计算所有文档两两间的相似度, 需要计算次。
MinHash算法对K-shingle算法进行了改进,使用所有文档的 K-shingle词组构建倒排索引I=[c1,c2,…,cm]。将文档Doci的K-shingle 词组转为{0,1}表示的m维向量(如果Doci的K-shingle词组中存在c1, 那么向量的第一位为1,以此类推)。然后将m维向量进行哈希运算进行重 新排序。从排序结果中,随机取n个非零元素的下标,构成n维向量(一 般n远小于倒排索引长度m和词组长度k)。MinHash算法虽然仍需要比较 次,但是降低了待比较的向量维度,与K-shingle算法相比,提升 了计算效率。
SimHash算法将文章中的词语加权计算生成二进制向量,作为文章指 纹数据。文章内容相似度其中,d表示两个文章指纹数据的海明距 离,len表示指纹数据的二进制位数。如果为长文,可取词频较高的len个 词作为计算依据,进一步降低需要计算的向量维度到常数级别。在实际工 程实践时,可以利用抽屉原理优化SimHash的对比次数:例如,文章指纹 数据为64位时,指纹数据的海明距离小于等于3认为文章相似;如果将 指纹数据分为相等长度的4段,那么两个相似的文章,它们的指纹数据至 少有一段是相等的。因此,有一个段相等才可能是相似文章,那么通过对 比指纹段,可以快速定位到可能相似的文章集合T′(T′≤T,T为文档集合 中的文档总数)。SimHash算法与MinHash算法相比,可以在仅增加常数倍 的存储的条件下,显著减少比较次数。SimHash算法计算文章的指纹数据时,只与词语权重数据相关,与其他文档无关,适合流式计算场景。
传统的文章集合排序方法,使用词频和文章长度计算,得分的计算方 式为:
其中,cfi表示第i个特征词的词频,doc_len表示文章中的总词数,n表 示特征词的总数。该方法仅考虑了特征词和文章长度进行排序,特征词占 比越高的文章,得分越高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210177000.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高耸钢结构的快速组装组件
- 下一篇:一种基于人工智能的出行共享系统