[发明专利]一种文本相似度计算方法在审
申请号: | 201210491145.7 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103838789A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 汲业;徐青 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本相似度计算方法,包括以下步骤:文本的表示和文本相似度计算。文本的表示的目标是将一个商品描述的文本文档转化为一个向量来进行描述,本发明采用中文分词、去停用词、统计词频等自然语言处理技术将每个对商品的描述文本转化为一个向量;使用基于汉明距离的方法计算文本相似度,汉明距离的另外一个优势在于计算速度特别快。由于使用了统计机器学习的方法,使得本发明比传统基于规则的方法更加稳定、更加有效。 | ||
搜索关键词: | 一种 文本 相似 计算方法 | ||
【主权项】:
1.一种文本相似度计算方法,其特征在于:包括以下步骤:A、文本的表示商品介绍都是文本格式,但是文本是非结构化数据,未经过处理的文本型数据是无法直接进行相似度计算的,必须将所有的文本表示成能为计算机能够处理的形式;在文本相似度计算领域,文本的表示主要采用向量空间模型;其基本思想是把文章d看作向量空间中的一个n维向量(w1,w2,...,wn),其wi为第i个特征的权重;wi可以是布尔值,用来表示特征t是否出现在文章d中;也可以是TF,来表示t在文章d中的重要程度;现在使用最普遍的还是TF-IDF,是因为它考虑了特征在文章中的分布和文章的长度;本发明使用汉明距离理论来计算文本相似度,所以要使用布尔值作为特征的权重;要将文章表示为向量空间中的一个向量,就首先要将文章分词;因为词是最小的能够独立活动的有意义的语言成分;但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键;因此,自动识别词的边界,将汉字串切分为正确的词串的汉语分词问题无疑是进行中文文本分类的首要问题;汉语自动分词是对汉语文本进行自动分析的第一个步骤;可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过程,此过程的主要问题是对大量歧异现象的处理;分词体现了汉语与英语的显著的不同;英语文本是小字符集上的已充分分隔的词串,而汉语文本是自动分词系统需要做的工作;分词系统的输入是连续的字符串,输出是汉语的词串(W1,W2,...,Wn);这里,Wi可以是单词也可以是多词;现有的分词算法可分为三大类:基于字符串匹配的分词,又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,表示识别出一个词;基于理解的分词,即通过让计算机模拟人对句子的理解,在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;基于统计的分词:在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,字与字相邻共现的频率或概率能够较好的反映成词的可信度;到底哪种分词算法的准确度更高,目前并无定论;对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法;本论文中的分词采用中科院的分词系统ICTCLAS;ICTCLAS系统首先,进行粗分词采用N2最短路径方法将最短路径方法和全切分的有机结合;然后对粗分词的结果按照标准字典进行词性的标注;在进行了NE识别以后,重新分词找出联合概率最大的分词结果,最后对分词结果重新标注词性;中文文本中,能标识文本特性的往往是文本中的实词,而文本中的一些虚词对于标识文本的特性并没有贡献;如果把虚词也作为文本特征,将会带来很大噪音,从而直接降低文本相似度计算的效率和准确率;在提取文本特征时,应首先剔除虚词,只提取文本中的实词作为文本的一级特征;B、文本相似度计算确定了特征向量,所有的文本在分词以后,都要使用最终特征集标准化,所有的文本可以用一个向量来描述;传统文本相似度计算方法是利用向量空间模型,根据词频TF以及逆文本频率IDF,赋予该向量各个分量的权值,与欧氏空间的向量一一对应,借用欧氏空间中求向量夹角余弦的方法得到文本q和d之间的相似度的定量表示,用如下三个公式所示:q={wq1,wq2,…,wqn}d={wd1,wd2,…,wdn}sim ( q , d ) = cos ( q , d ) = Σ i = 1 n w qi · w di Σ i = 1 n w qi 2 · Σ i = 1 n w di 2 ]]> 另外还有广义向量空间模型,隐性语义索引模型和以属性理论为基础的属性重心剖分模型等方法;属性重心剖分模型用属性坐标系描述文本向量与查询式向量,并确定向量之间的匹配基准,计算匹配距离;以上这些方法,它们都不外乎利用欧氏空间,微分几何中单纯形等概念,把文本与查询式描述成空间中的向量,再在向量空间中定义诸如内积等运算,由此来定量地描述文本与查询式之间的相似度;本文使用另一种求文本相似度的方法,它借助编码理论中汉明距离的概念,通过求文本之间的汉明距离,来计算文本的相似度;在信息论中,汉明距离是一个基本的概念,描述两个n长码字x=(x1,x2,...xk,...xn),y=(y1,y2,...yk,...yn)之间的距离如下公式所示:D ( x , y ) = Σ k = 1 n x k ⊕ y k ]]> 其中
表示模2加运算,xk∈{0,1},yk∈{0,1};D(x,y)表示两码字在相同位置上不同码符号的数目的总和,它能够反映两码字之间的差异,进而提供码字之间的相似程度的客观依据;对于文本来说,可以把描述文本的向量看成一个有n位序列的码字,文本的信息就用这些码字表示,使文本与码字建立一一对应关系;比如文本q和d可表示为qh={10011100....1001},dh={10000111...0000};在这里0或1分别表示相对应的文本信息的状态,0表示文本在这分量位置上的信息是没有的,1表示文本在这一分量位置上的信息是有的,反之也可以类似规定;因此,对于原来的文本集合,它可以一一对应于码字的集合,研究文本集合中的文本相似关系,就用码字之间的汉明距离来表征;q和d这两个码字的汉明距离,可用上面的公式计算,它较好地反映了文本之间的相互关系;对于D(q,d)来说,它们之间的距离介于0与n之间,当文本与查询式用n位码字表示完全不同时,距离值为0,当文本与查询式的码字完全相同时,则它们的距离为n,它定量地描述文本之间的差异程度;定义相似度计算公式如下:sim ( q , d ) = 1 - ( Σ k = 1 n qh k ⊕ dh k ) / n ]]> 其中qhk,dhk分别表示文本p,d对应的码字qh和dh中第k位的分量,要么为1要么为0;对于计算机来说,模2加运算非常方便,可以达到极快的速度;使用一部分商品的详细介绍生成标准向量,具体过程为:首先把商品的详细介绍分词,然后使用基于杂质能级的特征评价方法为每一个特征项评分,按照特征项的分值排序,取出分值最大的n个作为标准特征向量空间;将所有商品的详细描述进行分词,使用词条形式的向量代替商品的介绍,把词条向量按照标准特征向量空间中的词条进行向量的标准化,向量中的分量使用布尔型数据作为每个特征项的权重,方便使用汉明距离计算文本的相似度,也就是商品的相似度;当用户在浏览网站中的商品时,可以简单的获得用户当前浏览商品的事务,商品候选集推荐模块根据事务的最后两项可以推荐出一个推荐候选集合,使用基于汉明距离的方法计算推荐候选集合中所有商品与用户当前浏览商品的相似度,此时的商品相似度就可以作为商品的推荐值;取出相似度最大的5个商品作为商品推荐系统的输出数据,给用户展示出来。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210491145.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于油浴润滑方式的轴承带油盘
- 下一篇:一种实用型供油壶