[发明专利]一种文本相似度计算方法在审
申请号: | 201210491145.7 | 申请日: | 2012-11-27 |
公开(公告)号: | CN103838789A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 汲业;徐青 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 相似 计算方法 | ||
技术领域
本发明涉及一种个性化商品推荐技术,特别是一种文本相似度计算方法。
背景技术
随着电子商务网站的快速发展,人们越来越依赖电子商务网站来购买商品。但是电子商务网站上的商品不论是数量还是种类都在以指数速度增长,要从这个海洋中准确迅速地找到并获得自己所需要的商品却很困难。用户在查询时往往会迷失他们的目标。因此,很多用户在浏览站点时,往往花费大量的时间和精力浏览与自己想买的商品无关的页面,这使得很多用户对在此网站购买商品失去信心,从而使该网站丧失很多用户。为了增加销售、增加用户满意度、增加竞争力和理论研究,电子商务商品推荐系统便应运而生。它的目标是允许电子商务网站向客户提供商品信息和建议,直接与用户交互,模拟商店销售人员向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。
传统的电子商务网站依靠用户注册信息、历史浏览信息来判断用户来建立模型从而判断用户可能感兴趣的商品。主要用到的推荐技术包括基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和基于用户统计信息推荐。传统的电子商务网站用到的推荐系统大致可以分为三大类:个性化推荐、个性化信息检索和个性化网站。但是各种推荐技术都有它特定的适用范围。这些方法都存在许多缺点:基于用户统计信息的推荐技术虽在一些以会员制为主要销售模式的网站却很有用处,但并不适用于普通的电子商务模式;其实基于知识和效用的推荐同基于内容的推荐有一个共同的特点就是需要对项目即推荐产品的特征进行描述,然后才能推荐。
发明内容
为解决现有技术存在的上述问题,本发明要设计一种既可以利用用户个人资料、又可以使用用户历史购买资料并可以适应用户偏好转移的个性化推荐方法。
为了实现上述目的,本发明的技术方案如下:一种文本相似度计算方法,包括以下步骤:
A、文本的表示
商品介绍都是文本格式,但是文本是非结构化数据,未经过处理的文本型数据是无法直接进行相似度计算的,必须将所有的文本表示成能为计算机能够处理的形式。在文本相似度计算领域,文本的表示主要采用向量空间模型(Vector space model,VSM)。其基本思想是把文章d看作向量空间中的一个n维向量(w1,w2,...,wn),其wi为第i个特征的权重。wi可以是布尔值,用来表示特征t是否出现在文章d中;也可以是TF(Term frequency),来表示t在文章d中的重要程度;现在使用最普遍的还是TF-IDF(Term frequency inverse document frequency),是因为它考虑了特征在文章中的分布和文章的长度。本发明使用汉明距离理论来计算文本相似度,所以要使用布尔值作为特征的权重。
要将文章表示为向量空间中的一个向量,就首先要将文章分词。因为词是最小的能够独立活动的有意义的语言成分。但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。因此,自动识别词的边界,将汉字串切分为正确的词串的汉语分词问题无疑是进行中文文本分类的首要问题。汉语自动分词是对汉语文本进行自动分析的第一个步骤。可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过程,此过程的主要问题是对大量歧异现象的处理。分词体现了汉语与英语的显著的不同。英语文本是小字符集上的已充分分隔的词串,而汉语文本是自动分词系统需要做的工作。分词系统的输入是连续的字符串,输出是汉语的词串(W1,W2,...,Wn)。这里,Wi可以是单词也可以是多词。现有的分词算法可分为三大类:基于字符串匹配的分词,又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,表示识别出一个词;基于理解的分词,即通过让计算机模拟人对句子的理解,在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;基于统计的分词:在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,字与字相邻共现的频率或概率能够较好的反映成词的可信度。到底哪种分词算法的准确度更高,目前并无定论。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210491145.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于油浴润滑方式的轴承带油盘
- 下一篇:一种实用型供油壶