[发明专利]一种基于主题情感联合概率的电子商务虚假评论识别方法有效
申请号: | 201810464828.0 | 申请日: | 2018-05-16 |
公开(公告)号: | CN108874768B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 纪淑娟;董鲁豫;张纯金;张琪;李达 | 申请(专利权)人: | 山东科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06Q30/00 |
代理公司: | 青岛智地领创专利代理有限公司 37252 | 代理人: | 种艳丽 |
地址: | 266590 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子商务 电子商务环境 机器学习领域 自然语言处理 标签信息 对比模型 领域数据 数据挖掘 统计学习 不均衡 大样本 数据集 无监督 概率 评论 联合 应用 表现 | ||
本发明公开了一种基于主题情感联合概率的电子商务虚假评论识别方法,属于自然语言处理、数据挖掘和机器学习领域。在不同领域数据下,STM模型优于其他对比模型;对比其他模型,STM模型属于完全的无监督(没有标签信息)统计学习方法,且在处理不均衡大样本数据集上表现出很大的优势,因此STM模型更适合应用到真实电子商务环境中。
技术领域
本发明属于自然语言处理、数据挖掘和机器学习领域,具体涉及一种基于主题情感联合概率的电子商务虚假评论识别方法。
背景技术
随着智能设备的普及和互联网的发展,人们的消费理念和消费模式都发生了不同程度的改变,网上购物成为人们普遍的消费方式。消费者在体验过商品或服务之后会在商品主页上发表自己对商品的观点和情感,因此这些大量的在线历史评论为卖家和买家提供了丰富的信息资源。然而C2C电子商务平台存在信息不对称性,即买家对于卖家的信息掌握的较少。因此买家在做出购买决策之前会通过评论了解之前用户体验商品的感受,希望能够得到有用的信息使自己理性地做出正确的购买决策。这种在线评论的机制确实有助于为用户和商家间接交流提供信息。一方面商家可以通过评论更好地精准营销;另一方面,用户也能够通过参考历史交易的评论信息寻找自己满意的商品。
研究表明,消费者的反馈能够极大地影响潜在消费者的购买动机。当用户在商品评论网页下查询到大量的负面评论之后,80%的人会改变原来的购买决策,此外,绝大多数用户在看到正向评论之后更有意愿购买商品。Luca等通过研究外国点评网站yelp的消费者评论发现,每当消费者对酒店评论的评分上升一个星级,酒店的收入会相应地增加5%-9%。
正是由于在线评论对于消费者决策和商家的利益有至关重要的作用,所以有些商家才会利用虚假评论迷惑消费者。不法商家抓住电子商务网站评论机制的漏洞,为了提高自己的利益和声誉雇佣网络水军撰写不实的言论迷惑消费者。这种行为不仅干扰了消费者的购买决策而且使得信誉良好的商家利益降低。因此,如何能够过滤掉虚假评论帮助用户避免逆向选择从而做出正确决策是研究者一直致力攻克的难点。因此,本申请通过STM模型挖掘出评论文本中的主题情感联合概率作为区分真实评论和虚假评论的证据,然后通过分类器进行判别评论的真假。
众所周知,消费者在针对商品或服务进行评论的时候,通常是针对某个特定的方面评价并表达自己的情感。例如,yelp评论文本,文本内容主要有两个特点:一是评论文本的内容往往是对于某个特定商品或服务的方面进行评价;二是评论文本方面的时候同时表达出相应的情感倾向信息。基于这种人们撰写评论的行为习惯,我们提出了如下假设:
假设1:在评论文本中,表达的情感是依赖于特定的主题(方面)
为了能够刻画出上面所提到的文本的隐藏主题和情感信息,本专利提出了主题情感联合概率模型STM(Sentiment Joint Topic Model),该模型在LDA模型的基础上扩充了情感层,能够将评论文本中的主题和对应的情感信息抽取出来。与同是主题情感混合模型的JST和ASUM模型相比,STM模型与他们的相同之处在于都是在LDA模型的基础上增加了情感层,使其扩展到了四层模型:文档层、主题层、情感层和词层。
STM模型与同时考虑情感和主题因素的JST、ASUM模型的最大不同之处在于:JST和ASUM模型的结构层次为“文档-情感(这里所说的情感只有正向、负向两种。)-主题-词”,它们认为主题是依赖于情感,即每一个情感下都有一个主题分布;STM模型的结构层次是“文档-主题-情感-词”,STM模型认为情感的产生是依赖于主题,即每一个主题下都有一个情感分布。STM模型的“文档-主题-情感-词”的四层模型结构更能够符合评论者在撰写评论时的思想意识。此外,ASUM模型假设评论中同一主题的词趋向与邻近词,同时,对这个主题做出的情感的评价的词也趋向于邻近词。因此,ASUM模型假设同一个单句中的词都来源于同一个主题和同一个情感,即句子为主题和情感的最小单位。在实践中这样的约束设置并不是都适用。STM模型与同时考虑情感和主题因素的逆JST(reversed JST)模型的本质区别是前者是完全非监督学习,而后者是半监督学习方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810464828.0/2.html,转载请声明来源钻瓜专利网。