[发明专利]一种基于LSTM多实体特征融合的虚假评论检测方法有效
申请号: | 202010030663.3 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111259140B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 向凌云;郭国庆;刘宇航 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/24;G06F18/25;G06N3/0442;G06N3/0464 |
代理公司: | 北京迎硕知识产权代理事务所(普通合伙) 11512 | 代理人: | 钱扬保;张群峰 |
地址: | 410114 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm 实体 特征 融合 虚假 评论 检测 方法 | ||
本发明公开了一种基于LSTM多实体特征融合的虚假评论检测方法,包括以下步骤:步骤1,将评论按用户和产品分别进行分组,提取待检测评论基于产品实体的评论序列和基于用户实体的评论序列;步骤2,对每个实体中的评论进行向量化,使用卷积神经网络提取文本特征;步骤3,根据相关行为分析,对每个实体的每条评论的行为特征进行提取;步骤4,将每个实体中每条评论的文本特征与行为特征进行联合,对评论的时序联合特征进行再提取,得到待检测评论在各个实体中的特征向量表示形式;步骤5,融合待检测评论在不同实体中的特征向量,学习新的特征并构建分类器,进行虚假评论和正常评论的判定。
技术领域
本发明涉及文本挖掘领域,尤其涉及一种基于LSTM多实体特征融合的虚假评论检测方法。
背景技术
随着计算机技术的发展,网络与人们的生活紧紧联系到了一起,通过网络售卖货物已经越来越成为一种重要的销售方式,网上购物往往会受到他人对货物评论的影响,而人们也产生了强烈动机,通过发布一些虚假的观点或评论,来推销或诋毁一些目标产品、服务、组织或个人。
为检测虚假评论,已经有人进行了大量工作,他们从评论文本与用户数据两方面出发,试图找到用于表示虚假评论的线索,提取有效的文本特征和行为特征,并依此特征将评论进行表示,进而使用统计模型来检测虚假评论,然而现有的检测方法效果较差,无法精确的判别哪些评论是虚假评论。
为此本发明提出了一种基于LSTM多实体特征融合的虚假评论检测方法,能够精确的进行虚假评论检测。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种基于LSTM多实体特征融合的虚假评论检测方法,包括以下步骤:步骤1,将评论按用户和产品分别进行分组,提取待检测评论基于产品实体的评论序列和基于用户实体的评论序列;步骤2,对每个实体中的评论进行向量化,使用卷积神经网络提取文本特征;步骤3,根据相关行为分析,对每个实体的每条评论的行为特征进行提取;步骤4,将每个实体中每条评论的文本特征与行为特征进行联合,对评论的时序联合特征进行再提取,得到待检测评论在各个实体中的特征向量表示形式;步骤5,融合待检测评论在不同实体中的特征向量,学习新的特征并构建分类器,进行虚假评论和正常评论的判定。
所述的检测方法,其中步骤1包括:将评论数据集中的所有评论按照用户分组并依据发布时间进行排序,取用户u在发布待检测评论r之前已发布的k条评论,表示为:
ur={ruk,ru(k-1),…,ru2,ru1,r},
ur为待检测评论r与其对应用户u在待检测评论r之前最新发布的k条评论的集合;
将评论数据集中的所有评论重新按照产品分组并依据发布时间先后进行排序,将产品p在获得待检测评论r之前获得的m条评论表示为:
pr={rpm,rp(m-1),…,rp2,rp1,r}。
所述的检测方法,其中步骤2对于ur和pr中的每一条评论,使用卷积神经网络自动学习来自于评论内容的文本特征,具体过程包括:首先,使用预训练好的word2vec模型,将单条评论中的每个单词转换成300维的向量,经过多核卷积、池化、全连接操作,最终学习到单评论的文本特征输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010030663.3/2.html,转载请声明来源钻瓜专利网。