[发明专利]一种基于主题情感联合概率的电子商务虚假评论识别方法有效
申请号: | 201810464828.0 | 申请日: | 2018-05-16 |
公开(公告)号: | CN108874768B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 纪淑娟;董鲁豫;张纯金;张琪;李达 | 申请(专利权)人: | 山东科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06Q30/00 |
代理公司: | 青岛智地领创专利代理有限公司 37252 | 代理人: | 种艳丽 |
地址: | 266590 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于主题情感联合概率的电子商务虚假评论识别方法,属于自然语言处理、数据挖掘和机器学习领域。在不同领域数据下,STM模型优于其他对比模型;对比其他模型,STM模型属于完全的无监督(没有标签信息)统计学习方法,且在处理不均衡大样本数据集上表现出很大的优势,因此STM模型更适合应用到真实电子商务环境中。 | ||
搜索关键词: | 电子商务 电子商务环境 机器学习领域 自然语言处理 标签信息 对比模型 领域数据 数据挖掘 统计学习 不均衡 大样本 数据集 无监督 概率 评论 联合 应用 表现 | ||
【主权项】:
1.一种基于主题情感联合概率的电子商务虚假评论识别方法,其特征在于:首先进行如下定义:STM模型是主题情感联合概率模型,该模型是一个9元组,![]()
其中,α是反应隐藏主题间和情感间的相对强弱的超参数;μ是反应关于主题的情感概率分布的超参数;β是词的概率分布的超参数;
是K维的狄利克雷随机变量,是主题概率分布矩阵;
是K*T维的狄利克雷随机变量,是情感概率分布矩阵;
是K*T*N维狄利克雷随机变量,是词的概率分布矩阵;zm,n是文档m的第n个词所属的主题;sm,n是文档m的第n个词所属的情感;wm,n是离散数据的基本单元,被定义为文档m中索引为n的词;所述的基于主题情感联合概率的电子商务虚假评论识别方法,具体包括如下步骤:步骤1:初始化STM模型的超参数α,μ,β;步骤2:设置合适的主题个数、情感个数和Gibbs sampling最大迭代次数;步骤3:训练STM模型,直到模型稳定收敛;步骤4:将STM模型计算得到的情感概率分布矩阵
作为特征,输入到分类器进行训练;步骤5:将新的无标签样本输入到STM模型,并对STM模型进行训练,计算新的无标签样本的情感概率分布矩阵
作为特征;步骤6:将新的无标签样本的情感概率分布矩阵
输入到训练好的分类器中,进行预测;步骤7:分类器输出新的样本的标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810464828.0/,转载请声明来源钻瓜专利网。