[发明专利]一种基于层次化AP聚类的商品评论数据标签化系统和方法有效
申请号: | 201710678136.1 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107633007B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 彭敏晶;张朕轩;唐晨馨;李运蒙 | 申请(专利权)人: | 五邑大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F40/289;G06K9/62;G06Q30/02 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁嘉琦 |
地址: | 529000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块;数据抓取模块对语料信息和评论数据进行存储;词向量训练模块得到训练语料集;特征信息抽取模块得到评论数据对应的特征信息集合;特征信息标签化模块得到聚类后的评论数据标签化结果。本发明的有益效果为:提供了一种基于层次化AP聚类的商品评论数据标签化的系统和方法,达到了自动完成评论数据标签化的目的,并且可以挖掘这些特征信息的价值取向,以标签的形式展现给商家和客户,为后续的数据分析提供支持,也可以为企业和消费者提供一个方便、科学、直观地获取有用评论信息的工具。 | ||
搜索关键词: | 一种 基于 层次 ap 商品 评论 数据 标签 系统 方法 | ||
【主权项】:
一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块,其特征在于,该系统包括:数据抓取模块,从相关电商网站获取目标商品的评论数据,从评论数据中抽取语料信息,对语料信息和评论数据进行存储;词向量训练模块,对数据抓取模块获得语料信息进行分词处理和去噪整合,得到训练语料集;特征信息抽取模块,确定不同词性的权重赋值,确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值,将属性值的抽取结果用于词性及依存句法模板抽取模型,得到特征信息抽取模板,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息集合;特征信息标签化模块,将通过特征信息抽取模块抽取的特征信息转换为向量表现形式,使用k-means聚类方法对特征词语向量进行一次聚类,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710678136.1/,转载请声明来源钻瓜专利网。