[发明专利]一种基于层次化AP聚类的商品评论数据标签化系统和方法有效
申请号: | 201710678136.1 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107633007B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 彭敏晶;张朕轩;唐晨馨;李运蒙 | 申请(专利权)人: | 五邑大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F40/289;G06K9/62;G06Q30/02 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁嘉琦 |
地址: | 529000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 ap 商品 评论 数据 标签 系统 方法 | ||
1.一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块,其特征在于,该系统包括:
数据抓取模块,从相关电商网站获取目标商品的评论数据,从评论数据中抽取语料信息,对语料信息和评论数据进行存储;
词向量训练模块,对数据抓取模块获得语料信息进行分词处理和去噪整合,得到训练语料集;
特征信息抽取模块,确定不同词性的权重赋值,确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,根据特征信息属性值抽取算法,基于词性和种子词典得到评论数据的属性值,将属性值的抽取结果用于词性及依存句法模板抽取模型,得到特征信息抽取模板,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息集合;
特征信息标签化模块,将通过特征信息抽取模块抽取的特征信息转换为向量表现形式,使用k-means聚类方法对特征词语向量进行一次聚类,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果。
2.根据权利要求1所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于,所述的数据抓取模块包括:
数据抓取子模块,筛选所有相关的具体商品信息,从中抽取商品ID、已有标签和评论数据;
训练语料抽取子模块,将评论数据去除标点符号、特殊符号、数字,将换行符转化为空格,去除相同词语,得到标准格式的训练语料;
数据存储子模块,存储得到的评论数据和训练语料。
3.根据权利要求1所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于,所述的词向量训练模块包括:
分词子模块,采用以组合分词为核心的分词算法,应用隐马尔科夫模型,通过SmartChinese analyzer分词器将评论数据分词,提供一个可供用户自定义词汇库的接口;
去噪整合子模块,将分词得到的数据中的标点和换行符换成空格,去掉特殊符号,得到训练语料集。
4.根据权利要求1所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于,所述的特征信息抽取模块包括:
词性权重子模块,统计不同词性出现的频率,选取频率高且与属性值的相关性高的词性为重点分析词性,根据重点分析词性的频率值对重点分析词性重新进行权重赋值;
种子词典子模块,根据商品的已有标签和商品的介绍页面的特征信息确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,确定词性权重为0.4,词与种子词典的相关性权重为0.6;
特征信息属性值抽取子模块,通过综合考虑词语的词性特征和隐含语义特征确定其是否为电商评论特征信息的属性值,根据特征信息属性值抽取算法,基于词性和种子词典得到评论数据的属性值;
词性及依存句法模板抽取子模块,对分词后的语料进行词性标注,利用LTP平台提供的依存句法分析工具,提取出所有与属性值有一级关系的词语,统计所有特征词对的词性及依存句法关系出现频率,将频繁的词性和依存句法关系作为抽取模版;
特征信息抽取算法子模块,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息。
5.根据权利要求1所述的基于层次化AP聚类的商品评论数据标签化系统,其特征在于,所述的特征信息标签化模块包括:
特征信息向量化模块,将通过特征信息抽取模块抽取的特征信息通过word2vec转换为向量表现形式,每个单词的向量维度为n维,一个特征信息的向量维度为2n维;
k-means聚类模块,借助电子商务评论信息中商家预定的标签确定初始参照模版,将标签总数作为聚类个数,各标签的相近特征信息作为聚类中心,使用k-means聚类方法对每组特征词语向量数据的前n维进行一次聚类,第一层聚类的获得数据为所有特征信息的属性值;AP聚类模块,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果,二次聚类的对象为一次聚类后各分类中的特征词语,所用的数据为特征词语的后n维向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710678136.1/1.html,转载请声明来源钻瓜专利网。