[发明专利]一种细粒度的评价信息挖掘方法及系统在审
申请号: | 201711070053.0 | 申请日: | 2017-11-03 |
公开(公告)号: | CN107861946A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 谢忠玉;鲍新平;丁希晨;沈一 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 细粒度 评价 信息 挖掘 方法 系统 | ||
技术领域
本发明涉及网络数据处理技术领域,特别是涉及一种细粒度的评价信息挖掘方法及系统。
背景技术
随着社交网络、移动互联网的不断普及,人们发布信息的成本越来越低,越来越多的用户乐于在互联网上分享自己的观点以及对于人物、事件、产品的评论,而互联网公司也越发希望能通过自动化工具及技术来获取或挖掘这些评论语句所包含的观点信息。挖掘用户观点信息是指从文本中发现带有作者主观情感的内容,用户观点通常包括评价对象、评价词、评价情感、评价所有者、发表时间等信息,其中,评价词五花八门,并且更新迅速。
挖掘用户观点信息主要包含文档倾向性分类和信息抽取两大方面,其中:文档倾向性分类主要侧重对文档进行情感分类研究,如褒义、贬义或中性;而信息抽取则关注于挖掘出用户观点的各组成部分,如评价所有者、评价对象、评价词等。基于信息抽取的数据挖掘首先是确定评价对象,从而准确的确定网络客户评论的主题,随后的评价词提取则是更具体、更具有针对性评价,则称挖掘评价对象与评价词构成的评价词对为细粒度的意见挖掘。
目前,Bing Liu等研究者主要是先对评论语句进行分词标注,然后再使用关联规则挖掘频繁项作为候选评价对象,并对其进行了剪枝处理,但是该方法候选评价对象没有进行有效地筛选,需要对提取出来的所有候选评价对象进行进一步处理,其处理结果无法保证对评论信息的识别精确度。因此,对于海量的评论信息,如何准确的实现评价对象和评价词的信息抽取是本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的在于提出一种细粒度的评价信息挖掘方法及系统,以确定评价语句的信息挖掘,保证对评价语句对应的评价信息识别的精确度。
为达到上述目的,本发明提供了以下技术方案:
一种细粒度的评价信息挖掘方法,包括:
获取初始评价对象种子集和初始评价词种子集;
以所述初始评价对象种子集和所述初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;
将所述新评价对象和所述新评价词添加到所述初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;
从所述目标评价对象种子集和所述目标评价词种子集提取所述评价语句对应的评价信息,所述评论信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。
优选的,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,从所述评价语句中确定新评价对象和新评价词,包括:
以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词。
优选的,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词,包括:
根据依存句法分析法对所述评价语句提取句法依存结构;
以所述初始评价对象种子集和所述初始评价词种子集作为基础,获取所述初始评价对象种子集中初始评价对象的平均出现频次以及所述初始评价词种子集中初始评价词的平均出现频次;
选取所述初始评价对象种子集中出现频次大于所述初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;
选取所述初始评价词种子集中出现频次大于所述初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;
以所述候选评价词集为基础,利用所述候选评价词集中的候选评价词确定新评价词;
以所述候选评价对象集为基础,利用所述候选评价对象集中的候选评价对象确定新评价对象。
优选的,所述利用所述候选评价词集中的候选评价词确定新评价词,包括:
构建所述候选评价词集中的候选评价词与所述初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;
对所述初始评价对象种子集的每个初始评价对象进行初始权重值加权;
在所述评价词无向加权图中进行迭代传播,确定所述候选评价词集中每个候选评价词的权重值;
根据所述候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。
优选的,所述利用所述候选评价对象集中的候选评价对象确定新评价对象,包括:
构建所述候选评价对象集中的候选评价对象与所述初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;
对所述初始评价词种子集的每个初始评价词进行初始权重值加权;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711070053.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置