[发明专利]一种数据处理方法、设备、系统及计算机可读介质有效

专利信息
申请号: 201711283167.3 申请日: 2017-12-07
公开(公告)号: CN107967260B 公开(公告)日: 2021-09-14
发明(设计)人: 董超;崔朝辉 申请(专利权)人: 东软集团股份有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F16/35
代理公司: 北京工信联合知识产权代理有限公司 11266 代理人: 郭一斐;叶万东
地址: 110179 辽宁省沈*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据处理 方法 设备 系统 计算机 可读 介质
【权利要求书】:

1.一种数据处理方法,所述方法包括:

对原始数据进行预处理以获得多个数据集,其中每个数据集包括至少一个数据单元;

基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语,所述内容项用于表示评论内容,并且为每个意见短语设置关联权重,所述每个意见短语的关联权重是根据每个数据集中意见短语的数量所设置的;

基于情感标识对意见短语进行分类,以确定正面意见短语集合和负面意见短语集合;

基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组,并且基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组;

所述基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组包括:以不同的评价对象作为分组标识符,将所述正面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的正面对象组;和/或

所述基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组包括:以不同的评价对象作为分组标识符,将所述负面意见短语集合中相同评价对象的所有意见短语组成由分组标识符所识别的负面对象组;

基于每个正面对象组中内容项的组内相似度确定正面表达项,并基于每个负面对象组中内容项的组内相似度确定负面表达项;

所述基于每个正面对象组中内容项的组内相似度确定正面表达项包括:确定每个正面对象组的意见短语中的至少一个内容项,计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度,将匹配相似度的和作为内容项的组内相似度,将组内相似度最大的内容项作为正面表达项;其中,所述正面表达项用于代表正面对象组;

所述基于每个负面对象组中内容项的组内相似度确定负面表达项包括:确定每个负面对象组的意见短语中的至少一个内容项,计算每个内容项与组内所有其它内容项中每个内容项的匹配相似度,将匹配相似度的和作为内容项的组内相似度,将组内相似度最大的内容项作为负面表达项;其中,所述负面表达项用于代表负面对象组;

其中,根据两个内容项的文本字符串的相似度sim(coni,conj)表示两个内容项的匹配相似度,

其中,coni∩conj表示两个内容项的文本字符串的交集;coni∪conj表示两个内容项的文本字符串的并集;

在确定正面表达项之后还包括:基于关联权重计算所述正面表达项的热度,以及在确定负面表达项之后还包括:基于关联权重计算所述负面表达项的热度;

所述基于关联权重计算所述正面表达项的热度包括:将所述正面表达项所对应的正面对象组中所有意见短语的关联权重求和作为所述正面表达项的热度;

所述基于关联权重计算所述负面表达项的热度包括:将所述负面表达项所对应的负面对象组中所有意见短语的关联权重求和作为所述负面表达项的热度;

根据所述正面表达项的热度对所述正面表达项和热度的匹配对进行降序排列以生成正面表达项列表;从所述正面表达项列表中获取预定数量的匹配对以作为结果数据;以及

根据所述负面表达项的热度对所述负面表达项和热度的匹配对进行降序排列以生成负面表达项列表;从所述负面表达项列表中获取预定数量的匹配对以作为结果数据。

2.根据权利要求1所述的方法,所述原始数据是与特定物品相关联的用户评论数据,并且所述对原始数据进行预处理以获得多个数据集包括:

按照用户标识将与特定物品相关联的用户评论数据进行分类以生成多个评论集,并以用户标识作为每个评论集的唯一标识。

3.根据权利要求2所述的方法,对每个评论集进行语义划分,以生成包括至少一个数据单元的数据集,其中所述数据单元为包括基本语义结构的句子。

4.根据权利要求1所述的方法,在基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语之前还包括:对每个数据单元进行词语划分并且对经过词语划分所得到的词语进行词性标注。

5.根据权利要求4所述的方法,对经过词语划分和词性标注的数据单元进行情感标识的检测,并且确定所检测到的情感标识的情感极性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711283167.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top