[发明专利]一种数据处理方法、设备、系统及计算机可读介质有效
申请号: | 201711283167.3 | 申请日: | 2017-12-07 |
公开(公告)号: | CN107967260B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 董超;崔朝辉 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 郭一斐;叶万东 |
地址: | 110179 辽宁省沈*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 设备 系统 计算机 可读 介质 | ||
本申请涉及一种数据处理方法、设备、系统及计算机程序产品,其中方法包括:对原始数据进行预处理以获得多个数据集;基于所检测到的情感标识和评价对象来生成包括内容项的意见短语,并且为每个意见短语设置关联权重;基于情感标识对意见短语进行分类,以确定正面意见短语集合和负面意见短语集合;基于评价对象来获得多个正面对象组和多个负面对象组;以及基于每个正面对象组中内容项的组内相似度确定正面表达项,并基于每个负面对象组中内容项的组内相似度确定负面表达项。
技术领域
本申请涉及数据处理领域,并且更具体地涉及一种数据处理方法、设备、系统及计算机可读介质。
背景技术
目前,在针对用户评论数据进行处理的领域,通常需要针对用户评论数据中的典型意见进行抽取。典型意见抽取是指针对同一事件或话题的大量评论信息,通过文本处理抽取出评论信息中的具有代表性的观点或评论。典型意见抽取也可以理解成观点归纳或观点总结。典型意见抽取的意义在于其能够方便用户快速地从用户评论数据中了解相关的重点信息,并且可以从多个维度进行用户评论数据的归纳总结。
通常,典型意见抽取一般是针对某个事件、话题、产品的用户评论进行意见抽取。然而,现有技术中并没有针对用户评论数据进行有效地正面意见抽取和负面意见抽取的手段。在现有技术中,通常仅仅区分好评或差评并且将用户评论数据按照好评或差评进行分类展示。
发明内容
本申请针对用户评论数据的特点,将原始的用户评论数据进行正负面情感分析。通过将原始的用户评论数据分为正面评价和负面评价两部分,能够分别对这两部分进行正面意见抽取和负面意见抽取。通过意见抽取有助于形成意见短语并且意见短语是由若干字词组成。在确定意见短语后,可以确定与该意见短语具有同样观点的热度,其中观点的热度是指在所有用户评论中和该观点相类似的观点的权重累加和。通常,权重累加和越大,表明该观点更具代表性。
根据本发明的一个方面,提供一种数据处理方法,所述方法包括:
对原始数据进行预处理以获得多个数据集,其中每个数据集包括至少一个数据单元;
基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语,并且为每个意见短语设置关联权重;
基于情感标识对意见短语进行分类,以确定正面意见短语集合和负面意见短语集合;
基于评价对象对所述正面意见短语集合中的意见短语进行归类以获得多个正面对象组,并且基于评价对象对所述负面意见短语集合中的意见短语进行归类以获得多个负面对象组;以及
基于每个正面对象组中内容项的组内相似度确定正面表达项,并基于每个负面对象组中内容项的组内相似度确定负面表达项。
在确定正面表达项之后还包括:基于关联权重计算所述正面表达项的热度,以及在确定负面表达项之后还包括:基于关联权重计算所述负面表达项的热度。
所述原始数据是与特定物品相关联的用户评论数据,并且所述对原始数据进行预处理以获得多个数据集包括:按照用户标识将与特定物品相关联的用户评论数据进行分类以生成多个评论集,并以用户标识作为每个评论集的唯一标识。
对每个评论集进行语义划分,以生成包括至少一个数据单元的数据集,其中所述数据单元为包括基本语义结构的句子。
在基于每个数据单元中所检测到的情感标识和评价对象来生成包括内容项的意见短语之前还包括:对每个数据单元进行词语划分并且对经过词语划分所得到的词语进行词性标注。
对经过词语划分和词性标注的数据单元进行情感标识的检测,并且确定所检测到的情感标识的情感极性。
基于所检测到的情感标识确定相关联的评价对象,其中所述评价对象是词性为名词的词语。
基于所检测到的情感标识和相关联的评价对象确定所述内容项,所述内容项用于表示评论内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711283167.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:泰语音节切分的方法及装置
- 下一篇:智能客服中交互式问句语义理解方法