[发明专利]数据处理方法及其设备有效

专利信息
申请号: 201710537066.8 申请日: 2017-07-04
公开(公告)号: CN107273362B 公开(公告)日: 2020-10-30
发明(设计)人: 刘帅 申请(专利权)人: 联想(北京)有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F40/205;G06F40/242;G06F40/284
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 吕雁葭
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据处理 方法 及其 设备
【说明书】:

本公开提供了一种数据处理方法,该方法包括:获取语料数据,其中,与语料数据对应的语料包含至少一个语句;基于语料数据对语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个;基于分句处理结果,确定至少一个语句数据中第一语句数据包含的主题词集合;以及按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句数据的主题词。本公开还提供了一种数据处理系统以及一种数据处理设备。

技术领域

本公开涉及一种数据处理方法及其设备。

背景技术

随着电子商务技术和互联网技术的发展,用户可以通过多种渠道对其关注的企业或者产品发布评价,这些评论一般会涉及企业或者产品的多个主题,如何对这些海量的评论语料进行处理,识别出评论语料的主题,对舆情分析有非常重要的指导意义。

在实现本公开的过程中,发明人发现现有技术中至少存在如下问题,面对海量的语料,难以准确地识别出评论语料的主题。

针对相关技术中的上述问题,目前还未提出有效的解决方案。

发明内容

有鉴于此,本公开提供了一种数据处理方法、数据处理系统及数据处理设备。

本公开的一个方面提供了一种数据处理方法,包括:获取语料数据,其中,与上述语料数据对应的语料包含至少一个语句;基于上述语料数据对上述语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个;基于分句处理结果,确定上述至少一个语句数据中第一语句数据包含的主题词集合;以及按照预设规则从上述主题词集合中选出满足预设条件的主题词作为上述第一语句数据的主题词。

可选地,基于上述语料数据对上述语料进行分句处理,以得到至少一个语句数据包括:确定上述语料的语料来源,其中,不同的语料来源对应于不同的语料分句处理规则;基于确定出的语料来源,获取用于对上述语料的第一语料进行分句处理的规则;以及基于上述第一 语料分句处理规则和上述语料数据对上述语料进行分句处理,以得到至少一个语句数据。

可选地,确定上述至少一个语句数据中第一语句数据包含的主题词集合包括:从上述至少一个语句数据中确定出关键句,其中,上述关键句根据上述至少一个语句数据中各语句数据之间的相似度确定;分析获取上述关键句包含的主题词集合,以及按照预设规则从上述主题词集合中选出满足预设条件的主题词作为上述第一语句数据的主题词包括:按照主题词权重值的大小从上述关键句包含的主题词集合中选出权重值最高的主题词作为上述关键句的主题词。

可选地,当确定上述至少一个语句数据中的第二语句数据不是上述关键句时,确定上述第二语句数据的主题词集合;获取与上述第二语句数据相邻的第三语句数据的主题词;若上述第二语句数据的主题词集合包含上述第三语句的主题词,则将上述第三语句数据的主题词作为上述第二语句的主题词;或者若上述第二语句数据的主题词集合不包含上述第三语句的主题词,则按照主题词权重值的大小从上述第二语句数据的主题词集合中选出权重值最高的主题词作为上述第二语句数据的主题词。

可选地,若上述第二语句数据的主题词集合为空集,则将上述第三语句数据的主题词作为上述第二语句的主题词,或按照主题词权重值的大小从上述第三语句数据的主题词集合中选出权重值最高的主题词作为上述第二语句数据的主题词。

可选地,当上述第二语句数据为上述关键句的相邻句时,上述第三语句数据为上述关键句。

本公开的另一个方面提供了一种数据处理系统,包括:获取模块,用于获取语料数据,其中,与上述语料数据对应的语料包含至少一个语句;处理模块,用于基于上述语料数据对上述语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个;确定模块,用于确定上述至少一个语句数据中第一语句数据包含的主题词集合;以及选择模块,用于按照预设规则从上述主题词集合中选出满足预设条件的主题词作为上述第一语句数据的主题词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710537066.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top