[发明专利]一种中文微博评价对象的抽取方法有效

专利信息
申请号: 201510366805.2 申请日: 2015-06-29
公开(公告)号: CN104915443B 公开(公告)日: 2018-11-23
发明(设计)人: 张仰森;李景玉 申请(专利权)人: 北京信息科技大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06Q50/00;G06K9/62
代理公司: 北京远创理想知识产权代理事务所(普通合伙) 11513 代理人: 卫安乐
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 微博 评价对象 中文 抽取 预处理 候选库 支持向量机模型 加权模型 冗余信息 准确率 分词 构建 删除 文本 筛选
【说明书】:

发明提供一种中文微博评价对象的抽取方法,包括步骤:对中文微博的文本进行预处理,所述预处理包括删除冗余信息、分词;构建中文微博的评价对象的候选库;以及利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取。本发明的中文微博评价对象的抽取方法具有较高的准确率和较好的召回率。

技术领域

本发明涉及语言信息处理领域,特别是一种中文微博评价对象的抽取方法。

背景技术

随着互联网的广泛普及,网络已经成为人们获取信息、共享信息的主要途径。微博作为一种新兴的互动交流平台,也逐渐走进人们的生活。据中国互联网信息中心(CNNIC)发布《第33次中国互联网络发展状况统计报告》显示,截至2013年12月,我国微博用户规模为2.81亿。越来越多的人开始关注微博,通过微博分享自己的心情、见解,或者获取最新的资讯、讨论时下流行话题。微博的数据量大、时效性强,从中可挖掘出大量有意义的信息,因此吸引了大批学者开展相关研究,而有关微博的情感分析正是其中热门研究方向之一。情感分析,又称意见挖掘,是指对文本进行主观性分析、归纳以及情感极性判别。根据情感分析任务的层次递进关系,可以将情感分析任务分为:情感信息的抽取、情感信息的分类以及情感信息的检索与归纳三大类[。其中情感信息的抽取是情感分析任务中的基础任务,旨在从无结构的情感文本中抽取出结构化的信息,包括评价对象、评价词、评价倾向以及观点持有者等。该任务作为情感分析的基础任务,不但可以服务于上层情感分析研究,例如情感信息分类等,同时还可以直接将其结果应用于电子商务、信息安全等领域,例如在商品评论统计中,如果能明确消费者是对商品的哪一个方面做出了评价,那么就可以令其他消费者更加清晰的了解该商品各方面的优缺点,也可以令商家针对这些优缺点改善营销策略或者完善商品的性能。

而目前的以上研究工作大多采用商品评论数据,其语料多为评论语料,面向中文微博的评价对象抽取研究还处在起步阶段。在2013年第二届自然语言处理与中文计算会议举办的评测任务中,任务一为中文微博评价对象抽取及极性判断,所有参赛队伍在严格标准下采用宏平均计算方法的平均准确率为0.195,平均召回率为0.137,平均F值为0.143,实验效果并不理想。这主要是由于微博文本语言表达随意,大多数微博文本的句法结构都是不完整的,且具有大量的冗余信息和网络词汇。

综上,如何设计一种准确率高且召回率好的中文微博评价对象的抽取方法是业界亟需解决的课题。

发明内容

为了解决上述现有的技术问题,本发明提供一种中文微博评价对象的抽取方法,将评价对象抽取任务分为三个步骤,根据不同步骤的任务特点,逐个提升方法效果,构建候选评价对象时采用句法分析的方法,筛选候选评价对象时利用SVM模型、加权模型分别实现多特征融合方法以提高准确率和召回率。

本发明提供一种中文微博评价对象的抽取方法,包括步骤:

对中文微博的文本进行预处理,所述预处理包括删除冗余信息、分词;

构建中文微博的评价对象的候选库;

利用支持向量机模型和加权模型对候选库进行筛选以实现中文微博评价对象的抽取。

优选地,所述对中文微博的文本进行预处理,所述删除冗余信息具体包括:

删除中文微博中的超级链接及冗余字符;

删除中文微博中的来源信息。

优选地,对中文微博的文本进行预处理,所述分词具体包括:

根据中文微博中出现的话题,从权威中文词库中抽取出与该话题相关的专有名词制成用于分词的词表。

优选地,所述构建中文微博的评价对象的候选库的步骤包括:

抽取微博中显性标注的话题,将其作为候选评价对象,构成话题集合;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510366805.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top