[发明专利]文本处理方法及装置在审
申请号: | 201610995440.4 | 申请日: | 2016-11-10 |
公开(公告)号: | CN108073604A | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 贺达 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本数据 重要性指标 文本处理 微博 数据处理技术 自然语言处理 自然语言习惯 公式计算 关联数据 用户交互 舆情分析 权重 预设 预置 文本 输出 携带 中文 | ||
本发明公开了一种文本处理方法及装置,涉及数据处理技术领域,主要目的是解决现有在处理微信或微博中的文本数据时,文本数据中会存在大量杂乱无意义的文本数据或者明显不符合中文自然语言习惯的无用文本数据,利用这样的文本数据进行自然语言处理导致舆情分析效果较差的问题。本发明的主要技术方案为:获取微博或微信中待处理的文本数据;根据所述文本数据携带的用户交互关联数据及预置权重公式计算所述文本数据的重要性指标;输出符合预设重要性指标条件的文本数据。主要用于文本的处理。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本处理方法及装置。
背景技术
自然语言处理是数据处理领域中较为活跃的处理方法,也是进行舆情分析的重要步骤,即对用户浏览网站所产生的文本数据进行舆情分析之前,会对文本数据进行自然语言处理。
目前,在社交网站,如微信、微博中会产生大量的文本数据,这些文本数据在进行自然语言处理之前会出现大量杂乱无意义的文本数据或者明显不符合中文自然语言习惯的无用文本数据,利用这样的文本数据进行舆情分析会导致分析效果较差,使得文本处理的效果较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种文本处理方法及装置,主要目的是解决现有在处理微信或微博中的文本数据时,文本数据中会存在大量杂乱无意义的文本数据或者明显不符合中文自然语言习惯的无用文本数据,利用这样的文本数据进行自然语言处理导致舆情分析效果较差的问题。
借由上述技术方案,本发明提供的一种文本处理方法,包括:
获取微博或微信中待处理的文本数据;
根据所述文本数据携带的用户交互关联数据及预置权重公式计算所述文本数据的重要性指标;
输出符合预设重要性指标条件的文本数据。
借由上述技术方案,本发明提供的一种文本处理装置,包括:
获取单元,用于获取微博或微信中待处理的文本数据;
计算单元,用于根据所述文本数据携带的用户交互关联数据及预置权重公式计算所述文本数据的重要性指标;
输出单元,用于输出符合预设重要性指标条件的文本数据。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种文本处理方法及装置,首先获取微博或微信中待处理的文本数据,然后根据所述文本数据携带的用户交互关联数据及预置权重公式计算所述文本数据的重要性指标,最后输出符合预设重要性指标条件的文本数据。与现有的利用微信、微博中大量杂乱无意义的文本数据或者明显不符合中文自然语言习惯的无用文本数据进行自然语言处理相比,本发明通过根据微信或微博中的文本数据附带的用户交互关联数据,及预先设置的权重公式计算文本数据的重要性,得到重要的文本数据,实现在对文本数据进行预先处理,删除无意义或不重要的文本数据,精简文本数据的数量,提炼重要性强的文本,提高文本数据进行自然语言处理的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了发明实施例提供的一种文本处理方法的流程图;
图2示出了发明实施例提供的另一种文本处理方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610995440.4/2.html,转载请声明来源钻瓜专利网。