[发明专利]一种用于识别失序文本的方法与设备有效
申请号: | 201110264214.6 | 申请日: | 2011-09-07 |
公开(公告)号: | CN102982011A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 李彦宏;舒迅;帅帅;王波 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 识别 失序 文本 方法 设备 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于识别失序文本的技术。
背景技术
互联网技术的发展与应用,向人们提供了更多相互沟通的平台和交流信息的方式,例如人们可以通过论坛、贴吧等沟通平台与他人分享趣闻、对所共同关注的事件发表意见,进而,在开放的交流平台上有效地管理文本内容的需求也日益增加。现有技术可以通过对正常排序的文字进行分析管理,但是对失序文本无法有效识别,从而当有恶意或违法信息以失序文本的形式通过网络沟通平台进行发布时,网络服务器等设备无法对其进行有效识别。
因此,如何有效地识别失序文本,成为本领域技术人员亟须解决的问题之一。
发明内容
本发明的目的是提供一种用于识别失序文本的方法与设备。
根据本发明的一个方面,提供了一种用于识别失序文本的方法,该方法包括以下步骤:
a获取待识别的目标文本;
b根据所述目标文本,获得与所述目标文本相对应的统计信息;
c根据所述统计信息,识别所述目标文本是否为失序文本。
根据本发明的另一方面,还提供了一种用于识别失序文本的设备,该设备包括:
文本获取装置,用于获取待识别的目标文本;
统计信息获取装置,用于根据所述目标文本,获得与所述目标文本相对应的统计信息;
识别装置,用于根据所述统计信息,识别所述目标文本是否为失序文本。
与现有技术相比,本发明根据获得的与目标文本相对应的统计信息,识别该目标文本是否为失序文本,进而实现有效的文本内容管理。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面用于识别失序文本的设备示意图;
图2示出根据本发明一个优选实施例的用于识别失序文本的设备示意图;
图3示出根据本发明另一个方面用于识别失序文本的方法流程图;
图4示出根据本发明一个优选实施例的用于识别失序文本的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面用于识别失序文本的设备示意图。识别设备1包括文本获取装置11、统计信息获取装置12和识别装置13。在此,识别设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
具体地,文本获取装置11获取待识别的目标文本。更具体地,文本获取装置11按预定周期或应事件触发实时地获取待处理的目标文本,例如通过实时监听用户通过用户设备提交的目标文本提交请求,以获取用户输入的目标文本,或者定期地通过约定的通信方式直接从第三方设备读取目标文本。例如,假设识别设备1为网络论坛服务器,用户通过用户设备在网络论坛网页的输入界面输入一段文本信息,然后,用户设备将该信息作为论坛发帖包装成http请求并通过http通信协议提交到识别设备1的文本获取装置11,接着,文本获取装置11通过实时监听用户消息,接收并解析该http请求,获取其中的文本信息并作为目标文本。再如,文本获取装置11按一定周期,定期地通过调用预定的应用编程接口(API)向第三方设备发送获取目标文本的请求,并接收该第三方设备基于该请求返回的目标文本的文档。本领域技术人员应能理解上述获取目标文本的方式仅为举例,其他现有的或今后可能出现的获取目标文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,统计信息获取装置12根据所述目标文本,获得与所述目标文本相对应的统计信息。具体地,统计信息获取装置12根据文本获取装置11提供的目标文本,例如通过对该目标文本的每行进行字数统计,并计算获得该目标文本的行平均字数,以获取与该目标文本相对应的字数统计信息;或者通过对该目标文本进行分词处理,并统计获得分词处理后的分词处理结果中单字分词与多字分词的分布信息,如单字分词与多字分词的比例值,以获取与该目标文本相对应的统计信息。例如,统计信息获取装置12根据文本获取装置11提供的目标文本:
证速
件打
办电办
理话证
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110264214.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:组合式内胆保温供餐箱
- 下一篇:一种果蔬保鲜容器