[发明专利]一种网页文本的中文分词方法和装置在审
申请号: | 201610257885.2 | 申请日: | 2016-04-21 |
公开(公告)号: | CN105975454A | 公开(公告)日: | 2016-09-28 |
发明(设计)人: | 简宋全;邹立斌;李青海;侯大勇 | 申请(专利权)人: | 广州精点计算机科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京隆源天恒知识产权代理事务所(普通合伙) 11473 | 代理人: | 闫冬 |
地址: | 510630 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种网页文本的中文分词装置及方法。该装置包括:前期处理模块、最大匹配模块、神经网络消歧模块和文本输出模块。与现有技术比较本发明的有益效果在于:本申请提供的一种网页文本的中文分词装置及方法,通过根据正、反向最大匹配得到一部分的分词结果,一部分带有歧义的语句,然后运用神经网络的自学习、并行处理等优点处理歧义语句,结合双向最大匹配和神经网络的优点,互相补充,能高效快速地处理网页文本分词。 | ||
搜索关键词: | 一种 网页 文本 中文 分词 方法 装置 | ||
【主权项】:
一种网页文本的中文分词方法,其特征在于,该方法包括以下步骤:步骤S1,提取网页文本并对所述网页文本进行预处理;步骤S2,利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分,得出两种分词结果,并判断两种分词结果是否相同,若相同,执行步骤S4,若不相同,执行步骤S3;步骤S3,利用已经训练完毕的BP神经网络对歧义字段分词,得到相应的分词结果;步骤S4,对未登录词识别并输出最终的网页文本分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州精点计算机科技有限公司,未经广州精点计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610257885.2/,转载请声明来源钻瓜专利网。