[发明专利]一种中文新词语的检测方法及其检测系统有效

专利信息
申请号: 200410000651.7 申请日: 2004-01-15
公开(公告)号: CN1641634A 公开(公告)日: 2005-07-20
发明(设计)人: 邹纲;刘群 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京泛华伟业知识产权代理有限公司 代理人: 王凤华
地址: 100080北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种中文新词语的检测方法及其检测系统。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时间信息和内容,对其切分并在切分的基础上查找重复串,然后存入原始数据库,再在给定时间的基础上,将原始数据库划分成给定时间以前和给定时间以后的两个数据库,将这两个数据库进行对比,得到新词候选列表,最后的结果由人工确认一下。本发明通过对比寻找某个时间点以后的新词语,可以寻找不限长度和构成的多字词与多字词组成的新词,并利用词的构成规律来滤除垃圾串,具有时效性高的特点。
搜索关键词: 一种 中文 新词语 检测 方法 及其 系统
【主权项】:
1、一种中文新词语的检测方法,该方法基于Internet提取含有时间信息的网页信息进行词法分析,查找出在网页中所有的重复串,并连同重复串的时间信息一并存入原始数据库,同时把词和词的时间信息也存入原始数据库,根据给定的时间,将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库,对比背景数据库和过滤数据库中的词和串,生成符合阈值条件的新词候选列表,然后,根据构词的词性规则过滤新词候选列表中的垃圾串,最终检测出新词语;所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200410000651.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top