[发明专利]一种中文新词语的检测方法及其检测系统有效
申请号: | 200410000651.7 | 申请日: | 2004-01-15 |
公开(公告)号: | CN1641634A | 公开(公告)日: | 2005-07-20 |
发明(设计)人: | 邹纲;刘群 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 王凤华 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种中文新词语的检测方法及其检测系统。本发明基于Internet的中文新词语自动检测的方法,包括网页采集,网页信息处理和新词查找三个部分,且充分利用了从Internet采集而来的网页上的时间信息,从网页中提取时间信息和内容,对其切分并在切分的基础上查找重复串,然后存入原始数据库,再在给定时间的基础上,将原始数据库划分成给定时间以前和给定时间以后的两个数据库,将这两个数据库进行对比,得到新词候选列表,最后的结果由人工确认一下。本发明通过对比寻找某个时间点以后的新词语,可以寻找不限长度和构成的多字词与多字词组成的新词,并利用词的构成规律来滤除垃圾串,具有时效性高的特点。 | ||
搜索关键词: | 一种 中文 新词语 检测 方法 及其 系统 | ||
【主权项】:
1、一种中文新词语的检测方法,该方法基于Internet提取含有时间信息的网页信息进行词法分析,查找出在网页中所有的重复串,并连同重复串的时间信息一并存入原始数据库,同时把词和词的时间信息也存入原始数据库,根据给定的时间,将原始数据库中该时间点前、后的所有重复串和词分别存入背景数据库和过滤数据库,对比背景数据库和过滤数据库中的词和串,生成符合阈值条件的新词候选列表,然后,根据构词的词性规则过滤新词候选列表中的垃圾串,最终检测出新词语;所述重复串的查找,首先搜索出网页正文内容中连续出现的次数大于1次以上的至少由两个符号组成的符号串,记录下每一种符号出现的所有的位置;然后,按照符号从少到多的顺序对尾字相同的符号串进行排序,当前一个串是后一个串的子串,且两者的频率完全一样时,将前一个串从数组中删除,归并得到文本中所有的重复串。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200410000651.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种点与点间数据协作业务的实现方法
- 下一篇:相位差检测器及其方法