[发明专利]一种基于查询日志的新词自动查找系统和方法无效
申请号: | 201210274901.0 | 申请日: | 2012-08-03 |
公开(公告)号: | CN102831194A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 张爱琦;崔世起;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇泽知识产权代理有限公司 11228 | 代理人: | 刘淑敏 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 查询 日志 新词 自动 查找 系统 方法 | ||
技术领域
本发明涉及互联网信息处理领域,特别涉及一种基于查询日志的新词自动查找系统和方法。
背景技术
随着互联网的飞速发展,网络信息的发布和传播越来越快,网络新词也随之层出不穷。根据中国语言文字工作委员会的专家所做的统计,自改革开放以来20年内平均每年产生800多个新词语,而近年来,网络的发达早已使新词的产生速度远远超过这一数字。新词的产生导致进行互联网信息处理时,对词语的切分、理解和信息检索的能力大大下降。因此如何有效地发现新词,是互联网信息处理领域的一项重要工作。因此,这里所称的“新词”,不仅包含传统语言学上的词语,还包括互联网上最新出现的广为传颂的短语。
目前的新词发现方法主要有基于统计和基于规则两种方法。基于统计的方法,首先利用统计模型,根据词语的特征信息获取候选串,再利用词频等信息过滤垃圾串,该方法依赖于语料库的完善,并且倾向于识别较短或高频的新词,识别新短语及低频词的能力较差。基于规则的方法,一般是根据新词的语言构词特征或构词模式特点建立规则库、领域词典或模式库,然后通过模式匹配发现新词,该方法需要专业领域知识及语言学基础,可移植性和可扩展性较差,更新速度较慢。
新词常常是对新事物或新事件的概述,在构成方面没有普遍统一的规律,常常不符合汉字的构词规则,并且新词产生速度快,覆盖范围广,语料收集工作较难同步。因此传统的基于统计和基于规则进行新词识别的方法已无法满足当前快速、准确发现新词的需求。
但是现有技术采用基于统计的方法,对语料库的要求较高,容易产生垃圾串,且常常由于数据稀疏导致无法识别出低频新词;而基于规则的方法又依赖规则获取的有效性和完备性,无法满足新词快速更新的需求。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于查询日志的新词自动查找系统和方法,以解决现有统计方法的语料库难获取和规则方法的不易扩展等问题,通过使用词串共现率,辅以过滤策略,该新词自动查找系统和方法不需要构建语料库和特殊规则,能够简便易行地从查询日志中自动发现新词。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于查询日志的新词自动查找系统,主要包括查询日志预处理模块、新词发现模块和新词生成模块;其中:
查询日志预处理模块,用于根据设置的定时新词发现的时间,定期的从查询日志中获取定时间隔的这一段时间内的查询串及查询频次,并对查询串进行分词处理,保存每个n-gram串及相应的频次;
新词发现模块,根据所述查询串的分词结果,统计相同n-gram串的频次;根据单个词的频次和n-gram串的频次计算n-gram词串的共现率,并选取共现率较高的词串作为候选新词集合;归并候选新词集合中相近频次的父子串;
新词生成模块,对候选新词集合应用过滤和剪枝策略,去除候选新词集合中的垃圾串,得到最终的新词集合。将最终新词集合导入分词词库中,从而实现增量式新词发现。
其中:所述过滤和剪枝策略包括基本语言学构词规则策略和成词模式过滤策略。
所述基本语言学构词规则策略,包括字数过滤规则,纯数字字母串和日期过滤规则,常见辅助词过滤规则和常见查询搭配词过滤规则。
所述成词模式过滤策略,包括叠词模式过滤和四字词的2-2模式剪枝。
一种基于查询日志的新词自动查找方法,该方法包括:
A、查询串的分词处理步骤:选取一段时间的查询日志,使用查询串及查询频次,删除该查询日志中的其他信息,并使用分词工具对查询串进行切分;
B、新词发现的实现步骤,包括词串频率的统计、词串共现率计算以及父子串归并;
C、新词过滤的步骤,包括对生成的候选新词集合进行过滤,去除垃圾串。
其中:步骤A所述使用分词工具对查询串进行切分,对于一个查询串,分词切分时会返回多个粒度的结果;采用分词的最大粒度结果,以保证词串中任意词的组合均不为已经存在的词。
步骤A进一步包括:按照传统语言学概念,将词语根据成词字数分为单元词、二元词、三元词、四元词和多元词,并通过扩展该语言学概念,根据数据串进行分词处理后成词的词数,将所述词串分为2-gram、3-gram、…、n-gram;词串中的每个词称为token,则n-gram的格式为:[token-1][空格][token-2]…[token-n]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210274901.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟影院交互系统及方法
- 下一篇:改进型泵