[发明专利]结合内部聚合度和外部离散信息熵的网络新词发现方法有效
申请号: | 201210469892.0 | 申请日: | 2012-11-18 |
公开(公告)号: | CN102930055A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 林怀忠;陈泽锋;李鹏飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 陈昱彤 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 内部 聚合 外部 离散 信息 网络 新词 发现 方法 | ||
技术领域
本发明涉及一种网络新词发现的方法,属于计算机自然语言处理领域。
背景技术
随着互联网的快速发展和网民规模不断膨胀,新词大量出现在网络并迅速渗入人们的日常生活,这已经成为一种语言现象。同时,在诸如信息检索、自动分词、词典编纂以及机器翻译等众多中文信息处理领域,新词发现的效果,在很大程度上影响着这些中文信息处理领域的效果,尤其以中文自动分词技术最为明显,由于中文自身的特点,它不像英文那样在词与词之间有明显的空格间隔,如何将不断涌现的新词准确切分出来已经是中文信息处理中至关重要的一步,因此,有效的识别新词,将对提高中文信息处理相关领域的效果起到重要的作用。
在新词发现方法方面,目前主要有基于规则和基于统计两大类方法。
基于规则的网络新词发现方法其主要思想是根据新词的字与字的组合方式、词语外型特点或词语内部构造特征建立规则库,然后通过规则匹配方法来识别新词。具体是通过一方面以新词的词语内部构词特征为基础建立常规新词识别规则库,另一方面从网上词语的构词特点出发建立特殊新词识别规则库,并将这些规则分为常规构词规则、词语过滤规则、特殊构词规则等,利用这些规则组合过滤识别网络新词。但是,由于建立新词发现规则的过程需要对大量新词的特点进行细致的分析,这个过程需要投入大量的人力和时间,且新词发现规则通常都与具体的领域相关,只能在有限的领域中发现新词时使用,不易移植到其他领域中;另外,该新词发现方法关于抽取出来的规则的形式较单一,很难将所有的情况都覆盖到,因此这种方法通常准确率不高且建立一个新词识别系统的周期很长。
基于统计的网络新词发现方法,一般是基于统计概论,利用词频过滤策略提取出候选字串,然后再利用语言学知识将不是新词语的候选字串排除;或者是基于统计字与字的共现频率,计算字与字之间的相关度,寻找相关度最大的字与字的组合。基于统计的网络新词发现方法可以较好的利用统计信息来发现新词,但是,缺少对词语的内部和外部结构特征的考虑,同时,这种方法,在识别出现频率较低的词语时,效果不好,且基于统计的方法在发现较长的新词语时,将导致时间复杂度急剧增大,因此基于统计的新词发现方法一般会受限在识别比较短的新词语。
发明内容
本发明的目的是提供一种结合内部聚合度和外部离散信息熵的网络新词发现的新方法。
为实现上述目的,本发明所采取的技术方案是:本发明结合内部聚合度和外部离散信息熵的网络新词发现方法包括:
步骤1):对网络语料库包含的所有文本句子进行切词处理,将每个文本句子中的长度小于等于n的字串切分出来,并将切分出来的所有互不相同的字串作为候选字串;其中,n为整数且n≥1,每个所述文本句子是一个不包含任何标点符号的语句;
步骤2):任意选出一个未作过新词判断处理的候选字串;
步骤3):判断所选出的当前候选字串在所述网络语料库中出现的频率是否小于阈值M,M>0;如果不是,则执行步骤4),否则在仍然存在未作过新词判断处理的候选字串时返回执行步骤2);
步骤4):对当前候选字串作k-1种切分,每一种切分都将当前候选字串切分成两个子字串,其中,k为当前候选字串的长度;分别计算每一种切分所获得的两个子字串随机结合构成当前候选字串的概率,并进一步计算当前候选字串的内部聚合度;
在所有候选字串中找出以当前候选字串为前缀的全部字串,并将以当前候选字串为前缀的全部字串构成当前候选字串的右邻接字串集,计算所述右邻接字串集的信息熵;在所有候选字串中找出以当前候选字串为后缀的全部字串,并将以当前候选字串为后缀的全部字串构成当前候选字串的左邻接字串集,计算所述左邻接字串集的信息熵;以所述右邻接字串集的信息熵和左邻接字串集的信息熵中的较小者作为当前候选字串的外部离散信息熵;
步骤5):如果当前候选字串的内部聚合度超过预先设定的内部聚合度阈值,并且,当前候选字串的外部离散信息熵超过预先设定的外部离散信息熵阈值,那么判断当前候选字串为网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2),其中,所述内部聚合度的阈值和外部离散信息熵的阈值均大于0;
如果当前候选字串的内部聚合度未超过预先设定的所述内部聚合度阈值,或者,当前候选字串的外部离散信息熵未超过预先设定的所述外部离散信息熵阈值,那么判断当前候选字串不是网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2)。
进一步地,本发明所述步骤1)中的n=5。
进一步地,本发明所述步骤3)中的M=25。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210469892.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:薄膜晶体管阵列面板及其制造方法
- 下一篇:飞行器交通分离系统