[发明专利]结合内部聚合度和外部离散信息熵的网络新词发现方法有效
申请号: | 201210469892.0 | 申请日: | 2012-11-18 |
公开(公告)号: | CN102930055A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 林怀忠;陈泽锋;李鹏飞 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 陈昱彤 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 内部 聚合 外部 离散 信息 网络 新词 发现 方法 | ||
1.一种结合内部聚合度和外部离散信息熵的网络新词发现方法,其特征在于,包括:
步骤1):对网络语料库包含的所有文本句子进行切词处理,将每个文本句子中的长度小于等于n的字串切分出来,并将切分出来的所有互不相同的字串作为候选字串;其中,n为整数且n≥1,每个所述文本句子是一个不包含任何标点符号的语句;
步骤2):任意选出一个未作过新词判断处理的候选字串;
步骤3):判断所选出的当前候选字串在所述网络语料库中出现的频率是否小于阈值M,M>0;如果不是,则执行步骤4),否则在仍然存在未作过新词判断处理的候选字串时返回执行步骤2);
步骤4):对当前候选字串作k-1种切分,每一种切分都将当前候选字串切分成两个子字串,其中,k为当前候选字串的长度;分别计算每一种切分所获得的两个子字串随机结合构成当前候选字串的概率,并进一步计算当前候选字串的内部聚合度;
在所有候选字串中找出以当前候选字串为前缀的全部字串,并将以当前候选字串为前缀的全部字串构成当前候选字串的右邻接字串集,计算所述右邻接字串集的信息熵;在所有候选字串中找出以当前候选字串为后缀的全部字串,并将以当前候选字串为后缀的全部字串构成当前候选字串的左邻接字串集,计算所述左邻接字串集的信息熵;以所述右邻接字串集的信息熵和左邻接字串集的信息熵中的较小者作为当前候选字串的外部离散信息熵;
步骤5):如果当前候选字串的内部聚合度超过预先设定的内部聚合度阈值,并且,当前候选字串的外部离散信息熵超过预先设定的外部离散信息熵阈值,那么判断当前候选字串为网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2),其中,所述内部聚合度的阈值和外部离散信息熵的阈值均大于0;
如果当前候选字串的内部聚合度未超过预先设定的所述内部聚合度阈值,或者,当前候选字串的外部离散信息熵未超过预先设定的所述外部离散信息熵阈值,那么判断当前候选字串不是网络新词,并在仍然存在未作过新词判断处理的候选字串时返回执行步骤2)。
2.根据权利要求1所述的方法,其特征是:所述步骤1)中的n=5。
3.根据权利要求1所述的方法,其特征是: 所述步骤3)中的M=25。
4.根据权利要求1所述的方法,其特征是:在所述步骤4)中,当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率的计算公式如式(Ⅰ)所示:
pj(sub1_j,sub2_j)=p(sub1_j)× p(sub2_j)(Ⅰ)
式(Ⅰ)中,pj(sub1_j,sub2_j)表示当前候选字串被切分而获得的两个子字串随机结合构成当前候选字串的概率;sub1_j、sub2_j分别表示对当前候选字串进行一种切分时所获得的两个子字串;p(sub1_j)和p(sub2_j)分别对应表示子字串sub1_j、sub2_j在网络语料库中出现的概率,且p(sub1_j)=count(sub1_j)/L,p(sub2_j)=count(sub2_j)/L;count(sub1_j)、count(sub2_j)分别对应表示子字串sub1_j、sub2_j在网络语料库中出现的频率;L表示所有候选字串在网络语料库中出现的频率之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210469892.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:薄膜晶体管阵列面板及其制造方法
- 下一篇:飞行器交通分离系统