[发明专利]一种基于词出现间距的内在与外在模式熵差的关键词排序方法有效
申请号: | 201310253678.6 | 申请日: | 2013-06-24 |
公开(公告)号: | CN103336806A | 公开(公告)日: | 2013-10-02 |
发明(设计)人: | 杨震;司书勇;雷建军;范科峰;赖英旭 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于通过词出现间距的内在与外在模式的信息熵差进行关键词排序的方法,属于文字信息处理领域。本方法认为关键词的出现受到两个模式的影响:(1)内在模式,描述在一个话题中的关键词位置的统计特性;(2)外在模式,描述文本中话题簇出现的统计属性。真实文本上实验结果发现,一个词出现间距的内外模式和外在模式信息熵差越大,那么他是关键词的可能性也就越大。 | ||
搜索关键词: | 一种 基于 出现 间距 内在 外在 模式 关键词 排序 方法 | ||
【主权项】:
1.一种基于词出现间距的内在与外在模式熵差的关键词排序方法,其特征在于步骤如下:步骤(1)获取文本获取文本,文本由若干数目的句子组成;步骤(2)文本预处理步骤(2.1)去除所有的标点符号,将所有的字母转换为小写;文中的目录,词汇表,以及索引均从文本中移除;步骤(2.2)对于英文文本,基于简单空格进行分词;先去除停用词,英文的不同词形当成不同的词;统计出每一个词的词频m,以及全文总的词数量N;计算出每一个词的出现的概率p=m/N;步骤(2.3)对于中文文本,使用常用分词软件进行分词;使用通用分词算法对中文文本进行分词;统计出每一个词的词频m,以及全文总的词数量N;计算出每一个词的出现的概率p=m/N;步骤(3)词出现间距的内在与外在外模式发现步骤(3.1)标注词出现位置;假设文本长度为N,即步骤(2)中的全文总的词数量,一个词A在文本中共出现m次,即步骤(2)中的词频,其出现的位置表示为t1,t2,t3,…..tm,分别代表词A在文本的t1,t2,t3,…..tm位置出现;步骤(3.2)计算词出现位置间距文本中词A 的m次出现的位置表示成:t1,t2,t3,…..tm;其中d1,……dm-1,意义如同上文表示间距,tm依然是词第m次出现的位置;词出现在相邻的的位置上的位置差以写成这样di=ti+1-ti,词间距集合为d1,d2,……dm-1;对于C-1边界条件,假设文本边界在-1和N这两个位置,那么距离集合修正为d0-1,d1……dm-1,dm-1,
对于C0边界条件,假设文本边界在0和N+1这两个位置,那么文本距离集合修正为d00,d1,……dm-1,dm0,其中
对于Cc边界条件,假设文本的首尾相连,距离集合修正为d1,d2……dm-1,dmc,
是文本连成环状的状态下,词的最后一次出现与第一次出现的距离;并且
步骤(3.3)划分词出现间距的内在与外在模式的根据前面的每一个词的位置间距集合,算出词的间距的平均值μ,用此平均值作为划分内外模式的依据;如果di≤μ那么把di归为内模式,di>μ那么把di归为外模式;依此依据,这样就把词的间距划分成内外两个模式的集合;内模式的集合记为dA,外模式的集合记为dB;步骤(3.4)计算词出现间距的内在与外在模式的熵内在模式的集合dA ={di |di≤μ } 表示所有di≤μ的集合;那么一个词出现间距的内在模式的熵定义为:H ( d A ) = - Σ d ∈ d A P d log 2 P d - - - ( 6 ) ]]> 在这里d也是间距, d属于{1,2,3,......N},并且Pd表示的是在dA中d出现的概率;在dA中d出现的词数为nd ,dA中数据个数为SA,Pd=nd/SA;依据公式(6)计算出内模式的熵;外模式的集合dB= {di |di>μ} 表示所有di>μ的集合;那么一个词出现间距的外在模式的熵定义为:H ( d B ) = - Σ d ∈ d B P d log 2 P d - - - ( 7 ) ]]> 在这里d也是间距, d属于{1,2,3,......N},并且Pd表示的是在dB中d出现的概率;在dB中d出现的词数为nd ,dB中数据个数为SB,Pd=nd/SB;依据公式(7)就算出外模式的熵;步骤(3.5)计算词出现间距的内在与外在模式熵差(ED2(d)=(H(dA))2-(H(dB))2 (8)步骤(3.6)计算熵差归一化归一化的熵差EDnor定义如下:ED nor q ( d ) = ED q ( d ) | ED geo q ( d ) | - - - ( 9 ) ]]> 其中,ED geo q ( d ) = ( - Σ d ≤ N / m p ( 1 - p ) d - 1 p A log p ( 1 - p ) d - 1 p A ) q - ( - Σ d ≥ N / m p ( 1 - p ) d - 1 p B log p ( 1 - p ) d - 1 p B ) q - - - ( 10 ) ]]> 其中p A = Σ d ≤ N / m p ( 1 - p ) d - 1 , p B = Σ d > N / m p ( 1 - p ) d - 1 ; ]]> 公式(10)中q=2,d是词间距,表示dA或者dB 中的一个元素;N/m表示的是间距的期望,也就是上文中平均间距值μ;p=m/N表示的是词在文本中的概率,m为相应词的词频,N代表是全文总的词数量;p(1-p)d-1相当于d重伯努利试验;步骤(4)根据熵差对词汇进行排序根据步骤(2)中分好的词,根据上边的公式(6)到(10)依次计算每一个词的熵差,计算完成后,对所有词依据熵差由大到小来进行排序。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310253678.6/,转载请声明来源钻瓜专利网。
- 上一篇:过水平生产线用的牵引装置
- 下一篇:纸张滚切机的纸芯固定机构