[发明专利]一种基于词出现间距的内在与外在模式熵差的关键词排序方法有效

申请号：	201310253678.6	申请日：	2013-06-24
公开（公告）号：	CN103336806A	公开（公告）日：	2013-10-02
发明（设计）人：	杨震;司书勇;雷建军;范科峰;赖英旭	申请（专利权）人：	北京工业大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种基于通过词出现间距的内在与外在模式的信息熵差进行关键词排序的方法，属于文字信息处理领域。本方法认为关键词的出现受到两个模式的影响：（1）内在模式，描述在一个话题中的关键词位置的统计特性；（2）外在模式，描述文本中话题簇出现的统计属性。真实文本上实验结果发现，一个词出现间距的内外模式和外在模式信息熵差越大，那么他是关键词的可能性也就越大。
搜索关键词：	一种基于出现间距内在外在模式关键词排序方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于词出现间距的内在与外在模式熵差的关键词排序方法，其特征在于步骤如下：步骤（1）获取文本获取文本，文本由若干数目的句子组成；步骤（2）文本预处理步骤（2.1）去除所有的标点符号，将所有的字母转换为小写；文中的目录，词汇表，以及索引均从文本中移除；步骤（2.2）对于英文文本，基于简单空格进行分词；先去除停用词，英文的不同词形当成不同的词；统计出每一个词的词频m，以及全文总的词数量N；计算出每一个词的出现的概率p=m/N；步骤（2.3）对于中文文本，使用常用分词软件进行分词；使用通用分词算法对中文文本进行分词；统计出每一个词的词频m，以及全文总的词数量N；计算出每一个词的出现的概率p=m/N；步骤（3）词出现间距的内在与外在外模式发现步骤（3.1）标注词出现位置；假设文本长度为N，即步骤（2）中的全文总的词数量，一个词A在文本中共出现m次，即步骤（2）中的词频，其出现的位置表示为t₁，t₂，t₃，…..t_m，分别代表词A在文本的t₁，t₂，t₃，…..t_m位置出现；步骤（3.2）计算词出现位置间距文本中词A 的m次出现的位置表示成：t₁，t₂，t₃，…..t_m；其中d₁,……d_m-1，意义如同上文表示间距，t_m依然是词第m次出现的位置；词出现在相邻的的位置上的位置差以写成这样d_i=t_i+1-t_i，词间距集合为d₁,d₂,……d_m-1；对于C_-1边界条件，假设文本边界在-1和N这两个位置，那么距离集合修正为d₀^-1,d₁……d_m-1,d_m^-1，对于C₀边界条件，假设文本边界在0和N+1这两个位置，那么文本距离集合修正为d₀⁰,d₁,……d_m-1,d_m⁰，其中对于C_c边界条件，假设文本的首尾相连，距离集合修正为d₁,d₂……d_m-1,d_m^c，是文本连成环状的状态下，词的最后一次出现与第一次出现的距离；并且步骤（3.3）划分词出现间距的内在与外在模式的根据前面的每一个词的位置间距集合，算出词的间距的平均值μ，用此平均值作为划分内外模式的依据；如果d_i≤μ那么把d_i归为内模式，d_i>μ那么把d_i归为外模式；依此依据，这样就把词的间距划分成内外两个模式的集合；内模式的集合记为d^A，外模式的集合记为d^B；步骤（3.4）计算词出现间距的内在与外在模式的熵内在模式的集合d^A ={d_i |d_i≤μ } 表示所有d_i≤μ的集合；那么一个词出现间距的内在模式的熵定义为：H(dA)=-Σd∈dAPdlog2Pd---(6)]]>在这里d也是间距， d属于{1，2，3，......N}，并且P_d表示的是在d^A中d出现的概率；在d^A中d出现的词数为n_d，d^A中数据个数为S_A，P_d=n_d/S_A；依据公式（6）计算出内模式的熵；外模式的集合d^B= {d_i |d_i>μ} 表示所有d_i>μ的集合；那么一个词出现间距的外在模式的熵定义为：H(dB)=-Σd∈dBPdlog2Pd---(7)]]>在这里d也是间距， d属于{1，2，3，......N}，并且P_d表示的是在d^B中d出现的概率；在d^B中d出现的词数为n_d，d^B中数据个数为S_B，P_d=n_d/S_B；依据公式（7）就算出外模式的熵；步骤（3.5）计算词出现间距的内在与外在模式熵差（ED²(d)=(H(d^A))²-(H(d^B))² (8)步骤（3.6）计算熵差归一化归一化的熵差ED_nor定义如下：EDnorq(d)=EDq(d)|EDgeoq(d)|---(9)]]>其中，EDgeoq(d)=(-Σd≤N/mp(1-p)d-1pAlogp(1-p)d-1pA)q-(-Σd≥N/mp(1-p)d-1pBlogp(1-p)d-1pB)q---(10)]]>其中pA=Σd≤N/mp(1-p)d-1,pB=Σd>N/mp(1-p)d-1;]]>公式（10）中q=2，d是词间距，表示d^A或者d^B中的一个元素；N/m表示的是间距的期望，也就是上文中平均间距值μ；p=m/N表示的是词在文本中的概率，m为相应词的词频，N代表是全文总的词数量；p(1-p)^d-1相当于d重伯努利试验；步骤（4）根据熵差对词汇进行排序根据步骤（2）中分好的词，根据上边的公式（6）到（10）依次计算每一个词的熵差，计算完成后，对所有词依据熵差由大到小来进行排序。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310253678.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于词出现间距的内在与外在模式熵差的关键词排序方法有效

专利文献下载