[发明专利]一种基于PageRank和信息熵的裁判文书的文本分词方法在审

申请号：	201810534689.4	申请日：	2018-05-25
公开（公告）号：	CN108776653A	公开（公告）日：	2018-11-09
发明（设计）人：	葛季栋;李传艺;李振昊;雷妙妙;姚林霞;周筱羽;骆斌	申请（专利权）人：	南京大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	信息熵裁判分词关键词词典输入文本文本分词候选词自然语言处理文本语料库统计法律领域分词结果术语词典中文分词中文文本互信息语料库向量修正合并输出挖掘改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于PageRank的文本分词方法，其特征是基于PageRank算法计算文本的Rank值并结合词的信息熵、互信息以及法律领域常用术语组成的词典进行分词，它以待分词文本为输入，以用特定分隔符分隔的相应文本为输出结果；该方法具体包含以下步骤：

步骤(1)预处理：读取输入文本，以标点符号、数字以及英文字母作为分隔符进行切分，得到文本中的全部汉字，再过滤去除词长只有1的字，得到一个字符串列表S；

步骤(2)特征计算：对于S中的每一个字符串S_i的长度不超过k(k＝6)的子串S_sub(潜在词)，计算S_sub在文本中的频率，计算S_sub的左右信息熵H_l，H_r以及互信息I(S_sub)；

步骤(3)调用PageRank计算过程：获得所有字符串S_sub间的包含关系矩阵A和初试Rank向量R并迭代n(n＝10)次计算出Rank得分；

步骤(4)文书提前分割：将步骤(1)中提取出的分隔符，以及S中符合特殊模式的词(如日期、法律条目、金额等)进行提前分割；

步骤(5)候选词切分：根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分，得到一个词列表W；

步骤(6)分词修正：根据步骤(2)中计算的信息熵对(5)得到的候选切分结果W进行修正，得到修正后的分词列表W_r；

步骤(7)术语合并：读取已有的词典D，对于步骤(6)修正后的结果W_r中的每两个相邻词w_i，w_i+1，合并D中存在的术语，得到术语合并后的词列表W_rd；

步骤(8)生成分词文本：根据W_rd和给定分隔符o，返回最终分词结果。

2.对步骤(3)具体细化，包括以下步骤：

步骤(3.1)根据(2)中计算的互信息值建立潜在词的Rank列向量的初始值R₀；

步骤(3.2)遍历所有S_sub，建立所有潜在词之间的包含关系矩阵A，若存在S_sub1是S_sub2的子串，则否则

步骤(3.3)迭代u(u＝10)次计算所有潜在词的PageRank，迭代公式为：

R＝c₁AR+c₂(R^TA)^T，(c₁＝1，c₂＝0.01)。

3.对步骤(5)具体细化，包括以下步骤：

步骤(5.1)正向逆向切分：首先，通过设立大小为t(t＝5)的滑动窗口，在滑动窗口内取出最大PageRank值的词作为候选词，直至滑动窗口滑至底部。可以得到正向和逆向两个词列表W_f和W_b；

步骤(5.2)全局最大值切分：比较W_f和W_b中不同的切分部分，对每一部分取出最大PageRank值的词作为候选词，并继续对该词左右部分递归应用全局最大值切分直至所有剩余部分长度不大于2。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810534689.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载