[发明专利]一种基于PageRank和信息熵的裁判文书的文本分词方法在审

申请号：	201810534689.4	申请日：	2018-05-25
公开（公告）号：	CN108776653A	公开（公告）日：	2018-11-09
发明（设计）人：	葛季栋;李传艺;李振昊;雷妙妙;姚林霞;周筱羽;骆斌	申请（专利权）人：	南京大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于PageRank和信息熵的裁判文书的文本分词方法，该发明属于自然语言处理领域中的中文分词技术，主要采用了改进的PageRank算法、信息熵、互信息以及关键词词典对中文文本进行分词。本发明针对法律领域的裁判文书，在PageRank算法基础上建立了分词方法，根据Rank向量切分候选词，并利用信息熵对候选词进行修正，再依据裁判文书的关键词词典做术语合并，最终输出分词结果，该方法能够较为准确地对裁判文书进行分词。本发明与现有方法相比，其显著优点是：不需要通过大量文本语料库进行统计或训练以建立大规模的词典，仅对输入文本进行统计，将输入文本作为现有语料库进行统计挖掘，最终结合裁判文书的关键词术语词典即可完成分词。
搜索关键词：	信息熵裁判分词关键词词典输入文本文本分词候选词自然语言处理文本语料库统计法律领域分词结果术语词典中文分词中文文本互信息语料库向量修正合并输出挖掘改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于PageRank的文本分词方法，其特征是基于PageRank算法计算文本的Rank值并结合词的信息熵、互信息以及法律领域常用术语组成的词典进行分词，它以待分词文本为输入，以用特定分隔符分隔的相应文本为输出结果；该方法具体包含以下步骤：步骤(1)预处理：读取输入文本，以标点符号、数字以及英文字母作为分隔符进行切分，得到文本中的全部汉字，再过滤去除词长只有1的字，得到一个字符串列表S；步骤(2)特征计算：对于S中的每一个字符串Si的长度不超过k(k＝6)的子串Ssub(潜在词)，计算Ssub在文本中的频率，计算Ssub的左右信息熵Hl，Hr以及互信息I(Ssub)；步骤(3)调用PageRank计算过程：获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R并迭代n(n＝10)次计算出Rank得分；步骤(4)文书提前分割：将步骤(1)中提取出的分隔符，以及S中符合特殊模式的词(如日期、法律条目、金额等)进行提前分割；步骤(5)候选词切分：根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分，得到一个词列表W；步骤(6)分词修正：根据步骤(2)中计算的信息熵对(5)得到的候选切分结果W进行修正，得到修正后的分词列表Wr；步骤(7)术语合并：读取已有的词典D，对于步骤(6)修正后的结果Wr中的每两个相邻词wi，wi+1，合并D中存在的术语，得到术语合并后的词列表Wrd；步骤(8)生成分词文本：根据Wrd和给定分隔符o，返回最终分词结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810534689.4/，转载请声明来源钻瓜专利网。

上一篇：一种基于新闻语料的行情预测方法
下一篇：一种基于改进的simhash文本对比方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于PageRank和信息熵的裁判文书的文本分词方法在审

专利文献下载