[发明专利]一种基于PageRank和信息熵的裁判文书的文本分词方法在审
| 申请号: | 201810534689.4 | 申请日: | 2018-05-25 |
| 公开(公告)号: | CN108776653A | 公开(公告)日: | 2018-11-09 |
| 发明(设计)人: | 葛季栋;李传艺;李振昊;雷妙妙;姚林霞;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 210093 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息熵 裁判 分词 关键词词典 输入文本 文本分词 候选词 自然语言处理 文本语料库 统计 法律领域 分词结果 术语词典 中文分词 中文文本 互信息 语料库 向量 修正 合并 输出 挖掘 改进 | ||
本发明公开了一种基于PageRank和信息熵的裁判文书的文本分词方法,该发明属于自然语言处理领域中的中文分词技术,主要采用了改进的PageRank算法、信息熵、互信息以及关键词词典对中文文本进行分词。本发明针对法律领域的裁判文书,在PageRank算法基础上建立了分词方法,根据Rank向量切分候选词,并利用信息熵对候选词进行修正,再依据裁判文书的关键词词典做术语合并,最终输出分词结果,该方法能够较为准确地对裁判文书进行分词。本发明与现有方法相比,其显著优点是:不需要通过大量文本语料库进行统计或训练以建立大规模的词典,仅对输入文本进行统计,将输入文本作为现有语料库进行统计挖掘,最终结合裁判文书的关键词术语词典即可完成分词。
技术领域
本发明属于自然语言处理技术领域中的中文分词技术,是用于针对法律文书进行中文分词的技术。
背景技术
分词是指将已有的文本切分成为一个个分开的、单独的、有意义的单元。中文分词是指将一个连续的 汉字序列切分成单独的词,使之成为符合语义的、可读的词序列。汉语相比于英文,词与词之间没有明确 的分隔符作为切分的依据,因此,在分词方面,中文分词的难度要更高于其他语言。而分词算法产生的分 词结果,也将直接影响到上层的应用效果,如词性标注、关键词提取等。因此,如何使计算机理解中文文 本段,进行准确分词而为上层的文本处理应用提供支持就是中文分词最难以解决的问题。
目前,中文分词最常用的主要方法有:基于词典的字符串匹配方法、基于规则的分词方法和基于统计 的分词方法。
(1)基于词典的字符串匹配方法主要是通过扫描查找出输入文本中存在于词典里的词,并以此作为依 据进行分词。基于词典的匹配方法通过正向/逆向匹配词典,得到所有在词典中出现过的词,并依照最长/ 最短词匹配的原则,生成分词文本。但是这种方法较为依赖分词词典,必须对词典保持持续更新以获得较 好效果,同时词典的建立需要总结大量文本语料库,较为耗费时间。对于新词识别以及歧义的问题,该方 法并不能很好地解决。
(2)基于规则的方法是指总结语言的语法与语义,模拟人理解文本的过程进行分词。该方法在于判断 词性、语义,并按照建立好的规则库匹配得到符合语法语义的分词文本。但是这种方法需要大量语义学知 识,并以此为基础建立规则库。由于汉语的复杂性,且部分文本中语言的使用不严格遵循语法规则,因此 该方法对于汉语分词效果并不是特别理想。
(3)基于统计的分词方法是指统计词出现的频率、频次以及其它特征,以此作为依据进行分词。比较 著名的方法有隐形马尔科夫模型、条件随机场等。统计学方法通过统计词在语料库中的出现频率、字与字 之间的共现频率等作为是否能够成词的依据。近几年机器学习技术使得很多基于统计的机器学习方法取得 不错的效果,尤其是在歧义消除和新词发现方面。基于统计的分词方法不需要额外的词典,而是仅对语料 库中的字组进行统计。但是,该方法有时会抽取出一些频次高却无语义的词。而且,基于统计的机器学习 方法也需要准备大量人工标记的数据集以进行训练。
本发明结合了以上三种方法进行文本分词,主要实现方式为:基于规则对文本进行预处理;基于统计 学方法计算词的Rank值、信息熵、互信息进行分词;基于关键词词典对专业术语进行合并。
在法律方面,法律文书一般具有较高的结构性,裁判文书的撰写依照严格的格式要求进行。但是,在 法律文书中存在大量的地名、人名、机构名以及其它特殊名称,因此,如何对这些特殊词进行识别也是一 个难题。同时,由于法律文书中经常会用到一些专用的术语,例如“夫妻共同财产”、“人民陪审员”、“肇事 逃逸罪”等。这些术语由多个常用短词共同组合而成,传统的分词方法往往会将此类术语拆分成为“夫妻/ 共同/财产”、“人民/陪审员”、“肇事/逃逸罪”,而实际上这些词语并不应该在分词过程中被拆分。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810534689.4/2.html,转载请声明来源钻瓜专利网。





