[发明专利]一种古汉语文本的一体化自动词法分析方法及系统有效
申请号: | 201910085019.3 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109829159B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 李斌;程宁;葛四嘉;李成名;郝星月;冯敏萱;许超 | 申请(专利权)人: | 南京师范大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/295 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 王恒静 |
地址: | 210024 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 古汉语 文本 一体化 自动 词法 分析 方法 系统 | ||
本发明公开了一种古汉语文本的一体化自动词法分析方法,包括以下步骤:采用Word2Vec模型预训练得到具有语义特征的古汉语的字向量;将历朝历代文献中出现过的信息数据加入到古籍专名数据库中形成若干专有名词词条;调整Bi‑LSTM‑CRF神经网络模型的各参数,将所述最终训练语料预处理成模型可读的形式,加载到所述神经网络模型中,不断迭代学习,并对测试语料的标注结果进行自动评价。本发明采用断句、分词、词性标注一体化的标注方法,省去了词法分析多项子任务的重复标注过程,也避免了重复标注错误的多级扩散;本发明采用深度学习模型,可以自动学习到丰富的语言特征,省去了传统机器学习中人工定制特征模板的工作;本发明所述的标注模型采用GPU硬件加速,可以大大缩短模型训练的时间,效率比传统的机器学习模型要高很多。
技术领域
本发明涉及文本词法分析技术领域,具体涉及一种古汉语文本的一体化自动词法分析方法及系统。
背景技术
古籍资源众多,如何从数字化后的古籍文本中进一步提取、挖掘出更加有意义的语言知识是古汉语信息处理研究的重要任务。古汉语信息处理的基础任务是词法分析,包括自动断句、自动分词、自动词性标注及自动命名实体识别。词法分析的质量将直接影响到上层任务的效果。与现代汉语不同,古汉语的信息处理工作还处于探索阶段,利用计算机对古代汉语句读层面和词汇层面的自动处理与分析较少。
中文词法分析的研究成果主要集中在现代汉语上,无论是基于传统的机器学习模型还是新兴的深度学习技术,大部分都是以现代汉语作为研究对象。从现代汉语领域训练的自动分析模型不能简单的迁移到古籍文本的自动分析上面。
古汉语的词法分析大部分的研究都是针对某个特定的子任务来进行,比如有的学者只研究古汉语自动分词技术,有的学者重点放在古汉语的自动命名实体识别方面,有的学者专注于古汉语的自动断句研究,而且大部分学者所采用的研究方法及研究手段不尽相同,如果要完成整个古汉语的词法分析任务,需要依次完成各项子任务,这在很大程度上影响了机器处理效率,而且用机器分好的句子再进行分词以及词性标注等工作很容易造成识别错误的多级扩散,影响古文整体标注的准确率。
古汉语词法分析的带标注实验语料大部分是以短小的先秦文献或者某专书为数据集,规模较小,再加上传统机器学习模型泛化能力较弱,训练出的模型不能适应于跨时代大规模的语料标注。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种古汉语文本的一体化自动词法分析方法,该方法可以解决在古汉语上词法分析难度大、训练速度慢以及准确率低的问题,本发明还提供一种古汉语文本的一体化自动词法分析系统。
技术方案:本发明所述的古汉语文本的一体化自动词法分析方法,该方法包括以下步骤:
(1)对选取的古汉语训练语料进行预处理,所述预处理包括断句、分词和词性的一体化标注;
(2)采用Word2vec模型对所述古汉语训练语料进行字向量的预训练,得到预训练字向量;
(3)将历朝历代文献中出现过的人名、地名、书名、朝代、年号和官职信息数据加入到古籍专名数据库中形成若干专有名词词条,筛选专有名词词条加入到古汉语训练语料中,得到最终训练语料;
(4)将所述最终训练语料加载到所述神经网络模型中,与加载到Bi-LSTM-CRF神经网络模型中的所述预训练字向量进行映射,调整Bi-LSTM-CRF神经网络模型的各参数,不断迭代学习,对测试语料的标注结果进行自动评价,生成相关的日志文档。
优选的,所述步骤(2)还可采用Word2vec模型对大规模的古汉语生语料进行字向量的预训练,得到与其他字向量具有语义相似程度的固定维度的字向量。
优选的,所述步骤(1)中,一体化标注是将词性标签、分词标签以及断句标签融合,具体表示为每个字后标记其对应在词中的位置、其所代表的词的词性或者实体信息以及词性标记后的所述字是否在断句处的标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910085019.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:核心专利挖掘方法
- 下一篇:一种陌生人社交活动评价方法与系统