[发明专利]一种古汉语书籍的年代判断方法及系统在审

申请号：	202210434420.5	申请日：	2022-04-24
公开（公告）号：	CN114817535A	公开（公告）日：	2022-07-29
发明（设计）人：	皇甫伟;李美微	申请（专利权）人：	北京科技大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/253;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京金智普华知识产权代理有限公司 11401	代理人：	岳野
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种古汉语书籍年代判断方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种古汉语书籍的年代判断方法及系统，包括：将古汉语书籍进行预处理，得到设置有年代标签的文本序列；将所述文本序列输入RoBERTa模型进行向量化、非线性运算提取特征和归一化处理后，得到预测的年代标签；将事先标注的真实年代标签与所述预测的年代标签进行比较，评估准确性。本发明采用RoBERTa模型可以获得结合上下文信息的向量表示，其中得到的预测的年代标签与真实标注的年代标签的符合率非常高，从而提高了对古汉语书籍的年代判断的准确率。

技术领域

本发明属于古籍断代领域，具体涉及一种古汉语书籍的年代判断方法及系统。

背景技术

中华文化博大精深，卷帙浩繁的古汉语典籍是中华文明中的璀璨明珠。在获取到大量的古代文本资料后，需要对其中所论述的观点和核心思想等哲学特征以及写作风格、语言特色等文学特征进行研究，而由于这些资料历史久远，大多缺失年代信息，因此对其进行准确的著作历史时期和朝代的判断是后续研究的起点。

清朝开始就有不少国内外学者开始研究古籍断代的问题，但是他们都是从语言学的角度出发，对古籍进行穷尽式的检索与细致的考察，总结出语法或者词汇的特征用来判断古籍所属的年代，这类方法费时费力，且对于某些短片文章来说是行不通的。目前自然语言处理领域主要有两大类方法：一类是基于规则或基于概率统计的传统机器学习方法，另一类是深度学习的方法。

基于规则或概率统计的传统机器学习方法，通常是由领域专家考虑很多约束条件并且定义很多规则或者特征来区分不同的类别，模型基于已经定义好的规则或者特征来进行文本分类。文本分类的准确性由所定义的规则或者特征来决定。这类方法实现起来相对简单，在某些垂直领域能取得很好的分类效果。后期对于算法的维护需要不断加入新的规则或特征。

基于深度学习的方法进行文本分类，通常有以下几种模型：卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)以及2018年开始出现的以BERT模型为代表的基Self-Attention机制的大规模预训练模型。但是，上述的方法后期需要领域专家持续维护，即需要不断加入新的规则或约束条件，进行大量实验来进行特征的选择等，耗时耗力。

发明内容

为了克服现有技术存在的上述问题，本发明提供一种古汉语书籍的年代判断方法及系统，用于解决现有技术中存在的上述问题。

一种古汉语书籍的年代判断方法，包括如下步骤：

S1.将古汉语书籍进行预处理，得到设置有年代标签的文本序列；

S2.将所述文本序列输入RoBERTa模型进行向量化、非线性运算提取特征和归一化处理后，得到预测的年代标签；

S3.将事先标注的真实年代标签与所述预测的年代标签进行比较，评估准确性。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S1具体为：从语料库中获取所述古汉语书籍，选取春秋、战国、西汉、东汉、南北朝、唐、宋、元、明、清十个时间段对所述古汉语书籍中的某一段文本标注年代标签，从而得到设置有年代标签的文本序列。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述RoBERTa模型包括嵌入层、编码层和输出层，所述S2具体包括：

S21.在所述嵌入层中对输入的所述文本序列进行token嵌入和位置嵌入处理，得到相应的嵌入向量；

S22.在所述编码层中对所述嵌入向量进行非线性运算进行特征提取，得到特征向量矩阵；

S23.在所述输出层中对所述特征向量矩阵进行激活处理，得到预测的所述年代标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。