[发明专利]一种中文文本智能分级改编方法及装置有效

申请号：	202211524750.X	申请日：	2022-12-01
公开（公告）号：	CN115600575B	公开（公告）日：	2023-03-14
发明（设计）人：	殷晓君	申请（专利权）人：	北京语言大学
主分类号：	G06F40/194	分类号：	G06F40/194;G06F40/253;G06F40/289
代理公司：	北京市广友专利事务所有限责任公司 11237	代理人：	张仲波
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文文本智能分级改编方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及自然语言处理技术领域，特别是指一种中文文本智能分级改编方法及装置，方法包括：获取文本数据，对文本数据进行预处理，基于预处理后的文本数据构建分级文本库；获取原始句子；获取目标等级，根据目标等级，在分级文本库中确定原始句子对应的参考句子；基于训练完毕的Bert模型、原始句子以及参考句子，确定原始句子和参考句子之间的词相似度矩阵；根据词相似度矩阵，确定原始句子与参考句子的词对应关系列表；根据原始句子与参考句子的词对应关系列表、原始句子以及参考句子，生成目标句子。采用本发明，可以提高改编效率，减少人为错误。

技术领域

本发明涉及自然语言处理技术领域，特别是指一种中文文本智能分级改编方法及装置。

背景技术

文本分级是指将文本按特定的等级体系进行定级，常见如：文本复杂度分级、文本可读性分级等。

分级标准是指文本分级所采用的特定等级体系，特指《国际中文教育中文水平等级标准》(GF0025—2021，以下简称《等级标准》)是面向中文作为第二语言的学习者的语言水平等级规范。《等级标准》将学习者中文水平分为“三等九级”，包括初、中、高三等，并以音节、汉字、词汇、语法四种语言基本要素构成“四维基准”。初等包含三个细分级别为1级、2级、3级，中等包括三个细分级别为4级、5级、6级。高等代表最高等级，下面的7、8、9级不再细分量化指标，记为7-9级。

基于分级标准的智能改编是指按照特定的分级标准将原文修改为指定的目标等级。

智能改编具有非常大的社会价值和现实应用价值。可以将同样的文本内容改写为多个级别，适用于不同人群的阅读、学习需要，这对于分级阅读体系构建，实现精准阅读和高效阅读都有重要的意义，不仅对教育领域有重要意义，对于信息的传播，新知识的扩散都有直接作用。

而目前，文本的智能改编通常是通过人工操作进行改编，即改编人员先对需要改编的原始句子进行人工等级标注，然后按照指定的等级对原始句子中的词进行近义词替换。人工改编存在效率低、错误率高的问题。

发明内容

本发明实施例提供了一种中文文本智能分级改编方法及装置。所述技术方案如下：

一方面，提供了一种中文文本智能分级改编方法，该方法由电子设备实现，该方法包括：

S1、获取文本数据，对所述文本数据进行预处理，基于预处理后的文本数据构建分级文本库；

S2、获取原始句子，确定所述原始句子的等级；

S3、获取目标等级，根据目标等级，在所述分级文本库中确定所述原始句子对应的参考句子；

S4、基于训练完毕的Bert模型、原始句子以及参考句子，确定所述原始句子和参考句子之间的词相似度矩阵；

S5、根据所述词相似度矩阵，确定所述原始句子与参考句子的词对应关系列表；

S6、根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子，生成目标句子。