[发明专利]一种中文文本智能分级改编方法及装置有效
| 申请号: | 202211524750.X | 申请日: | 2022-12-01 |
| 公开(公告)号: | CN115600575B | 公开(公告)日: | 2023-03-14 |
| 发明(设计)人: | 殷晓君 | 申请(专利权)人: | 北京语言大学 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/253;G06F40/289 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 文本 智能 分级 改编 方法 装置 | ||
本发明涉及自然语言处理技术领域,特别是指一种中文文本智能分级改编方法及装置,方法包括:获取文本数据,对文本数据进行预处理,基于预处理后的文本数据构建分级文本库;获取原始句子;获取目标等级,根据目标等级,在分级文本库中确定原始句子对应的参考句子;基于训练完毕的Bert模型、原始句子以及参考句子,确定原始句子和参考句子之间的词相似度矩阵;根据词相似度矩阵,确定原始句子与参考句子的词对应关系列表;根据原始句子与参考句子的词对应关系列表、原始句子以及参考句子,生成目标句子。采用本发明,可以提高改编效率,减少人为错误。
技术领域
本发明涉及自然语言处理技术领域,特别是指一种中文文本智能分级改编方法及装置。
背景技术
文本分级是指将文本按特定的等级体系进行定级,常见如:文本复杂度分级、文本可读性分级等。
分级标准是指文本分级所采用的特定等级体系,特指《国际中文教育中文水平等级标准》(GF0025—2021,以下简称《等级标准》)是面向中文作为第二语言的学习者的语言水平等级规范。《等级标准》将学习者中文水平分为“三等九级”,包括初、中、高三等,并以音节、汉字、词汇、语法四种语言基本要素构成“四维基准”。初等包含三个细分级别为1级、2级、3级,中等包括三个细分级别为4级、5级、6级。高等代表最高等级,下面的7、8、9级不再细分量化指标,记为7-9级。
基于分级标准的智能改编是指按照特定的分级标准将原文修改为指定的目标等级。
智能改编具有非常大的社会价值和现实应用价值。可以将同样的文本内容改写为多个级别,适用于不同人群的阅读、学习需要,这对于分级阅读体系构建,实现精准阅读和高效阅读都有重要的意义,不仅对教育领域有重要意义,对于信息的传播,新知识的扩散都有直接作用。
而目前,文本的智能改编通常是通过人工操作进行改编,即改编人员先对需要改编的原始句子进行人工等级标注,然后按照指定的等级对原始句子中的词进行近义词替换。人工改编存在效率低、错误率高的问题。
发明内容
本发明实施例提供了一种中文文本智能分级改编方法及装置。所述技术方案如下:
一方面,提供了一种中文文本智能分级改编方法,该方法由电子设备实现,该方法包括:
S1、获取文本数据,对所述文本数据进行预处理,基于预处理后的文本数据构建分级文本库;
S2、获取原始句子,确定所述原始句子的等级;
S3、获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;
S4、基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;
S5、根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;
S6、根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子。
可选地,所述S1中的对所述文本数据进行预处理,基于文本数据以及对应的等级,构建分级文本库,包括:
S11、对所述文本数据进行分句处理,得到多个待归类句子;
S12、对多个待归类句子分别进行分级处理;
S13、将分级处理后的待归类句子存入到分级文本库中对应的分级子库中。
可选地,所述S12中的对多个待归类句子分别进行分级处理,包括:
S121、根据预设的分级标准,分别确定多个待归类句子中的每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211524750.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:利用硅热还原从磷酸盐中制备黄磷的方法及应用
- 下一篇:一种微电机端盖冲压装置





