[发明专利]一种新型文本可读性评估方法及系统在审
申请号: | 202110459535.5 | 申请日: | 2021-04-27 |
公开(公告)号: | CN113158643A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 丘心颖;申宇铭 | 申请(专利权)人: | 广东外语外贸大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 广州凯东知识产权代理有限公司 44259 | 代理人: | 吴发登 |
地址: | 510010 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新型 文本 可读性 评估 方法 系统 | ||
本发明公开了一种基于双通道神经网络模型的文本可读性评估方法及系统,所述方法包括提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示,将提取到的语义稠密嵌入表示和句法稠密嵌入表示输入双通道神经网络模型中,实现特征的提取,将提取出的特征进行结合,形成语义与语法的稠密嵌入表示,将语义与语法的稠密嵌入表示输入至深度神经网络中进行预测,从而实现文本可读性的评估;通过设计双通道神经网络模型,并且提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示,从多个角度进行评估,能够提高文本可读性评估的效率和准确率,从而解决了现有技术仅仅在词嵌入级别这方面展开可读性评估所存在的评估不够准确和严谨的缺陷。
技术领域
本发明涉及文本可读性评估的技术领域,尤其涉及一种新型文本可读性评估方法及系统。
背景技术
可读性评价方法旨在发现影响文本阅读难度的语言特征,或者基于有效特征构建数学公式或者模型来表示文本的语言难度或者理解难度,对于文本的可读性进行评估,能够有效对文本进行分类,现有技术中对于文本可读性的评估一般都是使用词汇术语或语言特征向量空间模型来表示文档,可能对文档可读性预测有较大影响的语言特征包括浅层特征、词汇/词性特征、句法特征和语篇/连贯特征进行评估,从而实现文本可读性的评估。
然而,现有技术中的文本可读性评估仅仅是在词嵌入级别这方面进行展开,但是在文本可读性评估中,结构信息至关重要,一个结构简单的句子容易阅读,而另一个具有相同语义信息但结构复杂的句子可能更难理解,因此,仅仅是在词嵌入级别这方面展开可读性评估的方法并不够准确和严谨。
发明内容
有鉴于此,本发明提出一种新型文本可读性评估方法及系统,可以解决现有文本可读性评估所存在的不够准确和严谨的缺陷。
本发明的技术方案是这样实现的:
一种新型文本可读性评估方法,所述方法基于双通道神经网络模型,包括以下步骤:
步骤S1,提取需要评估的文本的语义稠密嵌入表示和句法稠密嵌入表示;
步骤S2,将提取到的语义稠密嵌入表示和句法稠密嵌入表示输入双通道神经网络模型中,实现特征的提取;
步骤S3,将提取出的特征进行结合,形成语义与语法的稠密嵌入表示;
步骤S4,将语义与语法的稠密嵌入表示输入至深度神经网络中进行预测,从而实现文本可读性的评估。
作为所述新型文本可读性评估方法的进一步可选方案,所述步骤S1中提取需要评估的文本的语义稠密嵌入表示是通过采用预训练语义模型生成。
作为所述新型文本可读性评估方法的进一步可选方案,所述步骤S1中提取需要评估的文本的句法稠密嵌入表示包括以下步骤:
提取需要评估的文本的语言特征并构建向量空间表示;
依据每个语言特征之间的关系构建出特征图;
将表示学习算法应用于所述特征图上,生成句法潜在空间;
运用矩阵向量乘法将语言特征向量投影到句法潜在空间上,从而形成句法稠密嵌入表示。
作为所述新型文本可读性评估方法的进一步可选方案,所述双通道神经网络模型包括DNN双通道模型和DNN-LSTM双通道模型。
作为所述新型文本可读性评估方法的进一步可选方案,所述步骤S2中对句法稠密嵌入表示进行特征提取是采用DNN双通道模型,主要具体包括以下步骤:
将句法稠密嵌入表示输入至DNN双通道模型的两层网络中;
依据预训练语义模型平均嵌入表示,将DNN双通道模型的两层输出内容与预训练语义模型嵌入矩阵的四层神经网络输出内容结合起来,从而实现句法稠密嵌入表示的特征提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110459535.5/2.html,转载请声明来源钻瓜专利网。