[发明专利]一种自然语言文本和数学语言文本的混合词嵌入方法在审
申请号: | 202210469691.4 | 申请日: | 2022-04-28 |
公开(公告)号: | CN114818698A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 董石;唐家玉;陶雪云;王志锋;田元;陈加;陈迪;左明章 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 文本 数学 语言 混合 嵌入 方法 | ||
本发明提供了一种自然语言文本和数学语言文本的混合词嵌入方法,包括:对混合文本进行识别和预处理,得到由文本和数学表达式组成的数学资源数据集;对具有树形结构的数学表达式进行位置编码,保持树形结构的相对位置平移不变;对具有线性结构特征的文本和具有树形结构特征的数学表达式进行统一位置编码;将相对位置编码送入预训练模型的注意力模块,采用掩蔽语言模型和下句预测两个标准预训练任务对数学资源进行预训练,预训练完成后,每个符号均可得到富含上下文信息的嵌入向量表示。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种自然语言文本和数学语言文本的混合词嵌入方法。
背景技术
数学文本是指包含数学表达式的自然语言文本,具有多义性和多态性的特征,广泛出现于STEM学科和高等教育中。自然语言文本具有线性结构特征,而数学表达式具有树形结构特征,这种混合文本的词嵌入表达对数学文本相关领域具有至关重要的作用。传统的词嵌入技术适合处理具有线性特征的文本,难以处理具有树形结构特征的数学表达式。
数学表达式可以表达为两种最重要的树形结构,一种是符号布局树(SymbolLayer Tree,SLT),这种表示是根据表达式的书写线构建的,具有数学表达式外观信息;另一种是运算符树(Operator Tree,OPT),这种表示是根据表达式中的运算符层次结构构建的,具有数学表达式语义信息。2021年,北京大学的Peng等提出基于BERT的数学表达式预训练模型MathBERT,可以获得混合文本的词嵌入表达。作者将数学表达式的LaTeX序列,OPT树中序遍历序列,上下文文本序列作为BERT模型输入,并使用关注度掩蔽矩阵提取OPT树的结构信息,使树形结构中相邻节点在掩蔽矩阵中才互相可见。最后在掩蔽语言模型和上下文预测任务上增加掩蔽结构预测任务训练BERT模型。但此方法人为限制了关注度计算范围,难以获取远距离依赖的词嵌入信息。同年,宾夕法尼亚大学的Shen等,提出了面向数学教育的MathBERT模型,创新的使用自动打分任务和认知追踪预测任务对BERT进行微调。但作者用数学文本的简单线性序列作为输入,忽略了数学表达式的树形结构特征,使词嵌入缺乏数学语义信息。
发明内容
针对数学文本广泛的、依赖于上下文的多义性和多态性特征,以及现有方法难以提取远距离依赖的数学表达式语义关系,从而导致的词嵌入表示不够全面和准确的技术问题,本发明根据数学结构的位置表达原理,以及自然语言和数学语言混合文本的结构特点,对具有树形结构的数学表达式进行位置编码,并将具有线性序列特征的文本和具有树形结构特征的数学表达式统一位置编码,通过预训练模型在数学语言处理任务下的精细调整,进而获得自然语言和数学语言混合文本的词嵌入表达。
为了达到上述目的,本发明提供了一种自然语言文本和数学语言文本的混合词嵌入方法,包括:
S1:对包含自然语言文本和数学语言文本的学习资源进行预处理,得到数学资源数据集,其中,数学语言文本为具有树形结构的数学表达式,自然语言文本为具有线性序列特征的上下文;
S2:对具有树形结构的数学表达式采用基于分支的位置编码方式进行绝对位置编码,并根据绝对位置编码结果计算树形结构中两个节点的相对位置编码;
S3:对具有线性序列特征的上下文采用负整数位置编码,并使用补码表示,然后将树形结构的根节点作为线性序列的首节点,实现数学表达式和上下文的统一位置编码,再根据统一位置编码计算树形结构和线性序列中任意两个节点的相对位置编码;
S4:将步骤S1得到的数学资源数据集输入BERT预训练模型,其中,BERT预训练模型具有位置编码模块和注意力模块,将步骤S3中得到的统一位置编码输入位置编码模块、将步骤S3计算出的树形结构和线性序列中任意两个节点的相对位置编码送入BERT预训练模型的注意力模块进行训练,采用掩蔽语言模型和下句预测两个标准预训任务对数学资源进行预训练,得到训练好的词嵌入模型;
S5:利用训练好的词嵌入模型对自然语言文本和数学语言文本进行处理,得到最终混合词嵌入表达。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210469691.4/2.html,转载请声明来源钻瓜专利网。