[发明专利]一种中文语句特征构造的训练更新方法及系统有效

申请号：	202310001746.3	申请日：	2023-01-03
公开（公告）号：	CN116070638B	公开（公告）日：	2023-09-08
发明（设计）人：	杜浩鹏;徐圣兵;王振友;谢锐;吴宇佳	申请（专利权）人：	广东工业大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/211;G06F18/214
代理公司：	广东南北知识产权代理事务所(普通合伙) 44918	代理人：	肖湘漓
地址：	510006 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文语句特征构造训练更新方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种中文语句特征构造的训练更新方法及系统，该方法包括：对训练集和应用集进行特征提取，得到各自的特征矩阵；将每个字的特征向量与当前字特征向量的差的和向量的平均值作为当前字的增量信息，基于信息增量构建信息增量模型；基于训练集的特征矩阵对信息增量因子进行微调训练，得到训练后信息增量模型；应用训练后的信息增量模型对应用集进行特征更新，得到新的应用集特征矩阵。该系统包括：特征提取模块、模型构建模块、微调训练模块和应用更新模块。通过使用本发明，能够对字的特征向量进行动态更新，提高字在不同句子中新语义表达的准确性。本发明作为一种中文语句特征构造的训练更新方法及系统，可广泛应用于自然语言处理领域。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种中文语句特征构造的训练更新方法及系统。

背景技术

自然语言处理的应用十分广泛，无论是通讯信息，语言对话，文档处理等等，都是人类在生活中大量使用的。随着科技发展，自然语言处理成为了人类通信与计算机数据相连接的重要技术，也是使人类直接与机器沟通的重要方法。而如何让机器更精准地为人类服务也是研究人员不断深究地问题。

如今自然语言处理都是基于预训练模型进行。自然语言处理文本，最重要的是对文本的特征提取与表示。对于中文来说，在不同语境中含义会有所变化，位置变换一下有时意思会天差万别。由于预训练模型通过大量的语料库做无监督学习，形成一个确切的特征向量库，从而得到的字的特征向量固定不变，当字与字组成句子进行特征提取时，使得字与字之间彼此独立无关联。汉语句子中的某些字组成另一个汉语句子时，这些字的特征向量依然以相同的特征向量表示。随着时间的变化，某些字会在不同的句子中衍生出新的语义，对其直接应用预训练模型特征提取会使得句子存在丢失原有的信息的情况，还存在不能准确捕捉到新语义的情况。

发明内容

为了解决上述技术问题，本发明的目标是提供一种中文语句特征构造的训练更新方法及系统，能够对字的特征向量进行动态更新，提高字在不同句子中新语义表达的准确性。

本发明所采用的第一技术方案是：一种中文语句特征构造的训练更新方法，包括以下步骤：

对训练集和应用集进行特征提取，得到各自的特征矩阵；

将每个字的特征向量与当前字特征向量的差的和向量的平均值作为当前字的增量信息，基于该信息增量构建信息增量模型；

基于训练集的特征矩阵对信息增量模型中的信息增量因子进行微调训练，得到训练后的信息增量因子；

应用训练后的的增量因子的信息增量模型对应用集的特征矩阵进行更新，得到更新后的应用特征矩阵。

进一步，所述对训练集和应用集进行特征提取，得到各自的特征矩阵这一步骤，其具体包括：

按汉字拆分训练集和应用集中的汉字向量，得到汉字编码向量；

根据汉字编码向量的编码号数，利用预训练特征字库对训练集和应用集句子中的每个字进行特征提取，得到每个字的特征向量；

将训练集和应用集中每个字的特征向量按照编码号数进行叠加，得到训练集和应用集的特征矩阵。

通过该优选步骤，以矩阵的方式表示句子的特征信息，以行向量的形式表示字的特征信息，以列向量形式表示字特征数，这样的的表示方式能够清晰的表示句子特征信息，在后续特征信息的更新过程中不会出现冗余的模糊信息或者丢失部分信息。