[发明专利]一种自然语言处理方法在审
申请号: | 202310449583.5 | 申请日: | 2023-04-24 |
公开(公告)号: | CN116561251A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 裴正奇;王树徽;张安然 | 申请(专利权)人: | 北京芯水科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F40/126;G06F40/194;G06F40/211;G06F40/30;G06N3/0442;G06N3/084;G06N3/092 |
代理公司: | 深圳市沃赢专利代理事务所(普通合伙) 44909 | 代理人: | 杨茵 |
地址: | 100000 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 处理 方法 | ||
1.一种自然语言处理方法,其特征在于,该自然语言处理方法包括以下步骤:
获取待处理的关键词,对所述待处理的关键词进行排列组合处理,得到提示梗概,根据困惑度采用语言模型将所述提示梗概生成自然语句,并构建事实库;
采用预训练的语言解析模型获得所述自然语句对应的语义路径;
基于所述语义结构,生成所述自然语句中的任意两个词符直接的语义路径集合,以构建语义路径库,并存储至语义场数据库中;
计算两个语义场的相似度,其中所述语义场为语义路径集合;
评估对所述自然语句中的词符进行替换的事实偏差程度;
基于事实偏差程度训练初始化语义编码模型,进行迭代优化,得到语义解析模型。
2.根据权利要求1所述的一种自然语言处理方法,其特征在于,所述获取待处理的关键词,对所述待处理的关键词进行排列组合处理,得到提示梗概,根据困惑度采用语言模型将所述提示梗概生成自然语句,并构建事实库,包括:
获取若干组待处理的关键词,对所述待处理的关键词进行排列组合处理,得到提示梗概,采用生成式语言模型将所述提示梗概扩写生成完整的自然语句;
利用预训练语言模型计算所述自然语句的困惑度,并剔除所述困惑度超过预设阈值的所述自然语句。
3.根据权利要求2所述的一种自然语言处理方法,其特征在于,所述剔除所述困惑度超过预设阈值的所述自然语句之后,还包括:
获取剔除的自然语句,基于强化学习方法对所述剔除的自然语句进行人工排序,得到排序结果;
基于所述排序结果,根据RLHF方法完善生成式语言模型;
获取提示梗概,将所述提示梗概输入完善后的生成式语言模型,得到自然语句;
基于提示梗概和对应的自然语句,构建事实库,并存储至所述事实库中。
4.根据权利要求1所述的一种自然语言处理方法,其特征在于,所述采用预训练的语言解析模型获得所述自然语句对应的语义路径,包括:
获取预训练的语言解析模型,其中所述语言解析模型为成分句法分析模型、依存句法解析模型、词性标注模型;
将所述自然语句输入所述预训练的语言解析模型中,得到解析结果,并对所述解析结果进行整理,得到语义结构。
5.根据权利要求1所述的一种自然语言处理方法,其特征在于,所述基于所述语义结构,生成所述自然语句中的任意两个词符直接的语义路径集合,以构建语义路径库,并存储至语义场数据库中,包括:
设存在数量为N的词素集合w1,w2…wN,将由词素按照特定顺序构成的长度为k自然语句标记为
读取所述语义路径库,并判断所述事实库中所述自然语句是否包含
若是,则读取所述自然语句对应的的索引键包括将所述索引键输入语言解析模型中,得到语义路径集合,并以作为索引键存储在语义场数据库中。
6.根据权利要求1所述的一种自然语言处理方法,其特征在于,所述计算两个语义场的相似度,包括:
获取索引键对应的语义场与索引键对应的语义场,其中所述语义场为语义路径集合;
通过相似度匹配算法计算两个所述语义场的相似度,其中相似度匹配算法通过可训练的度量函数来评估两个构成元素的相似度。
7.根据权利要求1所述的一种自然语言处理方法,其特征在于,所述评估对所述自然语句中的词符进行替换的事实偏差程度,包括:
计算事实库中自然语句和对应的语义场的相似度,利用评估机制得到最终的数值,所述评估机制为取最大值或取平均值。
8.根据权利要求1所述的一种自然语言处理方法,其特征在于,所述基于事实偏差程度训练初始化语义编码模型,进行迭代优化,得到语义解析模型,包括:
调用初始化语义编码模型,其中初始化语义编码模型为LSTM或Transformer的语义编码模型;
输入自然语句,对所述初始化语义编码模型进行训练,输出所述自然语句中各词符之间的关系结果,其中所述关系结果为特定维度的向量;
利用深度学习框架对训练后的初始化语义编码模型进行反向传播训练,将自然语句中的某个词符替换为另一个词,确定自然语句的偏离度,若偏离度较大,则对应的损失函数的损失值就越高;
通过自然语句的偏离度确定损失值,将所述损失值利用反向传播算法对随机初始化的语义编码模型进行迭代优化,得到语义解析模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京芯水科技有限公司,未经北京芯水科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310449583.5/1.html,转载请声明来源钻瓜专利网。