[发明专利]一种自然语言处理方法在审
申请号: | 202310449583.5 | 申请日: | 2023-04-24 |
公开(公告)号: | CN116561251A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 裴正奇;王树徽;张安然 | 申请(专利权)人: | 北京芯水科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F40/126;G06F40/194;G06F40/211;G06F40/30;G06N3/0442;G06N3/084;G06N3/092 |
代理公司: | 深圳市沃赢专利代理事务所(普通合伙) 44909 | 代理人: | 杨茵 |
地址: | 100000 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 处理 方法 | ||
本发明公开了一种自然语言处理方法,该方法具体包括以下步骤:获取待处理的关键词,对待处理的关键词进行排列组合处理,得到提示梗概,根据困惑度采用语言模型将提示梗概生成自然语句,并构建事实库;采用预训练的语言解析模型获得自然语句对应的语义路径;基于语义结构,生成自然语句中的任意两个词符之间的语义路径集合,以构建语义路径库,并存储至语义场数据库中;计算两个语义场的相似度;评估对自然语句中的词符进行替换的事实偏差程度;基于事实偏差程度训练初始化语义编码模型,进行迭代优化,得到语义解析模型;本发明准确率性能提升显著,模型可解释性更强,计算复杂度较低,能够将深度学习语言模型的计算复杂度降低,减少算力成本。
技术领域
本发明涉及计算机相关技术领域,特别是一种自然语言处理方法。
背景技术
知识密集型推理使用事实陈述,即描述事实的自然句子,从知识库中检索来执行推理和做出决策。最基本的知识密集型推理是常识推理,它涉及建立关于日常案例的基本假设。常识推理能力对于人类思考和与世界互动至关重要。因此,以实用形式(例如,问答、阅读理解)赋予机器常识推理能力是通用人工智能的基础。
语言生成模型是一类模型,它可以根据输入的数据来生成文本。这些模型通常基于神经网络,如LSTM或Transformer等。它们可以被用来完成诸如文本摘要、对话机器人、翻译等任务。生成模型需要大量的训练数据,训练后可以根据给定的输入(例如输入句子或摘要)来生成相应的输出(例如完整的文章或对话)。通常来说,这些模型会结合编码器-解码器架构和注意力机制来生成文本。
大规模预训练语言模型(LLMs)具有很强的自然语言理解能力。因此,它们被用作常识推理的基石。然而LLM需要一种明确的机制来处理知识密集型信息。作为解释以知识为中心的数据的可行解决方案,知识图(KGs)在实体之间的拓扑编码特征方面取得了成功。KGs在以实体形式提供LLMs的上下文中不可或缺,实体形式与实质关系相关联以得出答案。主流常识推理方法是将LLM与KG耦合的方法,包括KG-BERT、KagNet、QA-GNN和GreaseLM。他们通过结合自然语言理解和结构知识指导的优点来提高准确性。然而,在常识推理的性能、可解释性和可持续性方面仍有改进的地方。
基于强化学习的人类反馈优化语言模型(RLHF),使用强化学习的方法直接优化带有人类反馈的语言模型。RLHF使语言模型能够开始将在一般文本数据语料库上训练的模型与复杂人类价值观的模型对齐,通过人类偏好来指导智能代理的训练。具体而言,它要求人类评估一系列不同策略的优劣,然后将这些评估结果作为训练数据来训练智能代理的深度神经网络。这样,智能代理就可以在人类偏好的指导下,学习到更符合期望的策略。除了减少训练时间和提高智能代理的性能之外,RLHF还可以在许多现实场景中发挥作用,例如游戏设计、自动驾驶等。通过使用人类偏好来指导智能代理的训练,可以更好地满足需求,并创造出更加智能和人性化的技术应用。
句法分析是一种用来分析句子语义成分的重要工具,它为自然语言处理任务提供了辅助特征支持。句法分析主要分为两类:成分句法分析、依存句法分析。
成分句法分析用于识别句子中的短语结构与短语间的层次句法关系。主要步骤为:先对句中词语做词性分析,再将各个相邻的词语组成更长的短语,并逐渐递归直到还原为完整的句子。成分句法分析的最终呈现形式一般为树状结构(成分树):将一段文本转化为短语,成分树中的非叶子结点代表短语类型,叶子结点代表句中词语。
依存句法分析可自动分析文本中的依存句法结构信息,实现对自然语言的精准理解。该技术能利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系),并用树状结构来表示整句的的结构(如主谓宾、定状补)等。
词性标注用于判定给定句子中的词语的词性并对其进行标注。常见的词性标注方法有以下几种:
基于规则的词性标注方法,其基本思想是根据词搭配关系和上下文语境建造词类消歧规则。早期的词类标注规则一般由人工构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京芯水科技有限公司,未经北京芯水科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310449583.5/2.html,转载请声明来源钻瓜专利网。