[发明专利]一种基于多轮自动问答的电力技术标准实体关系抽取方法在审
申请号: | 202211618005.1 | 申请日: | 2022-12-15 |
公开(公告)号: | CN115795014A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 王诗清;李广翱;高凤喜;王汀;徐凯;王阳;苑经纬;迟丹一;尚莹;张敏杰 | 申请(专利权)人: | 国网辽宁省电力有限公司电力科学研究院;无锡澎湃数智科技有限公司;国家电网有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N20/00;G06Q50/06 |
代理公司: | 辽宁沈阳国兴知识产权代理有限公司 21100 | 代理人: | 何学军;李丛 |
地址: | 110006 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自动 问答 电力 技术标准 实体 关系 抽取 方法 | ||
本发明提出了一种基于多轮自动问答的电力技术标准实体关系抽取方法,包括:步骤1.构建电力技术标准语料库;步骤2.针对电力技术标准语料种类构建信息抽取要素模板;步骤3.根据信息抽取要素模板,构建电力技术标准问答语料库;步骤4.针对步骤1中所述的电力技术标准语料构建文本分类模块;步骤5.针对步骤4中文本分类结果匹配信息抽取要素模板自动构建多轮问答与问题模块,其功能是将复杂问题拆分成简单问题,逐步进行推理回答;步骤6.针对电力技术标准问答语料库构建机器阅读理解模块,逐步推理解答步骤5自动构建的问题,完成本发明抽取方法。本发明,能够有效的缓解复杂文本中关系重叠、实体对跨句依赖的现象。
技术领域
本发明涉及电力技术实体关系抽取技术领域,尤其涉及一种基于多轮自动问答的电力技术标准实体关系抽取方法
背景技术
电力技术标准是安全生产和设备管理高质量发展的重要保障,是企业卓越竞争力的重要体现,是一切技术工作的前提条件。“加快技术标准数字化、模块化,建设精准检索、智能问答和辅助研判等核心应用,逐步实现技术标准与现场作业深度融合,强化标准赋能基层一线”是现代设备管理体系建设的重要要求。由于现有的自动实体关系抽取模块准确性不足,基于通用语料训练的模块在专业领域下效果有较大损失,迁移学习效果不显著等因素,构建面向电力技术标准领域的高性能实体关系抽取模块成为亟待解决的难题。
实体关系抽取作为信息抽取领域的关键性基础任务一直以来受到研究者的广泛关注,旨在从非结构化的文本中抽取出实体以及实体之间的关系。其抽取出的信息为自然语言处理领域的下游任务例如知识图谱构建,信息检索、智能问答等任务提供了知识基础。早期,研究者通常将其划分为两个子任务:命名实体识别以及关系抽取,采用流水线式的框架分别完成。由于在该框架下子任务之间完全独立,模块的错误累积问题一直被研究人员所诟病。随着端到端模块的兴起,一种联合实体关系抽取框架受到广泛关注,通过将两个子任务放入一个结构化预测框架中,或者通过共享表示执行多任务学习,完成对子任务的联合建模。然而,最新的研究工作表明联合建模的性能并不一定优于流水线模式。
尽管大量优秀的研究工作推动实体关系抽取任务获取了卓越的成就,但目前大多数的研究都是面向新闻报道等通用领域数据集,实体大部分都是常见的时间,地点,人名,机构等类别,这些实体类别之间的依赖关系已经得到充分挖掘,三元组的schema也具备完善的设定。例如:北京是中国的首都。模块通过单步依赖就可以完成抽取任务,获得(北京-city,首都-ReL,中国-Country)。然而这种短文本或单关系的样本在实际应用中是非常少见的,大部分的样本都是长文本、多关系且实体对之间可能存在较远的依赖距离,位于不同的句子中,即跨句实体对。此外,实体对之间可能存在多个关系,而不同的关系可能共享相同的实体,即关系重叠。其普遍存在于专有领域的复杂知识样本中。然而现有的研究方法在解决关系重叠方面是乏力的。
现有的实体关系抽取框架主要有以下方式:
1.基于流水线框架的实体关系抽取
早期的实体关系抽取模块大多采用流水线框架,研究者将任务分解为命名实体识别与关系抽取两个子任务分别完成。按照子任务的执行任务不同,又可以划分为先实体后关系、先关系后实体两种模式。前者先通过实体识别模块抽取意向类别的实体,然后将抽取的实体作为先验来预测可能存在的关系;后者则首先通过关系分类抽取输入文本中的关系,然后将其作为先验执行实体识别。虽然流水线框架具备广泛的适用性,可以灵活应对几乎所有领域的实体关系抽取任务,但由于在该框架下,子任务的执行完全独立,忽略了实体模块与关系模块之间的交互,导致上游任务的错误累积到下游任务,并且这样的错误传播不可逆。
2.联合实体关系抽取
为了解决流水线框架的误差累积问题,联合训练的实体关系抽取模块被提出,大量优秀的研究工作已经证明联合模块能够建模实体与关系之间的交互,有效缓解了错误累积问题。研究者通常将其划分为结构化预测与多任务学习两种类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网辽宁省电力有限公司电力科学研究院;无锡澎湃数智科技有限公司;国家电网有限公司,未经国网辽宁省电力有限公司电力科学研究院;无锡澎湃数智科技有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211618005.1/2.html,转载请声明来源钻瓜专利网。