[发明专利]实体抽取方法及装置在审
申请号: | 202110632223.X | 申请日: | 2021-06-07 |
公开(公告)号: | CN113095083A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 钱佳佳;陈立力;周明伟;刘伟棠;范鹏召;郑燕玲 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F16/332;G06N3/04;G06N3/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 黎坚怡 |
地址: | 310051 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 抽取 方法 装置 | ||
本申请公开了一种实体抽取方法及装置。其中,该实体抽取方法包括:确定未知实体的自然问句,自然问句是由已知实体和实体关系构建而成,实体关系为已知实体和未知实体之间的关系;得到自然问句和待抽取文本的向量表示;基于向量表示确定自然问句的答案,即得到未知实体。本申请只需一步操作就可进行实体关系提取,无需先进行实体提取操作后进行关系提取,提高文本分析效率,单个模型即可完成待抽取文本中实体关系的抽取。
技术领域
本申请涉及文本处理技术领域,特别是涉及一种实体抽取方法及装置。
背景技术
对文本信息进行自动分析,需要对文本内容,包含文本实体和文本中的实体关系进行语义理解,因此对文本信息进行实体提取和实体关联是基础。
目前对文本信息进行自动分析的步骤一般是:先对文本中字词进行分类,以提取出文本信息中的实体;然后基于所提取的实体从文本信息中提取出实体之间的关系。上述文本信息自动分析方法需要进行实体提取和关系提取两步操作,步骤繁琐,文本分析效率低。
发明内容
本申请提供一种实体抽取方法及装置,无需先进行实体提取操作后进行关系提取,提高文本分析效率,单个模型即可完成待抽取文本中实体关系的抽取。
为解决上述问题,本申请提供一种实体抽取方法,该方法包括:
确定未知实体的自然问句,自然问句是由已知实体和实体关系构建而成,实体关系为已知实体和未知实体之间的关系;
得到自然问句和待抽取文本的向量表示;
基于向量表示确定自然问句的答案,即得到未知实体。
为解决上述问题,本申请还提供一种电子设备,该电子设备包括处理器;处理器用于执行指令以实现上述方法。
为解决上述问题,本申请还提供一种计算机可读存储介质,其用于存储指令/程序数据,指令/程序数据能够被执行以实现上述方法。
本申请直接基于未知实体的自然问句从文本信息中抽取出对应的未知实体,这样只要文本信息中具有未知实体和自然问句中已知实体、实体关系之间关系的内容,本申请就可从文本信息中抽取到未知实体,这样只需一步操作就可进行文本分析,无需先进行实体提取操作后进行关系提取,提高文本分析效率,从而无需利用实体识别模型和关系抽取模型这两个模型对文本进行分析,单个模型即可完成待抽取文本中实体关系的抽取,在进行关系抽取时,不需要额外依赖实体识别模型,从而避免了实体识别的错误结果会传递给关系抽取模块,提升了关系抽取的准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实体抽取方法一实施方式的流程示意图;
图2是本申请电子设备一实施方式的结构示意图;
图3是本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
描述和附图说明本申请的原理。因此将了解,本领域的技术人员将能够设计各种布置,尽管本文中未明确地描述或示出布置,但其体现了本申请的原理且包括在本申请的范围内。此外,本文中的所有例子主要明确地意在用于教学目的,以辅助读者理解本申请的原理及由发明人所提供的概念,从而深化所属领域,且所有例子不应解释为限于此类特定阐述的例子及条件。另外,除非另外指明(例如,“或另外”或“或在替代方案中”),否则如本文所使用的术语“或”指代非排他性的“或”(即,“和/或”)。并且,本文所描述的各种实施例不一定相互排斥,因为一些实施例可以与一个或多个其它实施例组合以形成新的实施例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632223.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包含门电路的数字电路
- 下一篇:一种宽带小型化快速频综的设计方法