[发明专利]事件陈述文本的关键信息提取方法、装置及应用在审
| 申请号: | 202111534803.1 | 申请日: | 2021-12-15 |
| 公开(公告)号: | CN114372462A | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 李圣权;王思丹;刘家璇 | 申请(专利权)人: | 城云科技(中国)有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
| 代理公司: | 杭州汇和信专利代理有限公司 33475 | 代理人: | 薛文玲 |
| 地址: | 310052 浙江省杭州市滨江区长*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 事件 陈述 文本 关键 信息 提取 方法 装置 应用 | ||
本申请提出了一种事件陈述文本的关键信息提取方法、装置及应用,其中,所述方法包括:将事件陈述文本分词后输入已训练的分类器中进行识别,得到所述已训练的分类器输出的动作实体以及对象实体;根据所述对象实体与所述动作实体的关联映射创建待识别实体对;提取所述待识别实体对的特征向量,将所述特征向量输入已训练的关系识别模型中,得到由所述已训练的关系识别模型输出的目标实体对;在所述目标实体对的数量包含多个的情况下,根据每个所述目标实体对在所述事件陈述文本中的出现顺序将多个所述目标实体对顺序映射,得到结构化关键信息。采用自动抽取方法,实现无结构过程文本向结构化关键信息集合的转换目的。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种事件陈述文本的关键 信息提取方法、装置及应用。
背景技术
现有技术中针对案卷中关键信息抽取的方式主要存在两方面缺 陷:一方面是业务和技术的脱节,即,对案件的关键信息抽取和检索 被认为是简单的当事人、时间、违法条例等基础信息字段查询,对无 结构案件过程信息的抽取的建模不充分导致技术只能适应初步信息 筛选,在实际业务中一线队员在查案和学案例的过程中还需要自行甄 别整理案件关键信息,耗时耗力。另一方面是技术本身的挑战,案卷 在过程信息抽取中大多依赖人工定义的语言规则,较难适应在案卷, 执法人员自然描述下半口语化的语法结构,而且各地受到方言等区域 语言特色影响,使得句法和语法特性变的不清晰,会导致自然语言处理工具在可用性上大打折扣。
因此,亟需一种面向执法案卷关键信息抽取方法,实现对描述流程案卷信 息的自然语言的无结构化过程文本向结构化关键信息集合的转换。
发明内容
本申请实施例提供了一种事件陈述文本的关键信息提取方法、装置及应用, 针对目前无法快速从历史案件中提取案例关键信息的问题,采用自动抽取方法, 实现无结构过程文本向结构化关键信息集合的转换,从而后续可用于一线执法 队员进行案件信息检索和案例学习。
第一方面,本申请实施例提供了一种事件陈述文本的关键信息提取方法, 所述方法包括:将事件陈述文本分词后输入已训练的分类器中进行识别,得到 所述已训练的分类器输出的动作实体以及对象实体;根据所述对象实体与所述 动作实体的关联映射创建待识别实体对;提取所述待识别实体对的特征向量, 将所述特征向量输入已训练的关系识别模型中,得到由所述已训练的关系识别 模型输出的目标实体对;在所述目标实体对的数量包含多个的情况下,根据每 个所述目标实体对在所述事件陈述文本中的出现顺序将多个所述目标实体对顺 序映射,得到结构化关键信息。
在其中一些实施例中,所述已训练的分类器的训练方法包括:获取第一样 本集合,对所述第一样本集合进行标注,得到第一活动实体集以及第一属性实 体集;获取第二样本集合,基于所述活动实体集以及所述属性实体集对所述第 二样本集合自动预标注,得到第二活动实体集以及第二属性实体集;以所述第 一样本集合、所述第二样本集合作为分类器的输入,并以所述第一活动实体集、 所述第一属性实体集、所述第二活动实体集以及所述第二属性实体集作为所述 分类器的输出对所述分类器进行训练,得到所述已训练的分类器。
在其中一些实施例中,“基于所述活动实体集以及所述属性实体集对所述第 二样本集合自动预标注”包括:获取所述第二样本集合中的每一未标注过程文 本,其中,所述未标注过程文本表示为:由未标注文本分词得到的词组的集合; 遍历每一所述未标注过程文本中的所述词组,将每一所述词组与所述活动实体 集以及所述属性实体集匹配:若所述词组与所述活动实体集相匹配,则将所述 词组标注为活动词组,若所述词组与所述属性实体集相匹配,则将所述词组标 注为属性词组。
在其中一些实施例中,所述方法还包括:计算所述活动词组以及所述属性 词组在每一所述未标注过程文本中所占的标注密度,剔除所述标注密度小于密 度阈值的所述未标注过程文本中的所述活动词组以及所述属性词组,得到得到 所述第二活动实体集以及所述第二属性实体集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于城云科技(中国)有限公司,未经城云科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111534803.1/2.html,转载请声明来源钻瓜专利网。





