[发明专利]事件陈述文本的关键信息提取方法、装置及应用在审
| 申请号: | 202111534803.1 | 申请日: | 2021-12-15 |
| 公开(公告)号: | CN114372462A | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 李圣权;王思丹;刘家璇 | 申请(专利权)人: | 城云科技(中国)有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
| 代理公司: | 杭州汇和信专利代理有限公司 33475 | 代理人: | 薛文玲 |
| 地址: | 310052 浙江省杭州市滨江区长*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 事件 陈述 文本 关键 信息 提取 方法 装置 应用 | ||
1.一种事件陈述文本的关键信息提取方法,其特征在于,包括以下步骤:
将事件陈述文本分词后输入已训练的分类器中进行识别,得到所述已训练的分类器输出的动作实体以及对象实体;
根据所述对象实体与所述动作实体的关联映射创建待识别实体对;
提取所述待识别实体对的特征向量,将所述特征向量输入已训练的关系识别模型中,得到由所述已训练的关系识别模型输出的目标实体对;
在所述目标实体对的数量包含多个的情况下,根据每个所述目标实体对在所述事件陈述文本中的出现顺序将多个所述目标实体对顺序映射,得到结构化关键信息。
2.根据权利要求1所述的事件陈述文本的关键信息提取方法,其特征在于,所述已训练的分类器的训练方法包括:
获取第一样本集合,对所述第一样本集合进行标注,得到第一活动实体集以及第一属性实体集;
获取第二样本集合,基于所述活动实体集以及所述属性实体集对所述第二样本集合自动预标注,得到第二活动实体集以及第二属性实体集;
以所述第一样本集合、所述第二样本集合作为分类器的输入,并以所述第一活动实体集、所述第一属性实体集、所述第二活动实体集以及所述第二属性实体集作为所述分类器的输出对所述分类器进行训练,得到所述已训练的分类器。
3.根据权利要求2所述的事件陈述文本的关键信息提取方法,其特征在于,“基于所述活动实体集以及所述属性实体集对所述第二样本集合自动预标注”包括:
获取所述第二样本集合中的每一未标注过程文本,其中,所述未标注过程文本表示为:由未标注文本分词得到的词组的集合;
遍历每一所述未标注过程文本中的所述词组,将每一所述词组与所述活动实体集以及所述属性实体集匹配:
若所述词组与所述活动实体集相匹配,则将所述词组标注为活动词组,若所述词组与所述属性实体集相匹配,则将所述词组标注为属性词组。
4.根据权利要求3所述的事件陈述文本的关键信息提取方法,其特征在于,所述方法还包括:
计算所述活动词组以及所述属性词组在每一所述未标注过程文本中所占的标注密度,剔除所述标注密度小于密度阈值的所述未标注过程文本中的所述活动词组以及所述属性词组,得到得到所述第二活动实体集以及所述第二属性实体集。
5.根据权利要求1所述的事件陈述文本的关键信息提取方法,其特征在于,“根据所述对象实体与所述动作实体的关联映射创建实体对”包括:
获取每一所述动作实体与每一所述对象实体的一对一的关联关系,得到至少一初步映射实体对;
剔除所述动作实体与所述对象实体在所述事件陈述文本中的距离不符合预设条件的所述初步映射实体对,得到待识别实体对。
6.根据权利要求5所述的事件陈述文本的关键信息提取方法,其特征在于,所述预设条件表征为:所述动作实体与所述对象实体在所述事件陈述文本中的距离大于所述距离阈值。
7.根据权利要求5所述的事件陈述文本的关键信息提取方法,其特征在于,“所述动作实体与所述对象实体在所述事件陈述文本中的距离”的获取方法包括:
根据所述动作实体在所述事件陈述文本中的第一出现次序创建链式动作实体集,记录每一所述动作实体在所述链式动作实体集中的动作起始位置;
根据所述对象实体在所述事件陈述文本中的第二出现次序创建链式对象实体集,记录每一所述对象实体在所述链式对象实体集中的对象起始位置;
计算所述动作起始位置与所述对象起始位置的差值,将所述差值确定为所述动作实体与所述对象实体在所述事件陈述文本中的距离。
8.根据权利要求1所述的事件陈述文本的关键信息提取方法,其特征在于,“每个所述目标实体对在所述事件陈述文本中的出现顺序”包括:时间顺序和/或位置顺序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于城云科技(中国)有限公司,未经城云科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111534803.1/1.html,转载请声明来源钻瓜专利网。





