[发明专利]一种警情信息分层要素识别方法和计算机在审
申请号: | 202110690157.1 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113420559A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 吴瑞萦;何莹;李直旭;陈耀玲 | 申请(专利权)人: | 苏州智汇谷科技服务有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04;G06N3/08;G06F16/35;G06Q50/26 |
代理公司: | 南京科知维创知识产权代理有限责任公司 32270 | 代理人: | 梁珺 |
地址: | 215000 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 分层 要素 识别 方法 计算机 | ||
本发明实施例提供了一种警情信息分层要素识别方法及计算机,该方法包括:利用实体识别模型从警情信息中抽取粗粒度要素类别的粗粒度警情要素;利用阅读理解模型从粗粒度警情要素中提取细粒度要素类别的细粒度警情要素。经过实体识别和阅读理解这样的分层要素识别模型,能够准确且高效的从警情文本中抽取出细粒度的警情要素信息。
技术领域
本发明涉及公安管理领域,特别是涉及一种警情信息分层要素识别方法和计算机。
背景技术
警情要素识别任务是从海量的警情文本中抽取出关键的要素信息。例如,警情案件中参与的人,警情事件发生的时间、地点以及警情中涉及的物品、工具和相关金额。提取这些信息不仅有助于警情的分类,同时对各类警情案件的关联关系识别也起到关键性的作用。然而,传统的人工分析的方法,存在效率低,误差率高等问题。随着机器学习和深度神经网络技术的发展,通过自然语言处理领域的相关技术能够很好的辅助民警提取和分析警情文本中的信息。
常见的警情事件要素识别技术多采用实体识别的方法,例如“王月,王孟轩,张胜,等.基于BERT的警情文本命名实体识别[J].计算机应用,2020,40(2):535-540.”公开了了一种的实体识别方法,即利用深度神经网络来学习警情文本的上下文信息,再通过条件随机场来预测文本中每一个字符的所属类别,即事先定义好的事件论元,例如,人物、时间、地点、工具等。
这种方法虽然简单直接,但警情文本中的信息多样且复杂,不同类型的警情所包含的要素类别也各有差距。例如,在诈骗类警情中存在嫌疑人、受害人,而在殴打类的警情人物中一般存在双方当事人。并且,人物信息中又细分姓名、性别、年龄、居住地、暂住地等信息。同时,时间和地方也各不相同。例如,案发时间和出警时间。仅仅通过一层实体识别模型很难将这些要素准确的抽取出来。当要素类别粒度较粗时,无法精准的获得警情的关键信息,当要素类别粒度较细时,模型识别能力会随着类别的增加而降低。针对该问题,我们提出了一种分层的要素识别方法。
发明内容
本发明的目的是克服现有技术中的不足之处,提供一种警情信息分层要素识别方法及计算机。
为实现上述目的,本发明一方面提供一种警情信息分层要素识别方法,包括:
利用实体识别模型从警情信息中抽取粗粒度要素类别的粗粒度警情要素;
利用阅读理解模型从粗粒度警情要素中提取细粒度要素类别的细粒度警情要素。
优选地,所述实体识别模型包括:
用于获得上下文语义向量的语义向量模型,和
用于为文本中每个字符预测其粗粒度要素类别标签的序列化标注模型。
优选地,所述语义向量模型为Bert模型。
优选地,所述序列化标注模型为Bi-LSTM+CRF模型。
优选地,所述粗粒度要素类别包括:时间、地点、任务、和物品。
优选地,所述利用阅读理解模型从粗粒度警情要素中,提取细粒度要素类别的细粒度警情要素包括:
将细粒度要素类别对应的问题和粗粒度警情要素作为阅读理解模型的输入,输出该粗粒度警情要素中该问题对应的细粒度警情要素信息。
优选地,所述输出该粗粒度警情要素中该问题对应的细粒度警情要素信息包括:
输出细粒度警情要素在所述粗粒度警情要素中的位置信息。
优选地,所述细粒度警情要素在所述粗粒度警情要素中的位置信息包括:
细粒度警情要素在所述粗粒度警情要素中的起始位置和结束位置、或
细粒度警情要素在所述粗粒度警情要素中的起始位置和长度信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州智汇谷科技服务有限公司,未经苏州智汇谷科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110690157.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:负载均衡配置方法、汇聚分流器及介质
- 下一篇:一种森林康养环境综合监测方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置