[发明专利]监狱短信异常事件提取方法、装置、计算机设备及介质有效
申请号: | 202211194925.5 | 申请日: | 2022-09-29 |
公开(公告)号: | CN115293156B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 张伟;姚佳;何行知;唐怀都;张凤;朱娟 | 申请(专利权)人: | 四川大学华西医院;四川省监狱管理局 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/211 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 贾耀斌 |
地址: | 610044 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监狱 短信 异常 事件 提取 方法 装置 计算机 设备 介质 | ||
本发明的实施例提供了一种监狱短信异常事件提取方法、装置、计算机设备及介质,涉及数据分析领域。包括:基于样本数据生成异常事件词表;对待提取文本进行分词和词性标注,得到多个分词结果及其词性;将所述待提取文本划分为多个短句,判断多个所述短句中是否存在假设句;将多个所述短句中的假设句删除;基于所述异常事件词表对剩余短句进行词表匹配,得到多个匹配结果及其词性,若存在词性不符合词性限制的错误匹配结果,则删除错误匹配结果,输出异常事件提取结果。本申请实施例在标注数据较难获取的情况下,得到大量的召回词,形成覆盖广的异常事件词表,进而根据异常事件提取结果了解服刑人员的个人情况,实现对服刑人员的个性化帮扶及改造。
技术领域
本发明涉及数据分析领域,具体而言,涉及一种监狱短信异常事件提取方法、装置、计算机设备及介质。
背景技术
在监狱场景下,服刑人员会与监狱外人员进行短信沟通,而沟通短信中会存在一些异常事件,如离婚、生病等。如果可以及时识别出这些异常事件,就可以根据服刑人员的个人情况对其进行个性化帮扶及改造。
目前来说,对于公开文本中的事件提取,主要存在两大类方法:命名体识别法和事件分类法。命名体识别法包括CRF模型、LSTM模型、BI-LSTM+CRF模型、FLATTEN模型等。事件分类法包括Fasttext模型、BERT模型等。而这些模型都需要大量的标注数据对其进行训练。但是在监狱这种特殊的环境下,标注数据极难获取,这就意味着很难对现有技术提供的模型进行训练,也就无法基于现有的模型对监狱内服刑人员的短信内容中的异常事件进行识别。
发明内容
为了解决上述技术问题,本申请实施例提供了一种监狱短信异常事件提取方法、装置、计算机设备及介质,其能够在无监督的情况下对监狱内服刑人员的短信内容中的异常事件进行提取。
第一方面,本申请实施例提供了一种监狱短信异常事件提取方法,所述方法包括:
基于样本数据生成异常事件词表;
对待提取文本进行分词和词性标注,得到多个分词结果及其词性;
将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;
若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;
基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;
若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。
在一实施方式中,所述基于样本数据生成异常事件词表的步骤包括:
基于所述样本数据生成种子词典;
对所述种子词典中的各种子词进行词性标注;
基于相似词召回模型获取各所述种子词对应的多个召回词;
对多个所述召回词进行筛选,判断各所述召回词是否符合预设类别,从多个所述召回词中删去不符合预设类别的召回词,得到所述异常事件词表。
在一实施方式中,所述方法还包括:
对各所述召回词进行词性标注,各所述召回词的词性与所述召回词对应的种子词的词性相同。
在一实施方式中,所述种子词典包括实体词与事件词。
在一实施方式中,所述相似词召回模型包括词向量模型和DSG模型,所述词向量模型基于历史短信文本训练得到,所述DSG模型基于互联网语料训练得到。
在一实施方式中,所述对待提取文本进行分词和词性标注的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学华西医院;四川省监狱管理局,未经四川大学华西医院;四川省监狱管理局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211194925.5/2.html,转载请声明来源钻瓜专利网。