[发明专利]审计数据处理方法、系统和可读存储介质在审
申请号: | 201910815708.5 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110399617A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 谢志林;李芳琳;梁琦;冯挺;韦宗慧 | 申请(专利权)人: | 广西电网有限责任公司南宁供电局 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/33;G06Q40/00 |
代理公司: | 佛山粤进知识产权代理事务所(普通合伙) 44463 | 代理人: | 王储 |
地址: | 530000 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 审计数据 可读存储介质 数据处理 文本 规则处理 相关信息 审计 预设 挖掘 | ||
1.一种审计数据处理方法,其特征在于,所述方法包括:
获取审计数据文本;
按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息。
2.根据权利要求1所述的审计数据处理方法,其特征在于,所述按预设的挖掘规则处理所述审计数据文本,得到审计数据和/或审计数据的相关信息,包括:
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词相同的第一目标词及所述包含所述第一目标词的上下文;根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息;和/或,
获取预设的关键词库,根据所述关键词库中的关键词搜索所述审计数据文本,提取与所述关键词的相似度超过预设阈值的第二目标词及所述包含所述第二目标词的上下文;根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息。
3.根据权利要求2所述的审计数据处理方法,其特征在于,所述根据所述第一目标词及所述包含所述第一目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
对所述包含第一目标词的上下文进行分词处理,得到第一关键词作为审计数据,确定所述第一关键词对应的审计数据类型,作为所述审计数据的相关信息;
所述对所述包含第一目标词的上下文进行分词处理,得到第一关键词之后,所述方法还包括:
对包含所述第一关键词的上下文或对所述包含第一目标词的上下文进行语义分析,确定所述第一关键词对应的数字,作为所述审计数据中的一部分。
4.根据权利要求3所述的审计数据处理方法,其特征在于,所述根据所述第二目标词及所述包含所述第二目标词的上下文得到所述审计数据和/或审计数据的相关信息,包括:
判断所述包含第二目标词的上下文与所述包含第一目标词的上下文是否存在;
对于与所述包含第一目标词的上下文相同的所述包含第二目标词的上下文,不做处理;
对于与所述包含第一目标词的上下文不相同的所述包含第二目标词的上下文,进行分词处理,得到第二关键词作为审计数据,确定所述第二关键词对应的审计数据类型,作为所述审计数据的相关信息。
5.根据权利要求4或5所述的审计数据处理方法,其特征在于,通过所述分词处理,得到关键词,包括:
将所述包含第一目标词的上下文或所述包含第二目标词的上下文作为待分词文本,获取训练完成后的基于LSTM的实体识别模型,其中,所述基于LSTM的实体识别模型为使用标注后的训练语料训练,将待分词文本输入所述训练完成后的基于LSTM的实体识别模型,获取所述待分词文本中各个字符分属标注标签的概率;
将所述概率输入CRF模型,得到各个字符的标记,根据所述标记得到抛去实体词的短句;基于最大概率分词对所述抛去实体词的短句进行切分,得到所述待分词文本的分词结果;
将所述分词结果与预设词库进行匹配,以得到关键词。
6.根据权利要求5所述的审计数据处理方法,其特征在于,所述将所述概率输入CRF模型,得到各个字符的标记,包括:
将所述概率输入预测公式,求解所述预测公式的最大值,得到最佳的输出标签序列,其中,所述预测公式为
其中,v为预设系数;y为所述待分词文本的待预测的标签序列;
y=(y1,y2,…,yn),X=pi,yi为所述待分词文本中各个字符分属标注标签的概率,指第i个字被标记为第yi个标签的概率;Ayi,yi+1指第yi个标签转移到第yi+1个标签的概率;
根据所述最佳的输出标签序列进行标注,进而得到各个字符的标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西电网有限责任公司南宁供电局,未经广西电网有限责任公司南宁供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910815708.5/1.html,转载请声明来源钻瓜专利网。