[发明专利]基于关键词网络相关性分析的异常检查报告自动识别方法有效
申请号: | 201610654485.5 | 申请日: | 2016-08-10 |
公开(公告)号: | CN106294751B | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 王亚南 | 申请(专利权)人: | 依据数据(湖南)科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G16H50/20 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 杨萍 |
地址: | 410013 湖南省长沙市*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于关键词网络相关性分析的异常检查报告自动识别方法,通过对报告中的结论进行分句、分词,提取关键词,建立关键词网络,将其与历史异常报告数据库中的关键词网络进行对比,计算相关性,从而自动判断报告是否正常。本发明可有效综合考虑多方面检查结果,自动、高效地识别文字类型的检查报告是否存在异常检查结果。 | ||
搜索关键词: | 基于 关键词 网络 相关性 分析 异常 检查 报告 自动识别 方法 | ||
【主权项】:
1.一种基于关键词网络相关性分析的异常检查报告自动识别方法,其特征在于,包括以下步骤:将检查报告R中的检查结果逐条与异常关键词网络数据库DB中的异常检查结果进行匹配,若存在匹配成功的检查结果,则识别检查报告R为异常检查报告;所述异常关键词网络数据库DB包含由异常报告中的异常检查结果生成的关键词网络;上述方法具体包括以下步骤:步骤1:预处理;将电子形式的检查报告R分割成若干独立的句子,记为R={S1,S2,…,Si,…,Sm1},其中,m1表示该检查报告中句子总数,每个句子包含完整的独立的检查结果;步骤2:关键词提取与配对;针对检查报告R中每一个句子Si,提取其中的关键词,记为Si={KWi1,KWi2,…,KWim},其中KWim表示句子Si中的关键词总数;关键词包括属性关键词和属性值关键词;属性是指检查的项目,属性值则是指检查结果;将关键词与属性数据库和属性值数据库进行匹配,以区分关键字中的属性关键词和属性值关键词;将同一个句子中的属性关键词和属性值关键词进行配对,得到关键词对集合:{(KWi11,KWi12),…,(KWin1,KWin2)}其中,in1,in2分别表示句子Si中第n个关键词对中属性关键词和属性值关键词的下标;每个关键词对描述了一个检查结果;步骤3:构建关键词网络;根据关键词对集合构建有向网络GR=(VR,ER),其中VR为检查报告R中的关键词集合,VR={KWj},j=1,2,…,m2,其中,m2为检查报告R中的关键词总数;ER为边集,ER={ejk},j,k=1,2,…,m2,其中边ejk连接关键词KWj和KWk,如果KWj和KWk是关键词对,则它们之间有一条边相连,边ejk的权值wjk=1;步骤4:相似度计算与异常检查报告识别;设异常关键词网络数据库DB中存在关键词网络Gt;计算GR与Gt的相似度;
其中,Gt∈DB,Gt=(Vt,Et),Vt为关键词网络Gt中的关键词集合,Et为关键词网络Gt中的边集,
表示GR中边ejk的权值,
表示Gt中边ejk的权值,ejk为GR与Gt中的公共边,即ejk∈ER∩Et;对于属性值关键词为数值的关键词对,只要属性值关键词的大小偏差在5%范围内,均认为关键词对是相同的,在计算相似度过程中认为两个关键词对对应的两条边是公共边;如果相似度S(GR,Gt)大于阈值λ,则认为检查报告R中存在异常检查结果,检查报告R为异常检查报告;否则,检查报告R为正常检查报告。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于依据数据(湖南)科技有限公司,未经依据数据(湖南)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610654485.5/,转载请声明来源钻瓜专利网。
- 上一篇:电子产品、玻璃外壳及其制造设备
- 下一篇:玻璃外壳及具有该玻璃外壳的电子产品