[发明专利]一种基于机器学习的领域性审计知识图谱构建方法在审
申请号: | 201910585450.4 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110334212A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 李保珍;王倩玉;王雪荣;李迁;徐海勇;陶涛;杨猛;徐萌 | 申请(专利权)人: | 南京审计大学;中移信息技术有限公司;南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京彭丽芳知识产权代理有限公司 11407 | 代理人: | 彭丽芳 |
地址: | 211815 江苏省南京市浦口区江浦街*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言理解模块 审计 关系处理 基于机器 实体识别 图谱构建 专家知识 领域性 特征词 图谱 预处理 关联比对 获取数据 机器学习 模块实现 提取特征 主题模型 多维 构建 权重 检索 关联 场景 学习 分类 | ||
本发明公开了一种基于机器学习的领域性审计知识图谱构建方法,首先通过多种来源获取数据;然后对获取的数据进行预处理;采用实体识别与关系处理模块和专家知识工程模块实现对实体的识别;然后根据实体识别与关系处理模块和专家知识工程模块两个步骤获得的实体,进入自然语言理解模块,利用主题模型,提取特征词;根据自然语言理解模块提取出的特征词,进入特征机器学习模块,根据具体场景调整权重,将特征词进行分类;最后,生成知识图谱。本发明构建的知识图谱可以揭示审计相关主体之间的多维关联;从而提高审计法规及案例的检索及关联比对效率。
技术领域
本发明涉及审计图谱构建领域,具体涉及一种基于机器学习的领域性审计知识图谱构建方法。
背景技术
近年来,知识图谱的应用变成了大数据时代的一个标志。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(HeterogeneousInformation)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。而伴随着知识图谱的兴起是人工智能领域的机器学习技术以及相关概念。其核心要点在于通过搜集一系列大数量级的结构化数据或非结构化数据,继而基于领域专业性对数据进行分析建模,并通过机器计算从中找出规律——通常是该领域的规律,最后机器可以识别该规律并进行学习,形成之后生成相关数据的计算规则。
目前对于知识图谱的建构方法有很多,通常涉及的技术是以爬虫爬取、日志搜索(querylog)或基于Bootstrapping的多类别协同模式学习等方式,这类方法现在主要的应用途径是优化现有的搜索引擎。全世界的所有数据中,高达80%是非结构化数据,而大多数现有技术和云技术无法识别和分析这些数据。在审计领域,由于其高度的专业性、知识性和强逻辑性,大多利用审计人员的经验来建构数学审计规则来处理审计数据,但是这类数据通常是结构化数据,解析的也都是通用文本,无法适用于审计文本训练,灵活性较差。不仅如此,单不论审计知识图谱的建构还不成熟,即使基于现有的关联图技术和算法,对审计领域的适用度不足,主要是因为审计专业性较强,传统方法无法实现审计概念、规则的认知,只能揭示常规的实体关联关系,在审计逻辑层面的技术处理上有较大缺陷,并且业内对于利用机器学习的技术建构起审计知识图谱也仍旧处于空白。
发明内容
为解决上述问题,本发明提供了一种基于机器学习的领域性审计知识图谱构建方法,。
为实现上述目的,本发明采取的技术方案为:
一种基于机器学习的领域性审计知识图谱构建方法,首先通过多种来源获取数据;然后对获取的数据进行预处理;采用实体识别与关系处理模块和专家知识工程模块实现对实体的识别:其中,实体识别与关系处理模块采用自下而上法构建审计知识图谱,专家知识工程模块采用自上而下法构建审计知识图谱,两者相辅相成;然后根据实体识别与关系处理模块和专家知识工程模块两个步骤获得的实体,进入自然语言理解模块,利用主题模型,提取特征词;根据自然语言理解模块提取出的特征词,进入特征机器学习模块,根据具体场景调整权重,将特征词进行分类;最后,生成知识图谱;具体包括如下步骤:
S1、通过多种来源获取数据;
获取被审计单位的相关数据,相关数据包括:被审计单位的概况(行业类型、上级主管部门、组织结构)、被审计单位的内部控制制度、被审计单位的历年财务数据、被审计单位的历年审计报告、被审计单位所需遵循的法律法规、审计案例、审计术语,并建立四个初始数据库:被审计单位原始数据库、审计术语库、审计案例库、法律法规库;
S2、对获取的数据进行预处理;
对于结构化数据,直接提取字段信息;
对于半结构化数据和非结构化数据的处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京审计大学;中移信息技术有限公司;南京大学,未经南京审计大学;中移信息技术有限公司;南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910585450.4/2.html,转载请声明来源钻瓜专利网。