[发明专利]一种基于知识图谱的政务百科构建方法有效
申请号: | 202110340110.2 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113204644B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 郭亚光 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F16/958;G06F40/216;G06F40/295;G06Q50/26 |
代理公司: | 合肥正则元起专利代理事务所(普通合伙) 34160 | 代理人: | 刘生昕 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 政务 百科 构建 方法 | ||
1.一种基于知识图谱的政务百科构建方法,其特征在于,政务百科构建方法包括以下具体步骤;
步骤一:根据各单位公开的权责清单,明确各单位职责及机构职能;
步骤二:对各单位网站互动交流频道及政务服务平台咨询和互动信息资源进行归集和整理;
步骤三:对各单位归集整理的咨询信息进行归纳,形成部门的政务百科目录体系,结合各单位的机构职能,进行补充和转换;
步骤四:实地调研,与各部门确认百科目录是否符合部门的实际情况,根据实际情况进行调整和完善;
步骤五:根据目录体系,建立对应的百科词条,对词条中涉及的政策文件及相关服务,建立对应的关联关系;
步骤六:对百科词条和服务对象进行标签化,通过机器学习调整权重关系,形成词条与词条之间以及词条和服务对象之间的知识图谱;
政务百科通过政务百科系统进行构建,政务百科系统包括服务器、数据采集模块、注册登录模块、映射联系模块、数据分析模块、实体抽取模块以及关键字库;
所述注册登录模块用于使用人员通过登录终端提交用户数据后进行注册登录,并将用户数据发送至服务器内进行存储,使用人员通过登录终端输入政务信息关键字,政务信息关键字发送至服务器中;
所述数据采集模块用于获取注册登录模块输入的政务信息关键字,并将政务信息关键字发送至数据分析模块;所述实体抽取模块是用于对政策文件进行实体抽取,主要对政策文件的知识抽取实现政策文件和百科词条关联;
实体抽取主要包括实体抽取、关系抽取和属性抽取;
实体抽取:称为命名实体识别,政策文件的实体包括主题、对象、来源、区域和时间;
关系抽取:实体和对应实体之间的关系,也是政策中的重要知识,需要采用分词、语义识别技术手段将关系信息提取出来;
属性抽取:实体的属性信息和关系类似,关系反映实体的外部联系,属性体现实体的内部特征;
所述实体抽取模块的抽取过程具体如下:
S1:提取四类关键词,首先要提取的第一个信息就是问题词qword, 即问题的一个明显特征;提取第二个关键的信息,即焦点词qfocus,表示实体的类型;提取第三个的信息,即问题的主题词qtopic;提取第四个的特征,即问题的中心动词qverb;
S2:通过对问题提取问题词qword、问题焦点词qfocus、问题主题词qtopic和问题中心动词qverb这四个问题特征从而形成问题图,将问题词qword、问题焦点qfocus、问题主题词qtopic和问题中心动词qverb加入相对应的节点中;
若该节点是命名实体,则将该节点变为命名实体形式,用于区分对象、地域类型的名字,从而删除掉不重要的节点;
S3:构建特征向量识别实体训练器,在候选实体中找出正确实体,特征向量中的每一维,对应一个实体的候选答案特征;每一个实体的候选答案特征由问题特征中的一个特征和候选答案特征的一个特征组合而成,在提取候选答案的特征时,提取每个实体的关系和属性,即每一个关系和整个问题的关联度,采用概率的形式P(R|Q)表示,即朴素贝叶斯的思想构建算法:
;
通过政策知识库和两个数据集分别对上面的概率进行统计估算;
其中,第一个数据集是政策文件抽象的个三元组数据集,第二个数据集是政策文件实体对齐数据集,数据中不直接包含政策知识库中的关系r,采用近似的办法,若一个数据集中的三元组包含的两个实体和政策知识库中的关系r包含的两个实体一样,则三元组中存在该关系r,计数加一;
所述关键字库用于存储若干个政务信息的预设关键字;所述映射联系模块用于将分析后的政务信息关键字与服务器中的关键字库进行比对;所述数据分析模块接收数据采集模块发送的政务信息关键字,并结合映射联系模块对政务信息关键字进行数据分析;
所述数据分析模块的分析过程具体如下
步骤L1:获取政务信息关键字输入人员的查询等级,若使用人员的查询等级为第四查询等级,不可进行政务信息查询,若使用人员的查询等级为第一查询等级、第二查询等级或第三查询等级,进入下一步骤;
步骤L2:获取政务信息关键字的字数,并将字数标记为xi,i=1,2,……,n;
步骤L3:获取政务信息关键字中对应字位的笔画数Bxi,将政务信息关键字中所有字位的笔画数组合构成当前特征值Y1;
步骤L4:通过映射联系模块获取关键字库中字数相同的预设关键字,按照步骤S3中的方法获取字数相同的预设关键字的预设特征值Y;
步骤L5:利用公式CFv=Y1/Y得到当前特征值与预设特征值比对后的重复率CFv;
步骤L6:若重复率CFv大于等于设定的重复率阈值,通过映射联系模块将政务信息关键字与预设关键字建立联系,并通过预设关键字调取百科词条对应的政策文件和服务,反之,不进行任何操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110340110.2/1.html,转载请声明来源钻瓜专利网。