[发明专利]基于非结构化文档的知识提取方法及系统有效
申请号: | 201910455327.0 | 申请日: | 2019-05-29 |
公开(公告)号: | CN110275938B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 黄志春;张定国;谢海涛;陈育翔;伍宇文 | 申请(专利权)人: | 广州伟宏智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F40/247 |
代理公司: | 广州蓝晟专利代理事务所(普通合伙) 44452 | 代理人: | 陈梓赫;栾洋洋 |
地址: | 510660 广东省广州市天河区车*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 文档 知识 提取 方法 系统 | ||
本发明公开了基于非结构化文档的知识提取方法及系统,包括如下步骤,建立随机森林模型、导入非结构化文档、BERT处理、样本导入、展示提取的知识、对随机森林模型进行补充和修正,本发明结构科学合理,使用安全方便,通过BERT对非结构化文档进行预处理,通过双向特征,筛出词义准确的字词,保证知识提取的准确性,同时将决策后的知识字词进行展示,通过分为三类,便于使用者更准确了解非结构化文档的关键信息和次要信息,提高随机森林模型对非结构化文档字词的提取,同时数据存储内部存储有和字词相关的知识文档,并将提取的字词与字词相关的知识文档链接,通过点击字词能快速了解字词相关知识,提高对非结构化文档的了解。
技术领域
本发明涉及知识提取技术领域,具体为基于非结构化文档的知识提取方法及系统。
背景技术
非结构化文档是文本结构不规则或不完整,没有预定义的框架,因此在阅读和整理时需要对非结构化文档的知识进行提取,提高使用者观看非结构化文档的便捷;
但是现有的非结构化文档的知识提取时,通过简单的算法对自然语言进行处理,其局限性较大,无法根据上下文分解词义,容易出现字词歧义的现象,进一步造成知识提取时出现偏差,因此人们急需一种基于非结构化文档的知识提取方法及系统来解决上述问题。
发明内容
本发明提供基于非结构化文档的知识提取方法及系统,可以有效解决上述背景技术中提出的等问题。
为实现上述目的,本发明提供如下技术方案:基于非结构化文档的知识提取方法,包括如下步骤:
S1、建立随机森林模型;
S2、导入非结构化文档;
S3、BERT处理;
S4、样本导入;
S5、展示提取的知识;
S6、对随机森林模型进行补充和修正。
根据上述技术方案,所述步骤S1中,建立随机森林模型具体为设定特征数值为Z个,导入训练集,通过Z个特征对字词进行决策,创建决策树选取符合特征的字词。
根据上述技术方案,所述步骤S3中,BERT是基于Transformer 的双向编码器表征,其根基就是Transformer,其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义,将非结构化文档的文字转化为准确且无歧义的词语和字,并将词语或字的总数值记为M。
根据上述技术方案,所述步骤S4中,具体包括如下步骤:
(1)、将BERT处理后的M个字词导入到随机森林模型;
(2)、设定数值N,N为样本字词导入个数,且N小于M;
(3)、设定数值Y,Y为样本的决策特征,且Y小于Z;
(4)、设定数值X,X为决策树数量;
(5)、从M个字词中选取N个样本字词;
(6)、N个样本字词分别随机选定Y个筛选特征进行创建决策树;
(7)、决策树数量是否大于X,否则返回(6);
(8)、样本字词在X个决策树的选取情况,输出提取的知识词语。
根据上述技术方案,所述步骤(8)中在X个决策树中,单个样本字词决策后被选取数值记为K,若K处于0-0.4X之间记为被否决字词,若K处于0.4X-0.7X之间记为次展示字词,若K处于0.7X-X之间记为展示字词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州伟宏智能科技有限公司,未经广州伟宏智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910455327.0/2.html,转载请声明来源钻瓜专利网。