[发明专利]基于分布式平台的行业文本实体提取方法有效
申请号: | 201710902720.0 | 申请日: | 2017-09-29 |
公开(公告)号: | CN107908642B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 武克杰;周书勇 | 申请(专利权)人: | 江苏华通晟云科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 范晴;丁浩秋 |
地址: | 215000 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 平台 行业 文本 实体 提取 方法 | ||
本发明公开了一种基于分布式平台的行业文本实体提取方法,包括:采用深度学习神经网络训练文本数据集得到关系特征模型;将提取的关系特征生成多个弹性分布式关系特征数据集RDD;将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;判断相应语境文的本数量是否超过设定阈值,若超过阈值时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。可以处理不同语境下的文本特征实体,有效提高了实体提取的效率以及提取实体准确率。
技术领域
本发明涉及一种文本实体的提取方法,具体地涉及一种基于分布式平台的行业文本实体提取方法。
背景技术
传统的文本提取方法采用模式匹配关系抽取方法、基于词典驱动的关系抽取、基于机器学习的关系抽取法等,这些方法先大部分是通过分词的方法提取文本中词频比较高的词语作为有效实体。这些方法适合于文本中实体比较单一的场景,但是不同语境下,这些方法不能有效的区分不同语境下实体,会将原来不需要分割或者合并实体错误的分割和合并。
同时,传统检测方法对以前文本中没有出现的过的词语,很难通过分词方法进行提取。
近期出现了许多基于深度学习的提取实体方法,其中提取实体算法分为计算性能比较好但提取精确不是较高、提取精度比较高但计算性能比较慢的两种模型。如快速线性实体提取模型、卷积神经网络就是快速模型,非线性实体提取模型、深度神经网络模型就是准确度比较好的模型。
中国专利文献CN2017100036859公开了一种基于深度学习的在线中医文本命名实体识别方法,该实体提取方法通过爬虫丰富文本训练样本集,同时采用神经网络的方法提取文本特征,这在一定程度上可以提取样本的实体的准确性,但是随着训练样本的增大对应的提取实体模型也增大,同时训练的时间会逐渐增大,同时提取特征时间也随着增大。
发明内容
针对上述技术问题,本发明目的是:提供一种基于分布式平台的行业文本实体提取方法,利用Spark平台中多个弹性分布式实体提取模型,处理不同语境下的文本特征实体,这样既能有效的提高实体提取的效率,也能提高提取实体准确率。同时通过对支持向量机分类算法中权值进行改进,增强了文本的泛化能力,进一步了文本的准确度。
本发明的技术方案是:
一种基于分布式平台的行业文本实体提取方法,包括以下步骤:
S01:采用深度学习神经网络训练文本数据集得到关系特征模型,并通过关系特征模型提取目标文本中的关系特征;
S02:将提取的关系特征生成多个弹性分布式关系特征数据集RDD;
S03:将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;
S04:根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;
S05:判断相应语境文的本数量是否超过设定阈值T,若超过阈值T时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。
优选的,所述步骤S01具体包括:
S11:通过ansj开源分词方法将文本进行分词,统计每个词在所有文本中的词频和在当前文本中的词频,去除一般性助词、停用词以及频率高的词语,将所有文本根据当前文本中的词频和所有文本中的词频的关系,提取出N个词,将每一类放在同一个文件夹中;
S12:将N个词中的每个词随机设置为A维的数据特征,每个文本组成N*A维数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华通晟云科技有限公司,未经江苏华通晟云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710902720.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于LCD液晶显示屏的FPC板
- 下一篇:一种柔性印刷电路板