[发明专利]基于分布式平台的行业文本实体提取方法有效
申请号: | 201710902720.0 | 申请日: | 2017-09-29 |
公开(公告)号: | CN107908642B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 武克杰;周书勇 | 申请(专利权)人: | 江苏华通晟云科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 范晴;丁浩秋 |
地址: | 215000 江苏省苏州市工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 平台 行业 文本 实体 提取 方法 | ||
1.一种基于分布式平台的行业文本实体提取方法,其特征在于,包括以下步骤:
S01:采用深度学习神经网络训练文本数据集得到关系特征模型,并通过关系特征模型提取目标文本中的关系特征;
S02:将提取的关系特征生成多个弹性分布式关系特征数据集RDD;
S03:将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;所述步骤S03具体包括:
S31:调整非线性SVM分类算法中的权重和偏移量,使输入的关系特征和已标注的样本的特征的误差在设定范围内,保存文本的类别特征模型;
S32:选取的分类模型方法是改进的非线性SVM分类算法,其训练模型分类目标函数为,其中=sin(),分类约束条件为,得到判别函数,其中权值,C为惩罚因子,是一个经验参数,i是RDD数目,w为向量权重,是关系特征中正样本和负样本的欧式距离,b为分类时阈值,为误差,为非线性核函数;
S33:逐渐调整惩罚因子C,测试选择最优的惩罚因子C,其中非线性核函数为,其中是任意两个文本关系特征样本提取到的特征向量;每类关系特征样本的标签是对应的类别号,通过多次离线训练得到判别函数的和,其中判别函数就是对应的类别特征模型;
S04:根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;
S05:判断相应语境文的本数量是否超过设定阈值T,若超过阈值T时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。
2.根据权利要求1所述的基于分布式平台的行业文本实体提取方法,其特征在于,所述步骤S01具体包括:
S11:通过ansj开源分词方法将文本进行分词,统计每个词在所有文本中的词频和在当前文本中的词频,去除一般性助词、停用词以及频率高的词语,将所有文本根据当前文本中的词频和所有文本中的词频的关系,提取出N个词,将每一类放在同一个文件夹中;
S12:将N个词中的每个词随机设置为A维的数据特征,每个文本组成N*A维数据;
S13:将每个词特征作为深度学习神经网络输入节点神经元,然后通过第一隐藏层进行卷积,通过第二隐藏层进行子抽样和局部平均,通过第三个隐藏层进行第二次卷积,通过第四个隐藏层进行第二次子抽样和局部平均计算、全连接层,将文本转换成B维数据,通过多次测试调整准确度,得到关系特征模型。
3.根据权利要求1所述的基于分布式平台的行业文本实体提取方法,其特征在于,所述步骤S03中,将提取不好和有明显错误的样本文本放到新的类中,逐步调节测试样本,使得测试样本类达到最优。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华通晟云科技有限公司,未经江苏华通晟云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710902720.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于LCD液晶显示屏的FPC板
- 下一篇:一种柔性印刷电路板