[发明专利]基于分布式平台的行业文本实体提取方法有效

专利信息
申请号: 201710902720.0 申请日: 2017-09-29
公开(公告)号: CN107908642B 公开(公告)日: 2021-11-12
发明(设计)人: 武克杰;周书勇 申请(专利权)人: 江苏华通晟云科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289
代理公司: 苏州创元专利商标事务所有限公司 32103 代理人: 范晴;丁浩秋
地址: 215000 江苏省苏州市工*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 分布式 平台 行业 文本 实体 提取 方法
【权利要求书】:

1.一种基于分布式平台的行业文本实体提取方法,其特征在于,包括以下步骤:

S01:采用深度学习神经网络训练文本数据集得到关系特征模型,并通过关系特征模型提取目标文本中的关系特征;

S02:将提取的关系特征生成多个弹性分布式关系特征数据集RDD;

S03:将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;所述步骤S03具体包括:

S31:调整非线性SVM分类算法中的权重和偏移量,使输入的关系特征和已标注的样本的特征的误差在设定范围内,保存文本的类别特征模型;

S32:选取的分类模型方法是改进的非线性SVM分类算法,其训练模型分类目标函数为,其中=sin(),分类约束条件为,得到判别函数,其中权值,C为惩罚因子,是一个经验参数,i是RDD数目,w为向量权重,是关系特征中正样本和负样本的欧式距离,b为分类时阈值,为误差,为非线性核函数;

S33:逐渐调整惩罚因子C,测试选择最优的惩罚因子C,其中非线性核函数为,其中是任意两个文本关系特征样本提取到的特征向量;每类关系特征样本的标签是对应的类别号,通过多次离线训练得到判别函数的和,其中判别函数就是对应的类别特征模型;

S04:根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;

S05:判断相应语境文的本数量是否超过设定阈值T,若超过阈值T时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。

2.根据权利要求1所述的基于分布式平台的行业文本实体提取方法,其特征在于,所述步骤S01具体包括:

S11:通过ansj开源分词方法将文本进行分词,统计每个词在所有文本中的词频和在当前文本中的词频,去除一般性助词、停用词以及频率高的词语,将所有文本根据当前文本中的词频和所有文本中的词频的关系,提取出N个词,将每一类放在同一个文件夹中;

S12:将N个词中的每个词随机设置为A维的数据特征,每个文本组成N*A维数据;

S13:将每个词特征作为深度学习神经网络输入节点神经元,然后通过第一隐藏层进行卷积,通过第二隐藏层进行子抽样和局部平均,通过第三个隐藏层进行第二次卷积,通过第四个隐藏层进行第二次子抽样和局部平均计算、全连接层,将文本转换成B维数据,通过多次测试调整准确度,得到关系特征模型。

3.根据权利要求1所述的基于分布式平台的行业文本实体提取方法,其特征在于,所述步骤S03中,将提取不好和有明显错误的样本文本放到新的类中,逐步调节测试样本,使得测试样本类达到最优。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏华通晟云科技有限公司,未经江苏华通晟云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710902720.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top