[发明专利]一种基于文法网络获取深度学习训练数据的方法有效

申请号：	201710708706.7	申请日：	2017-08-17
公开（公告）号：	CN107451295B	公开（公告）日：	2020-06-30
发明（设计）人：	张超;周红;刘楚雄	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/33;G06N3/08
代理公司：	四川省成都市天策商标专利事务所 51213	代理人：	秦华云;刘渝
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于文法网络获取深度学习训练数据的方法，通过逆向文法网络与爬虫爬取数据生成大量语言数据，首先利用垂直领域网络爬虫抓取符合该需求的数据并保存，然后根据需求编写文法网络规则语句，通过文法网络规则语句可以获得语言数据和对应的标签数据，通过文法网络语句扩展或与爬取数据相结合的方式可以生成大量的语言数据，生成的语言数据和与其对应的标签数据可分别作为深度学习模型训练输入和输出。本发明通过逆向使用文法网络规则获得大量的、可以直接用于深度学习模型训练的数据，该语言数据不仅更为通顺，数量巨大，同时还可获得该语句的标签语句，非常适用于深度学习的模型训练。
搜索关键词：	一种基于文法网络获取深度学习训练数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于文法网络获取深度学习训练数据的方法，其特征在于：其方法步骤如下：A、依靠网络爬虫定向爬取所需领域的基础数据，采用垂直领域分布式爬虫获取基础数据；B、对步骤A中的基础数据编写文法网络规则语句；C、根据爬取的基础数据与步骤B的文法网络规则语句相结合，并通过逆向文法网络程序生成所输出的语言数据；D、根据获取文法网络规则语句的子规则名称生成输出语句所对应的标签语句；E、通过文法网络规则语句与爬取的基础数据相结合的方式生成大量语言数据，步骤C所生成的语言数据和与其步骤D所对应的标签数据分别作为深度学习模型训练输入数据和输出数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司，未经四川长虹电器股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710708706.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文法网络获取深度学习训练数据的方法有效

专利文献下载