[发明专利]一种新闻内容识别方法、模型训练方法和装置在审

申请号：	201911414722.0	申请日：	2019-12-31
公开（公告）号：	CN113127598A	公开（公告）日：	2021-07-16
发明（设计）人：	徐佳宏;朱吕亮	申请（专利权）人：	深圳市茁壮网络股份有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/951;G06F40/258;G06K9/00;G06N3/04;G06N3/08
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	王兆林
地址：	518004 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种新闻内容识别方法模型训练装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种新闻内容识别模型训练方法，其特征在于，包括：

利用网络爬虫技术，从网络上抓取距今预设时间段内的新闻文字内容；

以当前抓取的新闻文字内容作为最新的新闻语料，结合预先存储的背景图片和字库，合成训练集；

利用所述训练集训练新闻内容识别模型。

2.根据权利要求1所述的新闻内容识别模型训练方法，其特征在于，当新闻内容以音频或视频的形式出现时，所述从网络上抓取距今预设时间段内的新闻文字内容，包括：从网络上抓取距今预设时间段内的新闻标题。

3.根据权利要求1所述的新闻内容识别模型训练方法，其特征在于，在合成训练集时，还对要合成的训练集设置如下参数中的一种或任意几种：文字大小、文字颜色、文字透明度、文字在图片中的位置、文字之间的间隔、文字的边距等。

4.根据权利要求1所述的新闻内容识别模型训练方法，其特征在于，所述以当前抓取的新闻文字内容作为最新的新闻语料，包括：不对当前抓取的新闻文字内容进行去重处理，直接将其作为最新的新闻语料。

5.根据权利要求1所述的新闻内容识别模型训练方法，其特征在于，所述新闻内容识别模型的架构为卷积神经网络CNN与循环神经网络RNN相结合的数学模型。

6.一种新闻内容识别方法，其特征在于，包括：

将新闻视频抽帧成一张张图片；

分别对抽帧成的每张图片进行区域检测，得到文本行图片；

利用新闻内容识别模型分别对每张文本行图片进行文字识别，得到文本行，作为识别结果；

其中，所述新闻内容识别模型是利用权利要求1-5中任一项所述的新闻内容识别模型训练方法进行训练得到。

7.一种新闻内容识别模型训练装置，其特征在于，包括：

抓取单元，用于利用网络爬虫技术，从网络上抓取距今预设时间段内的新闻文字内容；

合成单元，用于以当前抓取的新闻文字内容作为最新的新闻语料，结合预先存储的背景图片和字库，合成训练集；

训练单元，用于利用所述训练集训练新闻内容识别模型。

8.根据权利要求7所述的新闻内容识别模型训练装置，其特征在于，当新闻内容以音频或视频的形式出现时，所述抓取单元具体用于利用网络爬虫技术，从网络上抓取距今预设时间段内的新闻标题。

9.根据权利要求7所述的新闻内容识别模型训练装置，其特征在于，所述合成单元不对所述抓取单元当前抓取的新闻文字内容进行去重处理，直接将其作为最新的新闻语料。

10.一种新闻内容识别装置，其特征在于，包括：

抽帧单元，用于将新闻视频抽帧成一张张图片；

区域检测单元，用于分别对抽帧成的每张图片进行区域检测，得到文本行图片；

文字识别单元，用于利用新闻内容识别模型分别对每张文本行图片进行文字识别，得到文本行，作为识别结果；其中，所述新闻内容识别模型是利用权利要求7-9中任一项所述的新闻内容识别模型训练装置进行训练得到。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市茁壮网络股份有限公司，未经深圳市茁壮网络股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911414722.0/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载