[发明专利]新闻自动拆条的条件随机场算法预测结果回流训练方法有效
| 申请号: | 202010321198.9 | 申请日: | 2020-04-22 |
| 公开(公告)号: | CN111222499B | 公开(公告)日: | 2020-08-14 |
| 发明(设计)人: | 张诚;王炜;温序铭;杨瀚 | 申请(专利权)人: | 成都索贝数码科技股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 钱成岑 |
| 地址: | 610041 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 新闻 自动 条件 随机 算法 预测 结果 回流 训练 方法 | ||
1.一种新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,包括:
步骤一,新闻节目视频数据化;
步骤二,训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测,得到该新闻节目视频的新闻故事;
步骤三,收集该新闻节目视频的新闻故事的入出点信息;
步骤四,周期性利用收集到的新闻故事的入出点信息,结合启发式规则,自动修正旧场景层特征数据表中的场景层特征数据,并将修正后的场景层特征数据保存到CRF训练数据表中;
步骤五,根据距离上次训练时间以及CRF训练数据表中的数据量大小,重新训练条件随机场模型。
2.根据权利要求1所述的新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,步骤一包括如下子步骤:
步骤101,根据新闻节目视频中的音频停顿点,对该新闻节目视频进行初步切割得到场景层片段;
步骤102,根据每个场景层片段的视频信息,提取该场景层片段是否含演播室画面,以及在根据当前场景层片段和下一个场景层片段的演播室画面,提取演播室画面转化信息;
步骤103,根据每个场景层片段的音频信息,提取每个场景层片段的语音信息,再根据所有场景层片段的语音信息,提取每个场景层片段的主题分布与关键词;针对当前场景层片段和下一场景层片段的主题分布,利用余弦距离,计算相邻两个场景层片段的主题相似度,并根据所有场景层片段的主题相似度值,计算分位数以便将主题相似度值离散化;根据当前场景层片段和下一场景层片段的关键词,利用word2vect,计算关键词相似度,并根据所有场景层片段的关键词相似度值,计算分位数以便将关键词相似度值离散化;
步骤104,根据所有场景层片段的语音信息,提取每个场景层片段的实体,包括人物、时间、地点及组织机构;根据当前条场景层片段和下一场景层片段相应的实体类别,计算两者之间的Jaccard距离;最后根据所有场景层片段的不同实体类别,计算Jaccard距离的分位数,并根据分位数将连续的实体相似度离散化;
步骤105,根据真实新闻故事的结构,人工初始化对经过步骤101~104得到的场景层特征数据打上BS/MS/ES/SS标签。
3.根据权利要求2所述的新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,所述演播室画面转化信息包括两个演播室间转换、两个非演播室间转换、演播室与非演播室间转换3类。
4.根据权利要求2或3所述的新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,步骤二包括如下子步骤:
步骤201,利用步骤一得到的初始化数据,训练条件随机场模型;
步骤202,将需要进行标签预测的新闻节目视频根据步骤101~104数据化,并将数据化后得到的场景层特征数据保存到旧场景层特征数据表中;
步骤203,对旧场景层特征数据表中的场景层特征数据,利用训练好的条件随机场模型进行标签预测;
步骤204,将步骤203预测的标签组合成该需要进行标签预测的新闻节目视频的新闻故事。
5.根据权利要求4所述的新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,步骤三的方法为:若该新闻节目视频的新闻故事完全正确,则无需记录新闻故事的入出点信息;若该新闻节目视频的新闻故事有误,则收集所有有误的新闻故事的入出点信息记录并保存到修正新闻数据表ID_list中,且将该新闻节目视频是否进行回流训练的标记is_check置0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司,未经成都索贝数码科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010321198.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:油管内壁修复产线
- 下一篇:一种基于手掌表面微电信号变化获取心率的采集装置





