[发明专利]新闻自动拆条的条件随机场算法预测结果回流训练方法有效
| 申请号: | 202010321198.9 | 申请日: | 2020-04-22 |
| 公开(公告)号: | CN111222499B | 公开(公告)日: | 2020-08-14 |
| 发明(设计)人: | 张诚;王炜;温序铭;杨瀚 | 申请(专利权)人: | 成都索贝数码科技股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 钱成岑 |
| 地址: | 610041 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 新闻 自动 条件 随机 算法 预测 结果 回流 训练 方法 | ||
本发明公开了一种新闻自动拆条的条件随机场算法预测结果回流训练方法,包括:步骤一,新闻节目视频数据化;步骤二,训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测,得到该新闻节目视频的新闻故事;步骤三,收集该新闻节目视频的新闻故事的入出点信息;步骤四,周期性利用收集到的新闻故事的入出点信息,结合启发式规则,自动修正旧场景层特征数据表中的场景层特征数据,并将修正后的场景层特征数据保存到CRF训练数据表中;步骤五,根据距离上次训练时间以及CRF训练数据表中的数据量大小,重新训练条件随机场模型。本发明的方法可以提升条件随机场算法的准确率,并节约后续人工修正场景层算法预测标签时间。
技术领域
本发明属于广播电视新闻自动拆条领域,尤其是一种新闻自动拆条的条件随机场算法预测结果回流训练方法,以自动修正标注预测结果数据标签进行回流训练,适用于广播电视新闻自动拆条。
背景技术
近年来,随着电视新闻类节目的迅速发展,电视新闻类节目受到的关注也逐渐增多。电视新闻作为一种重要的信息承载方式,有着及时报道、舆论引导等非常重要的作用。电视新闻通常是作为一整档的节目播出,但是随着观众、视频编辑人员对于快速检索到视频报道某些内容的需求逐渐增多,广播电视新闻自动拆条的功能也相应出现。
条件随机场(Condition Random Field, CRF)算法目前已经广泛的应用在广播电视新闻自动拆条领域。条件随机场算法是一种有监督学习算法,用于标注序列数据。电视新闻的自动拆条,其实就是对电视新闻的众多拆条进行顺序标注,然后根据标注的结果组合成新闻故事。该算法首先需要电视新闻拆分成许多小片段,然后将这些小片段作为训练数据。首先根据真实新闻故事的分段人工标记为SS(Single Scene)、BS(Begin Scene)、MS(Middle Scene)、ES(End Scene),再提取这些小片段的特征数据(如:是否出现有主持人的演播室,临近片段间的实体相似度等)。根据人工标注的标签以及自动提取出的特征数据,组成训练数据供条件随机场算法学习。最后,利用学习的模型进行标签预测,从而将广播电视新闻自动拆条。
然而,在实际工程应用中,条件随机场算法的应用受到了一定的挑战。主要是因为条件随机场算法是一种有监督学习算法,其训练数据的标签需要进行人工标注。若将大量训练数据完全进行人工标注(人为标注SS、BS、MS、ES标签),将会耗费大量时间,而且也可能出现新闻理解不正确而错误标注的现象。但是,如果不使用大量训练数据进行训练,又会因为训练集不够而出现欠拟合现象。
因此,发明一种条件随机场算法预测结果自动回流方案,根据入出点信息,自动修正预测结果数据标签并整合回流后加入训练集进行再训练,不断增加数据集的数量,从而进一步强化条件随机场算法的训练,对于提升条件随机场算法的准确率,节约后续修正时人工标注标签时间,具有十分重要的意义。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种新闻自动拆条的条件随机场算法预测结果回流训练方法,该方法利用从用户处回流的入出点信息,自动修正预测结果数据标签并整合回流后加入训练集,强化条件随机场算法的训练。
本发明采用的技术方案为:一种新闻自动拆条的条件随机场算法预测结果回流训练方法,包括:
步骤一,新闻节目视频数据化;
步骤二,训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测,得到该新闻节目视频的新闻故事;
步骤三,收集该新闻节目视频的新闻故事的入出点信息;
步骤四,周期性利用收集到的新闻故事的入出点信息,结合启发式规则,自动修正旧场景层特征数据表中的场景层特征数据,并将修正后的场景层特征数据保存到CRF训练数据表中;
步骤五,根据距离上次训练时间以及CRF训练数据表中的数据量大小,重新训练条件随机场模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司,未经成都索贝数码科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010321198.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:油管内壁修复产线
- 下一篇:一种基于手掌表面微电信号变化获取心率的采集装置





