[发明专利]基于深度学习的广播电视新闻事件要素抽取方法有效
申请号: | 202110464100.X | 申请日: | 2021-04-28 |
公开(公告)号: | CN112989031B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 杨瀚;朱婷婷;温序铭 | 申请(专利权)人: | 成都索贝视频云计算有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/31;G06F16/35;G06F40/247;G06F40/30;G06N3/08;G06N3/04 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 610041 四川省成都市中国(四川)自由*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 广播电视 新闻 事件 要素 抽取 方法 | ||
本发明公开了基于深度学习的广播电视新闻事件要素抽取方法,包括步骤:S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果等;本发明能够对广播电视新闻内容进行高效的要素提取,为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持等。
技术领域
本发明涉及广播电视新闻文本结构化领域,更为具体的,涉及基于深度学习的广播电视新闻事件要素抽取方法。
背景技术
近年来,随着我国广播电视行业的迅猛发展,媒体内容数据、用户服务数据等正在海量增长。
广播电视新闻是一种非结构化的媒体内容数据,由标题、导语、主体、背景、结语组成,其中标题、导语、主体往往不可或缺,此外某些场景下还存在同期声。因此,新闻通常都相对冗长。新闻要素如时间(when)、地点(where )、人物(who )、事件(what)、原因(why)等作为一则新闻报道所必须具备的基本要素,可以作为新闻内容所蕴含的事件信息的结构化表征,进而高度概括新闻实质内容。然而,单纯依靠人工识别新闻要素并整理成结构化信息费时又费力,因此新闻要素的自动抽取具有重要意义。此外,通过新闻要素的自动抽取实现无结构化新闻的结构化转换也可为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供支持。
发明内容
本发明的目的在于克服现有技术的不足,提供基于深度学习的广播电视新闻事件要素抽取方法,能够对广播电视新闻内容进行高效的要素提取,为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持等。
本发明的目的是通过以下方案实现的:
基于深度学习的广播电视新闻事件要素抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;
S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用步骤S1中构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;
S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果。
进一步地,在步骤S1中,构建要素数据集是在摘要数据集的基础上进行,包括如下步骤:
S11,建立N类目标类型新闻事件核心要素词库,利用同义词对核心要素词进行扩充,然后对扩充后的新闻事件核心要素词库进行修订,召回新闻事件数据,同时定位新闻事件摘要中的核心句;然后对核心要素词进行归类,以作为核心要素的归一化表达;其中,N为正整数;
S12,根据新闻事件核心要素词筛选出所标注的摘要中的核心句;采样设定的核心句,总结核心句中的所有其他要素特点及其在新闻中所承担的角色类别信息,为后续搭建要素标注系统提供相关的配置信息和约束信息;利用基于Brat搭建的要素标注工具对所有核心句进行标注获得要素标注信息;
S13,利用文本增强手段扩充数据集,保持样本均衡;具体包括:首先利用特定占位符替换核心要素与其他要素;然后按扩充比例对文本中其他字符进行随机处理;再对其他要素进行同类替换:汇总同类新闻事件同类角色用词,对每条文本中的事件其他要素进行随机替换,替换候选为在同类新闻事件中扮演同类角色的词;最后还原被占位的核心要素和未被替换的其他要素词。经过这些处理,可以尽量减小文本增强过程中带来的语义漂移问题,从而保证文本增强的数据质量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝视频云计算有限公司,未经成都索贝视频云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110464100.X/2.html,转载请声明来源钻瓜专利网。