[发明专利]基于深度学习的广播电视新闻事件要素抽取方法有效
申请号: | 202110464100.X | 申请日: | 2021-04-28 |
公开(公告)号: | CN112989031B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 杨瀚;朱婷婷;温序铭 | 申请(专利权)人: | 成都索贝视频云计算有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/31;G06F16/35;G06F40/247;G06F40/30;G06N3/08;G06N3/04 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 610041 四川省成都市中国(四川)自由*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 广播电视 新闻 事件 要素 抽取 方法 | ||
1.基于深度学习的广播电视新闻事件要素抽取方法,其特征在于,包括步骤:
S1,标注待分析的广播电视新闻数据的摘要和要素信息,构建摘要数据集和要素数据集;
S2,利用预训练模型构建摘要抽取模型和要素抽取模型,并利用步骤S1中构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型;
步骤S2中要素抽取模型串联顺序包括:文本向量化层、核心要素提取层,其他要素提取层以及核心要素归一化表达层;文本向量化层采用经过摘要抽取训练fine-tune后的Bert层;
核心要素提取层的构建过程包括如下步骤:
B1,定义语义矩阵,将语义矩阵和激活函数sigmoid分别用于每个字向量,计算每个字是核心要素开始字符的概率大小值,其中字向量为字经过文本向量化层后的结果:
B2,定义语义矩阵,将语义矩阵和激活函数sigmoid分别用于每个字向量,获得每个字是核心要素结束字符的概率大小值:
B3,对步骤B1、B2获得的核心要素提取结果进行过滤,以去除为核心要素开始或结束字符的概率大小值中较小的识别结果,从而获得位置集合、;这里,,;其中,和为阈值;
B4,根据步骤B3获得核心词集合,这里为集合中最靠近的元素;
其他要素层的构建过程包括如下步骤:
C1,取出核心词集合里的每一个核心词,首先获得其语义向量,然后将其与每个字的字向量相加获得特征语义向量,以此融入不同核心要素的语义,使后续模型层能在此基础上更好地进行与核心要素词相关的其他要素识别;其中,为第j个字向量,为第k个字向量;
C2,针对每类其他要素,是其他要素集合,定义语义矩阵,将语义矩阵和激活函数sigmoid分别用于每个字的特征语义向量,获得每个字是o类其他要素开始字符的概率大小值:
C3,针对每类其他要素,是其他要素集合,定义语义矩阵,将语义矩阵和激活函数sigmoid分别用于每个字的特征语义向量,获得每个字是o类要素结束字符的概率大小值:
C4,对步骤C2、C3获得的其他要素提取结果进行过滤,以去除为其他要素开始或结束字符的概率大小值中较小的识别结果,从而获得位置集合、,其中;这里,,;其中,和为阈值,k为数字,表示第k个位置;
C5,根据步骤C4获得其他要素集合,这里为集合中最靠近的元素,;
核心要素归一化层的构建过程包括如下步骤:
D1,取出结果中的每一个核心要素词,首先获得其语义向量,同样针对每类其他要素结果中每个其他要素词,并获得相应语义向量;然后将所有这些语义向量拼接作为Self-Attention层的输入,利用Self-Attention层获得更对核心要素的更高层语义表征,以更好地进行核心要素的归一化判别:
这里函数表示基于Self-Attenion的语义表征提取层,表示核心要素词的更高层语义表征,
D2,定义语义矩阵和激活函数softmax,将语义矩阵和激活函数softmax分别用于每个核心要素的语义表征向量,获得每个核心要素的类别,并将该类别作为归一化术语表达:
;
S3,利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型,利用所述模型对输入的广播电视新闻进行预测,获得结构化的要素抽取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝视频云计算有限公司,未经成都索贝视频云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110464100.X/1.html,转载请声明来源钻瓜专利网。