[发明专利]基于改进的PageRank算法的文本-音频自动文摘方法有效

专利信息
申请号: 201710195609.2 申请日: 2017-03-28
公开(公告)号: CN107015966B 公开(公告)日: 2019-07-19
发明(设计)人: 张家俊;李浩然;周玉;宗成庆 申请(专利权)人: 中国科学院自动化研究所
主分类号: G06F17/27 分类号: G06F17/27;G10L15/26
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 任岩
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 改进 pagerank 算法 文本 音频 自动 文摘 方法
【权利要求书】:

1.一种基于改进的PageRank算法的文本-音频自动文摘方法,其特征在于,包括:

将音频转录为文本,计算转录文本和原始文本的相似度;

利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及

根据句子的重要性,生成文本摘要;

其中,改进的PageRank算法的公式如下:

其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;Mij为ci与cj的相似度;N为句子总数;ci表示转录文本中的任意一个句子;cj表示原始文本中的任意一个句子;

其中,改进的PageRank算法中Mij的定义如下:

定义跨模态句子之间的相似度矩阵为或其中,表示cj传递给ci的得分权重矩阵,表示ci传递给cj的得分权重矩阵;矩阵中每个参数的取值Mij或Mji为计算出来的ci与cj两个句子的相似度,对于语义相同的句对,保持不变;对于在原始文本中找不到语义相同的转录文本句子,其相似度矩阵不变。

2.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,所述利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性包括:

对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对;

定义改进的PageRank算法中两个模态的句子之间相似度矩阵或矩阵中每个值为Mij或Mji,表示ci与cj的相似度;以及

利用改进的PageRank算法来计算每个句子的重要性得分,进行迭代递归,直到得分稳定为止。

3.根据权利要求2所述的文本-音频自动文摘方法,其特征在于,所述设定阈值通过在MSR语料上测试获得。

4.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,所述根据句子的重要性,生成文本摘要包括:

定义抽取用于生成摘要的句子的目标函数;

定义长度约束;

通过贪心算法,选取最大化目标函数且满足长度约束的句子集合;以及

按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,作为输出摘要。

5.根据权利要求4所述的文本-音频自动文摘方法,其特征在于,所述目标函数的表达式如下:

其中,S为摘要集合,u(ci)为摘要S中的句子ci的重要性得分;λ为对冗余性的惩罚因子,通过开发集调节;sim(ci,cj)为ci和cj间的余弦相似度。

6.根据权利要求4所述的文本-音频自动文摘方法,其特征在于,所述贪心算法实施包括:

对于每一个还未选为摘要的句子l,计算选该句子给目标函数f带来的得分增益,其表达式如下式所示:

其中,cl为句子l的长度;

选取满足得分增益最高的句子作为选入摘要,如此循环进行,直至摘要长度达到预定的长度限制。

7.根据权利要求4所述的文本-音频自动文摘方法,其特征在于,所述按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,包括:

对于那些出现在转录文本和原始文本中的句子,按照原始文本的日期先后排序;

对于那些出现在相同原始文本中的选入摘要中的句子,按照其出现在原始文本中的先后排序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710195609.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top