[发明专利]基于改进的PageRank算法的文本-音频自动文摘方法有效
申请号: | 201710195609.2 | 申请日: | 2017-03-28 |
公开(公告)号: | CN107015966B | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 张家俊;李浩然;周玉;宗成庆 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G10L15/26 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 pagerank 算法 文本 音频 自动 文摘 方法 | ||
1.一种基于改进的PageRank算法的文本-音频自动文摘方法,其特征在于,包括:
将音频转录为文本,计算转录文本和原始文本的相似度;
利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及
根据句子的重要性,生成文本摘要;
其中,改进的PageRank算法的公式如下:
其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;Mij为ci与cj的相似度;N为句子总数;ci表示转录文本中的任意一个句子;cj表示原始文本中的任意一个句子;
其中,改进的PageRank算法中Mij的定义如下:
定义跨模态句子之间的相似度矩阵为或其中,表示cj传递给ci的得分权重矩阵,表示ci传递给cj的得分权重矩阵;矩阵中每个参数的取值Mij或Mji为计算出来的ci与cj两个句子的相似度,对于语义相同的句对,保持不变;对于在原始文本中找不到语义相同的转录文本句子,其相似度矩阵不变。
2.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,所述利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性包括:
对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对;
定义改进的PageRank算法中两个模态的句子之间相似度矩阵或矩阵中每个值为Mij或Mji,表示ci与cj的相似度;以及
利用改进的PageRank算法来计算每个句子的重要性得分,进行迭代递归,直到得分稳定为止。
3.根据权利要求2所述的文本-音频自动文摘方法,其特征在于,所述设定阈值通过在MSR语料上测试获得。
4.根据权利要求1所述的文本-音频自动文摘方法,其特征在于,所述根据句子的重要性,生成文本摘要包括:
定义抽取用于生成摘要的句子的目标函数;
定义长度约束;
通过贪心算法,选取最大化目标函数且满足长度约束的句子集合;以及
按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,作为输出摘要。
5.根据权利要求4所述的文本-音频自动文摘方法,其特征在于,所述目标函数的表达式如下:
其中,S为摘要集合,u(ci)为摘要S中的句子ci的重要性得分;λ为对冗余性的惩罚因子,通过开发集调节;sim(ci,cj)为ci和cj间的余弦相似度。
6.根据权利要求4所述的文本-音频自动文摘方法,其特征在于,所述贪心算法实施包括:
对于每一个还未选为摘要的句子l,计算选该句子给目标函数f带来的得分增益,其表达式如下式所示:
其中,cl为句子l的长度;
选取满足得分增益最高的句子作为选入摘要,如此循环进行,直至摘要长度达到预定的长度限制。
7.根据权利要求4所述的文本-音频自动文摘方法,其特征在于,所述按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,包括:
对于那些出现在转录文本和原始文本中的句子,按照原始文本的日期先后排序;
对于那些出现在相同原始文本中的选入摘要中的句子,按照其出现在原始文本中的先后排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710195609.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种鼠标线缠绕器
- 下一篇:一种视觉传达用多功能手绘板