[发明专利]基于改进的PageRank算法的文本-音频自动文摘方法有效
申请号: | 201710195609.2 | 申请日: | 2017-03-28 |
公开(公告)号: | CN107015966B | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 张家俊;李浩然;周玉;宗成庆 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G10L15/26 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。 | ||
搜索关键词: | 基于 改进 pagerank 算法 文本 音频 自动 文摘 方法 | ||
【主权项】:
1.一种基于改进的PageRank算法的文本‑音频自动文摘方法,其特征在于,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要;其中,改进的PageRank算法的公式如下:
其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;Mij为ci与cj的相似度;N为句子总数;ci表示转录文本中的任意一个句子;cj表示原始文本中的任意一个句子;其中,改进的PageRank算法中Mij的定义如下:定义跨模态句子之间的相似度矩阵为
或
其中,
表示cj传递给ci的得分权重矩阵,
表示ci传递给cj的得分权重矩阵;矩阵中每个参数的取值Mij或Mji为计算出来的ci与cj两个句子的相似度,对于语义相同的句对,![]()
保持不变;对于在原始文本中找不到语义相同的转录文本句子,其相似度矩阵不变。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710195609.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种鼠标线缠绕器
- 下一篇:一种视觉传达用多功能手绘板