[发明专利]基于改进的PageRank算法的文本-音频自动文摘方法有效
申请号: | 201710195609.2 | 申请日: | 2017-03-28 |
公开(公告)号: | CN107015966B | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 张家俊;李浩然;周玉;宗成庆 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G10L15/26 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 pagerank 算法 文本 音频 自动 文摘 方法 | ||
本发明提供了一种基于改进的PageRank算法的文本‑音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。通过改进PageRank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本‑音频自动文摘的可读性。
技术领域
本发明属于自然语言处理和语音处理技术领域,涉及一种基于改进的PageRank算法的文本-音频自动文摘方法。
背景技术
随着网络时代到来,多媒体信息包括文本文档、音频等信息随处可见。有效地分析相关的文本与音频信息,并尽可能多的获取其中的重要信息,以文本摘要的形式呈现给用户,有助于帮助用户仅通过文本摘要便可获取关键信息,实现便捷、高效的信息获取。对于一系列和某一信息事件相关的文本与音频,目前常见做法是首先通过自动语音识别系统将音频转录为文本,然后将其与原始文本文档一起,通过传统的多文档自动摘要方法,生成文本摘要。上述方法相较单独从原始文本获取信息的方式来说,转录了语音信息中的相关信息,且这些信息不会被原始文本文档完全覆盖,有助于提高获取的信息量,然而自动语音识别存在很多错误,其生成的转录文本的通顺性较差、存在较多语法错误,因而可读性较差。因此在尽可能保证获取较多重要信息量的同时,改善现有的文本-音频自动文摘可读性差的情况,是目前需要解决的技术问题。
发明内容
(一)要解决的技术问题
本发明提供了一种基于改进的PageRank算法的文本-音频自动文摘方法,以至少部分解决以上所提出的技术问题。
(二)技术方案
根据本发明的一个方面,提供了一种基于改进的PageRank算法的文本-音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。
优选地,改进的PageRank算法的公式如下:
其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;Mij为ci与cj的相似度;N为句子总数;ci表示转录文本中的任意一个句子;cj表示原始文本中的任意一个句子;其中,改进的PageRank算法中Mij的定义如下:定义跨模态句子之间的相似度矩阵为或其中,表示cj传递给ci的得分权重矩阵,表示ci传递给cj的得分权重矩阵;矩阵中每个参数的取值Mij或Mji为计算出来的ci与cj两个句子的相似度,对于语义相同的句对,保持不变;对于在原始文本中找不到语义相同的转录文本句子,其相似度矩阵不变。
优选地,利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性包括:对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对;定义改进的PageRank算法中两个模态的句子之间相似度矩阵或矩阵中每个值为Mij或Mji,表示ci与cj的相似度;以及利用改进的PageRank算法来计算每个句子的重要性得分,进行迭代递归,直到得分稳定为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710195609.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种鼠标线缠绕器
- 下一篇:一种视觉传达用多功能手绘板