[发明专利]基于改进的PageRank算法的文本-音频自动文摘方法有效

申请号：	201710195609.2	申请日：	2017-03-28
公开（公告）号：	CN107015966B	公开（公告）日：	2019-07-19
发明（设计）人：	张家俊;李浩然;周玉;宗成庆	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F17/27	分类号：	G06F17/27;G10L15/26
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	任岩
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于改进 pagerank 算法文本音频自动文摘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进的PageRank算法的文本-音频自动文摘方法，其特征在于，包括：

将音频转录为文本，计算转录文本和原始文本的相似度；

利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性；以及

根据句子的重要性，生成文本摘要；

其中，改进的PageRank算法的公式如下：

其中，μ为平滑因子；u(c_i)为c_i的重要性得分；u(c_j)为c_j的重要性得分；M_ij为c_i与c_j的相似度；N为句子总数；c_i表示转录文本中的任意一个句子；c_j表示原始文本中的任意一个句子；

其中，改进的PageRank算法中M_ij的定义如下：

定义跨模态句子之间的相似度矩阵为或其中，表示c_j传递给c_i的得分权重矩阵，表示c_i传递给c_j的得分权重矩阵；矩阵中每个参数的取值M_ij或M_ji为计算出来的c_i与c_j两个句子的相似度，对于语义相同的句对，保持不变；对于在原始文本中找不到语义相同的转录文本句子，其相似度矩阵不变。

2.根据权利要求1所述的文本-音频自动文摘方法，其特征在于，所述利用改进的PageRank算法根据相似度计算转录文本和原始文本中的句子的重要性包括：

对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对；

定义改进的PageRank算法中两个模态的句子之间相似度矩阵或矩阵中每个值为M_ij或M_ji，表示c_i与c_j的相似度；以及

利用改进的PageRank算法来计算每个句子的重要性得分，进行迭代递归，直到得分稳定为止。

3.根据权利要求2所述的文本-音频自动文摘方法，其特征在于，所述设定阈值通过在MSR语料上测试获得。

4.根据权利要求1所述的文本-音频自动文摘方法，其特征在于，所述根据句子的重要性，生成文本摘要包括：

定义抽取用于生成摘要的句子的目标函数；

定义长度约束；

通过贪心算法，选取最大化目标函数且满足长度约束的句子集合；以及

按照输入的转录文本和原始文本中句子的出现顺序，将符合条件的句子排序，作为输出摘要。

5.根据权利要求4所述的文本-音频自动文摘方法，其特征在于，所述目标函数的表达式如下：

其中，S为摘要集合，u(c_i)为摘要S中的句子c_i的重要性得分；λ为对冗余性的惩罚因子，通过开发集调节；sim(c_i，c_j)为c_i和c_j间的余弦相似度。

6.根据权利要求4所述的文本-音频自动文摘方法，其特征在于，所述贪心算法实施包括：

对于每一个还未选为摘要的句子l，计算选该句子给目标函数f带来的得分增益，其表达式如下式所示：

其中，c_l为句子l的长度；

选取满足得分增益最高的句子作为选入摘要，如此循环进行，直至摘要长度达到预定的长度限制。

7.根据权利要求4所述的文本-音频自动文摘方法，其特征在于，所述按照输入的转录文本和原始文本中句子的出现顺序，将符合条件的句子排序，包括：

对于那些出现在转录文本和原始文本中的句子，按照原始文本的日期先后排序；

对于那些出现在相同原始文本中的选入摘要中的句子，按照其出现在原始文本中的先后排序。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710195609.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载