[发明专利]一种句子连贯性判断方法及装置和电子设备有效
申请号: | 201710384666.5 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107341143B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 余咸国 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/30;G06F40/279;G06K9/32 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 句子 连贯性 判断 方法 装置 电子设备 | ||
本发明实施例提供了一种句子连贯性判断方法及装置和电子设备,应用于多媒体技术领域,所述方法包括:获取待分析文本,对待分析文本进行预处理,得到待处理文本。对待处理文本中的每一个字符进行向量表示,得到待处理文本的字符矩阵。将字符矩阵输入预先建立的句子连贯性模型,得到字符矩阵对应的句子连贯性向量,其中,句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的。根据句子连贯性向量,得到待分析文本的句子连贯性结果。本发明实施例通过卷积神经网络对样本文本进行训练,得到句子连贯性模型,通过句子连贯性模型识别不连贯的句子,提高了句子连贯性判断的准确性。
技术领域
本发明涉及多媒体技术领域,特别是涉及一种句子连贯性判断方法及装置和电子设备。
背景技术
在视频分析中,为了更好地分析视频所表达的内容、更深地挖掘视频信息,目前往往通过分析视频中的字幕来理解视频,而字幕文本的获取,最准确有效的方法是OCR(Optical Character Recognition,光学字符识别)识别。但是,在OCR识别中,由于视频背景的多样性,以及字幕定位算法精度的不足,在OCR识别中会有部分识别错误的字幕,如果不对错误的字幕纠错或者剔除,那么会对之后的字幕分析造成非常大的干扰。由于错误的字幕会造成句子的不连贯性,因此,可通过判断句子的连贯性识别不通顺的句子,得到错误的字幕,进而对错误的字幕进行纠错或者剔除。
目前,对句子连贯性的判断都是基于语言模型。为了判断句子的通顺度,通过大量的训练语料构建N-Gram模型,计算句子的条件概率得到句子的通顺度。其中,N-Gram是大词汇连续语音识别中常用的一种语言模型,该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的条件概率就是各个词出现概率的乘积。通过直接从语料中统计N个词同时出现的次数可以得到整句的条件概率,常用的句子条件概率的计算包括:二元的Bi-Gram和三元的Tri-Gram。
虽然上述计算句子的条件概率的方法简单明了,但目前对训练语料中句子的分词准确率无法达到100%,特别是专有名词,分错的概率高达60%以上。并且,对于句子条件概率的计算,目前最多只计算tri-Gram,更高层次的条件概率需要更多的训练语料,同时计算更高层次的条件概率导致训练数据稀疏严重,计算时间复杂度高,句子条件概率的计算精度却提高的较少。由于无法计算更多的条件概率,从而不能考虑上下文之间的关系,进而导致不能根据上下文的逻辑关系判断句子的连贯性。因此,上述计算方法判断句子连贯性的准确性比较低。
发明内容
本发明实施例的目的在于提供一种句子连贯性判断方法及装置和电子设备,以提高句子连贯性判断的准确性。具体技术方案如下:
本发明实施例公开了一种句子连贯性判断方法,包括:
获取待分析文本,对所述待分析文本进行预处理,得到待处理文本;
对所述待处理文本中的每一个字符进行向量表示,得到所述待处理文本的字符矩阵;
将所述字符矩阵输入预先建立的句子连贯性模型,得到所述字符矩阵对应的句子连贯性向量,其中,所述句子连贯性模型是根据样本数据,以及样本数据对应的句子连贯性结果进行训练得到的;
根据所述句子连贯性向量,得到所述待分析文本的句子连贯性结果。
可选的,在所述获取待分析文本之前,所述方法还包括:
获取句子连贯的正样本数据和句子不连贯的负样本数据,其中,所述正样本数据和所述负样本数据分别具有对应的句子连贯性向量;
分别对所述正样本数据和所述负样本数据进行向量表示,得到所述正样本数据的字符矩阵和所述负样本数据的字符矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710384666.5/2.html,转载请声明来源钻瓜专利网。