[发明专利]一种多文本差异识别方法、装置以及电子设备在审
| 申请号: | 202111258033.2 | 申请日: | 2021-10-27 |
| 公开(公告)号: | CN113962211A | 公开(公告)日: | 2022-01-21 |
| 发明(设计)人: | 王伟杰;王伟;吴越 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194 |
| 代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孙翠贤;马敬 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 差异 识别 方法 装置 以及 电子设备 | ||
1.一种多文本差异识别方法,包括:
确定针对音频的标准文本,以及待识别差异的多个目标文本;其中,每一目标文本为所述音频的字幕文本;
针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素;
从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息;其中,所述第一元素为属于更改类型的元素;
基于所述第一元素的上下文信息,从所述标准文本和其他文本中,分别确定与所述第一元素位置匹配的目标元素;其中,所述其他文本为多个目标文本中除该目标文本以外的一文本;
若所确定的目标元素相同,则在所述其他文本中,对所确定的目标元素进行第一预定标注。
2.根据权利要求1所述的方法,所述方法还包括:
在该目标文本中,对所述差异元素所包括的各元素进行第二预定标注;
其中,所述第二预定标注不同于所述第一预定标注。
3.根据权利要求1或2所述的方法,其中,所述基于所述第一元素的上下文信息,从所述标准文本和其他文本中,分别确定与所述第一元素位置匹配的目标元素,包括:
从所述标准文本中,检测与所述第一元素的上文信息匹配的元素的第一位置,以及与所述第一元素的下文信息相匹配的元素的第二位置;并确定所述第一位置和第二位置之间的位置上的元素,作为所述标准文本中,与所述第一元素位置匹配的目标元素;
从所述其他文本中,检测与所述第一元素的上文信息匹配的元素的第三位置,以及与所述第一元素的下文信息相匹配的元素的第四位置;确定所述第三位置和所述第四位置之间的位置上的元素,作为所述其他文本中,与所述第一元素位置匹配的目标元素。
4.根据权利要求1或2所述的方法,其中,所述从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息之前,还包括:
对所述差异元素所包括的各元素进行合并处理;其中,所述合并处理包括将位置连续的元素进行合并。
5.根据权利要求1或2所述的方法,其中,所述针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素之前,所述方法还包括:
检测当前的标注模式;其中,所述标注模式为字符标注模式或标点标注模式;
针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素,包括:
针对每一目标文本,若检测到标注模式为字符标注模式,则识别该目标文本相对于所述标准文本的、关于字符的差异,得到差异元素;
若检测到标注模式为标点标注模式,则识别该目标文本相对于所述标准文本的、关于标点的差异,得到差异元素。
6.根据权利要求1或2所述的方法,还包括:
识别所述标准文本中的各个专有名词,以及相对应的索引位置;
利用所述各个专有名词相对应的索引位置,查找针对所述各个专有名词的上下文信息;
基于所述各个专有名词的上下文信息,从所述每一目标文本中,分别确定与所述各个专有名词位置匹配的目标专有名词;
若所确定的目标专有名词中包括第二预定标注的元素,则判定该目标专有名词属于识别有误的目标专有名词。
7.一种多文本差异识别装置,包括:
第一确定模块,用于确定针对音频的标准文本,以及待识别差异的多个目标文本;其中,每一目标文本为所述音频的字幕文本;
第一识别模块,用于针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素;
第二确定模块,用于从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息;其中,所述第一元素为属于更改类型的元素;
第一匹配模块,用于基于所述第一元素的上下文信息,从所述标准文本和其他文本中,分别确定与所述第一元素位置匹配的目标元素;其中,所述其他文本为多个目标文本中除该目标文本以外的一文本;
第一标注模块,用于若所确定的目标元素相同,则在所述其他文本中,对所确定的目标元素进行第一预定标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111258033.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:分布式文件系统和文件缓存方法
- 下一篇:请求处理方法、装置、介质与电子设备





