[发明专利]文档转换方法、装置、设备及存储介质在审
申请号: | 202211421672.0 | 申请日: | 2022-11-14 |
公开(公告)号: | CN115713063A | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 蔡佳伟 | 申请(专利权)人: | 中国农业银行股份有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/205;G06F40/30;G06F40/284;G06N3/0442;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘妮;黄健 |
地址: | 100005 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 转换 方法 装置 设备 存储 介质 | ||
本申请提供一种文档转换方法、装置、设备及存储介质。涉及语言处理技术领域。该方法包括:获取待转换的第一文档的文档内容,文档内容包括已排序的多个字符;从多个字符中的首字符开始依次确定每个字符的字符类型;基于每个字符的字符类型,从第一文档中提取多个文本,多个文本的文本类型包括至少两种;对于每个文本,通过与文本的文本类型匹配的盲文转换模型,将文本转换为盲文文本;将多个文本转换后的多个盲文文本组合为第二文档。该方法能够将包括不同类型文本的第一文档自动转换为第二文档,与通过人工将不同类型的文本手动录入不同的翻译系统相比,提高了文档转换的效率。
技术领域
本申请涉及语言处理技术领域,尤其涉及一种文档转换方法、装置、设备及存储介质。
背景技术
近年来,信息无障碍的研究越来越受到人们的关注。信息无障碍是指任何人在任何情况下都能平等的、无障碍地获取、利用信息。目前由于盲文资料相对比较匮乏,导致盲人在获取信息时仍存在较大困难。因此,为了增加盲文资料,需要将普通文档转换为盲文文档。
现有技术中,通过单一类型的翻译系统,将普通文档转换为盲文文档。当某一文档中同时存在多种类型的文本时,先通过人工建立多个类型的翻译系统,然后从文档中分离出不同类型的文本,通过人工将不同类型的文本手动录入不同的翻译系统,最后在通过人工将不同的翻译系统转换后的文本进行合并。
然而,发明人发现现有技术至少存在如下技术问题:由于当文档中同时存在多种类型的文本时,需要人工分别处理每个类型的文本,而人工处理文本费时费力。因此,通过现有技术中的方法对文档进行转换的效率低。
发明内容
本申请提供一种文档转换方法、装置、设备及存储介质,能够提高文档转换的效率。
第一方面,本申请提供一种文档转换方法,包括:
获取待转换的第一文档的文档内容,所述文档内容包括已排序的多个字符;
从所述多个字符中的首字符开始依次确定每个字符的字符类型;
基于每个字符的字符类型,从所述第一文档中提取多个文本,所述多个文本的文本类型不同;
对于每个文本,通过与所述文本的文本类型匹配的盲文转换模型,将所述文本转换为盲文文本;
将多个文本转换后的多个盲文文本组合为第二文档。
在一种可能的设计中,所述基于每个字符的字符类型,从所述第一文档中提取多个文本,包括:从所述多个字符中的首字符开始依次提取字符;若本次提取的第一字符的字符类型与所述首字符的字符类型不同,则将所述第一字符之前的多个字符组合为第一本文;继续从所述第一字符开始依次从所述多个字符中提取字符;若本次提取的第二字符的字符类型与所述第一字符的字符类型不同,则将所述第二字符之前的多个字符组合为第二本文;直至所述多个字符提取结束,得到多个文本。
在另一种可能的设计中,所述文本类型包括中文类型、数学类型、英文类型和符号类型;所述对于每个文本,通过与所述文本的文本类型匹配的盲文转换模型,将所述文本转换为盲文文本,包括:若所述文本的文本类型为数学公式类型,则通过训练好的深度神经网络模型,将所述文本转换为盲文文本,所述深度神经网络模型用于输入LaTeX格式的数学公式输出ASCII格式的盲文文本。
在另一种可能的设计中,还包括:若所述文本的文本类型为中文类型,则通过中文盲文转换模型,将所述文本转换为盲文文本;若所述文本的文本类型为英文类型,则通过英文盲文转换模型,将所述文本转换为盲文文本;若所述文本的文本类型为符号类型,则通过符号盲文转换模型,将所述文本转换为盲文文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211421672.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可用数据条带分片数确定方法及系统
- 下一篇:紧固件防卡咬剂及其制备方法