[发明专利]字串解析方法、系统及电子设备有效
申请号: | 202011611793.2 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112631603B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 林怀谦;郭云辉;陈海燕;黄正文 | 申请(专利权)人: | 文思海辉智科科技有限公司 |
主分类号: | G06F8/41 | 分类号: | G06F8/41 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 安卫静 |
地址: | 102200 北京市昌平区未来科*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字串 解析 方法 系统 电子设备 | ||
本发明提供了一种字串解析方法、系统及电子设备,涉及字串提取解析领域,该方法首先基于源文件的类型获取待译内容,并获取待译内容中包括的至少一个字串;然后针对一个字串中的每一字串,基于该字串的字串类型,从解析器队列确定出与字串类型对应的目标解析器,使用目标解析器对该字串进行解析操作;将与该字串对应的句段标签字串以及内容字串作为解析结果;最后得到与源文件对应的至少一个解析结果。该方法从预设的解析器队列中获取子串的目标解析器,并通过该目标解析器将包含代码内容的字串进行屏蔽,能够满足任意文件类型的字串进行提取,解决了现有技术中在对含有代码内容的文件解析时存在的支持类型有限且解析效果差的问题。
技术领域
本发明涉及字串提取解析技术领域,尤其是涉及一种字串解析方法、系统及电子设备。
背景技术
软件工程中,用户文档会包含代码内容,例如代码示例;字串文件中亦还有代码内容,尤其对于容器类文件格式(如xlsx、xliff、json)来说,其中包含的代码字串类型更为复杂多变。翻译这些文件时,需要识别这些代码内容,提取普通文本。现有技术中的CAT工具虽然具有对代码内容进行二次解析的功能,但不能满足任意类型的文件解析,且解析器的种类较少,字串解析的效果较差。
发明内容
有鉴于此,本发明的目的在于提供一种字串解析方法、系统及电子设备,通过预设解析器队列中获取子串的目标解析器,并通过该目标解析器将包含代码内容的字串进行屏蔽,能够满足任意文件类型的字串进行提取,解决了现有技术中在对含有代码内容的文件解析时存在的支持类型有限且解析效果差的问题。
第一方面,本发明实施例提供了一种字串解析方法,该方法包括:
基于源文件的类型获取待译内容;
获取待译内容中包括的至少一个字串;
针对至少一个字串中的每一字串,基于该字串的字串类型,从解析器队列确定出与字串类型对应的目标解析器,使用目标解析器对该字串进行解析操作;将与该字串对应的句段标签字串以及内容字串作为解析结果;
得到与源文件对应的至少一个解析结果。
在一些实施方式中,针对至少一个字串中的每一字串,基于该字串的字串类型,从解析器队列确定出与字串类型对应的目标解析器,包括:
获取解析器队列;其中,解析器队列中包括至少一个目标解析器,每个目标解析器包含于字串类型对应的字串解析规则;字串解析规则用于获取字串的句段标签字串以及内容字串;
根据字串中的每一个字串的类型,遍历解析器队列中所有的目标解析器,从解析器队列中确定与字串的类型对应的目标解析器。
在一些实施方式中,使用目标解析器对该字串进行解析操作,包括:
根据解析器队列中的目标解析器的排列顺序,确定目标解析器的执行顺序;
将字串输入至解析器队列中第一执行顺序的目标解析器中进行解析,得到第一解析结果;
将第一解析结果输入至解析器队列中第二执行顺序的目标解析器中进行解析,并按照目标解析器的执行顺序依次进行解析,直至解析器队列中所有的目标解析器完成解析。
在一些实施方式中,将与该字串对应的句段标签字串以及内容字串作为解析结果之后,还包括:
根据预设的探测规则对解析结果进行探测,得到目标解析器的探测结果;其中,探测规则用于探测解析器是否可用;
若目标解析器的探测结果不满足探测规则,停止解析器的解析,并将输入至目标解析器的字串作为解析结果。
在一些实施方式中,在使用目标解析器对该字串进行解析操作的过程中,目标解析器的解析异常时,方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于文思海辉智科科技有限公司,未经文思海辉智科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011611793.2/2.html,转载请声明来源钻瓜专利网。