[发明专利]一种确定目标语言文本大小写的方法及装置在审
申请号: | 202210157216.3 | 申请日: | 2022-02-21 |
公开(公告)号: | CN114528814A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 程进;姚佳立;杨晶生;宋航 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/58;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 储倩 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 目标 语言 文本 大小写 方法 装置 | ||
本申请公开了一种确定目标语言文本大小写的方法,在一个示例中,该方法可以由客户端执行。客户端可以获取待处理文本,所述待处理文本包括目标语言文本和其它语言的文本。而后,将所述待处理文本输入机器学习模型,所述机器学习模型能够用于确定目标语言文本的格式。将所述待处理文本输入机器学习模型之后,可以得到所述目标语言文本的格式,其中,所述目标语言文本的格式,用于指示所述目标语言文本中各个字符的大小写。由此可见,利用本申请实施例的方案,无需利用预先制定的规则来确定目标语言文本的大小写,而是利用机器学习模型来确定目标语言文本中各个字符的大小写,从而能够提升确定目标语言文本中各个字符的大小写的准确度。
技术领域
本申请涉及文本处理领域,特别是涉及一种确定目标语言文本大小写的方法及装置。
背景技术
在一些场景中,需要确定目标语言文本的大小写。例如,自动语音识别(AutomaticSpeech Recognition,ASR)可以将语音转换成文字。当由语音识别到的文字既目标语言(例如英文)又包括其它语言的文本(例如中文)时,所输出的目标语言文本全都是小写的。因此,在基于ASR获得文本之后,还需要确定目标语言文本的大小写,以进一步对文本中目标语言文本的大小写进行调整。
目前,可以基于人工制定的规则确定目标语言文本的大小写,但是,采用这种方式,准确度不是很高。
因此,亟需一种方案,能够准确的确定目标语言文本的大小写。
发明内容
本申请所要解决的技术问题是如何准确的确定目标语言文本的大小写,提供一种确定目标语言文本大小写的方法及装置。
第一方面,本申请实施提供了一种确定目标语言文本大小写的方法,所述方法包括:
获取待处理文本,所述待处理文本包括目标语言文本和其它语言的文本;
将所述待处理文本输入机器学习模型,得到所述目标语言文本的格式,所述目标语言文本的格式,用于指示所述目标语言文本中各个字符的大小写,所述机器学习模型,用于确定目标语言文本的格式。
可选的,所述目标语言文本包括第一文本,所述第一文本的格式,包括以下任意一种:
全小写、首字符大写、全大写以及其它,其中,所述其它表示除所述全小写、所述首字符大写以及所述全大写之外的格式。
可选的,所述机器学习模型,通过如下方式训练得到:
获取训练文本和所述训练文本对应的标签,所述训练文本对应的标签,用于指示所述训练文本中目标语言文本的格式,所述训练文本包括目标语言文本和所述其它语言的文本;
基于所述训练文本和所述训练文本对应的标签,训练得到所述机器学习模型。
可选的,所述获取训练文本,包括:
获取语料,所述语料包括目标语言文本和其它语言的文本;
将所述语料中的部分所述其它语言的文本翻译成目标语言文本,得到所述训练文本。
可选的,所述机器学习模型,包括特征提取模块和特征变换模块;
所述特征提取模块,用于提取所述待处理文本中各个文本的特征;
所述特征变换模块,用于根据所述各个文本的特征,确定所述待处理文本中的目标语言文本的格式。
可选的,所述特征提取模块为预训练语言模型。
可选的,所述方法还包括:
根据所述目标语言文本的格式对所述待处理文本中的目标语言文本进行处理,得到目标文本,所述目标文本中目标语言文本的大小写与所述目标语言文本的格式相匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210157216.3/2.html,转载请声明来源钻瓜专利网。