[发明专利]一种确定目标语言文本大小写的方法及装置在审
申请号: | 202210157216.3 | 申请日: | 2022-02-21 |
公开(公告)号: | CN114528814A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 程进;姚佳立;杨晶生;宋航 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/58;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 储倩 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 目标 语言 文本 大小写 方法 装置 | ||
1.一种确定目标语言文本大小写的方法,其特征在于,所述方法包括:
获取待处理文本,所述待处理文本包括目标语言文本和其它语言的文本;
将所述待处理文本输入机器学习模型,得到所述目标语言文本的格式,所述目标语言文本的格式,用于指示所述目标语言文本中各个字符的大小写,所述机器学习模型,用于确定目标语言文本的格式。
2.根据权利要求1所述的方法,其特征在于,所述目标语言文本包括第一文本,所述第一文本的格式,包括以下任意一种:
全小写、首字符大写、全大写以及其它,其中,所述其它表示除所述全小写、所述首字符大写以及所述全大写之外的格式。
3.根据权利要求1所述的方法,其特征在于,所述机器学习模型,通过如下方式训练得到:
获取训练文本和所述训练文本对应的标签,所述训练文本对应的标签,用于指示所述训练文本中目标语言文本的格式,所述训练文本包括目标语言文本和所述其它语言的文本;
基于所述训练文本和所述训练文本对应的标签,训练得到所述机器学习模型。
4.根据权利要求1所述的方法,其特征在于,所述获取训练文本,包括:
获取语料,所述语料包括目标语言文本和其它语言的文本;
将所述语料中的部分所述其它语言的文本翻译成目标语言文本,得到所述训练文本。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述机器学习模型,包括特征提取模块和特征变换模块;
所述特征提取模块,用于提取所述待处理文本中各个文本的特征;
所述特征变换模块,用于根据所述各个文本的特征,确定所述待处理文本中的目标语言文本的格式。
6.根据权利要求5所述的方法,其特征在于,所述特征提取模块为预训练语言模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述目标语言文本的格式对所述待处理文本中的目标语言文本进行处理,得到目标文本,所述目标文本中目标语言文本的大小写与所述目标语言文本的格式相匹配。
8.根据权利要求7所述的方法,其特征在于,所述目标语言文本包括第一文本,所述第一文本的格式为其它格式,所述方法还包括:
根据预先存储的所述第一文本和第一标准文本之间的对应关系,确定所述第一标准文本,所述第一标准文本用于指示所述第一文本各个字符的大小写;
所述根据所述目标语言文本的格式对所述待处理文本中的目标语言文本进行处理,得到目标文本,包括:
将所述第一文本转换为所述第一标准文本。
9.根据权利要求1所述的方法,其特征在于,所述获取待处理文本,包括:
对语音进行识别,得到所述待处理文本。
10.一种确定目标语言文本大小写的装置,其特征在于,所述装置包括:
获取单元,用于获取待处理文本,所述待处理文本包括目标语言文本和其它语言的文本;
第一确定单元,用于将所述待处理文本输入机器学习模型,得到所述目标语言文本的格式,所述目标语言文本的格式,用于指示所述目标语言文本中各个字符的大小写,所述机器学习模型,用于确定目标语言文本的格式。
11.一种设备,其特征在于,所述设备包括处理器和存储器;
所述处理器用于执行所述存储器中存储的指令,以使得所述设备执行如权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,包括指令,所述指令指示设备执行如权利要求1至9中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210157216.3/1.html,转载请声明来源钻瓜专利网。