[发明专利]文本输入法以及相关装置在审
申请号: | 202111666573.4 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114356116A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 王永灿;丁克玉 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 刘希 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 输入法 以及 相关 装置 | ||
1.一种文本输入法,其特征在于,包括:
获取字符串和融合候选词向量库;其中,所述字符串包括按键序列、语言序列及笔画序列;
将所述字符串输入解码模型,得到所述字符串的解码词;
其中,所述解码模型用于获取所述字符串的语义特征,利用所述字符串的语义特征和所述融合候选词向量库,得到所述字符串的解码词;所述融合候选词向量库中包括多个候选语义特征,所述候选语义特征是候选字的融合语义特征,所述候选字的融合语义特征是候选字的通用语义特征与候选字的人名语义特征的加权融合,所述解码词为所述字符串中各字符的候选字的组合。
2.根据权利要求1所述的文本输入法,其特征在于,
所述解码模型还用于获取所述字符串为人名字符串的概率值,将所述概率值作为候选字的人名语义特征的权重系数,以加权融合候选字的通用语义特征与候选字的人名语义特征,候选字的通用语义特征的权重系数与候选字的人名语义特征的权重系数的和为1。
3.根据权利要求2所述的文本输入法,其特征在于,
所述解码模型包括端到端神经网络结构,所述端到端神经网络结构包括预测模块,所述预测模块包括编码器以及与所述编码器连接的分类网络,所述编码器用于对所述字符串进行编码得到所述字符串的语义特征,所述分类网络用于获取所述字符串为人名字符串的概率值。
4.根据权利要求3所述的文本输入法,其特征在于,所述端到端神经网络结构还包括解码模块;
所述解码模块用于逐字符地从所述融合候选词向量库中获取匹配当前字符的候选语义特征,匹配当前字符的候选语义特征为多个;
融合前一字符的解码信息计算匹配当前字符的各个候选语义特征的概率。
5.根据权利要求4所述的文本输入法,其特征在于,
所述编码器的网络结构为BiLSTM或压缩的预训练语言表征模型BERT;
所述分类网络的网络结构为包括全连接层的分类网络;
所述解码模块的网络结构为长短期记忆网络LSTM或transformer模型。
6.根据权利要求3所述的文本输入法,其特征在于,所述文本输入法还包括:
获取样本语料,所述样本语料为拼音串,所述拼音串携带文本标签和概率标签,所述文本标签用于标识所述拼音串对应的文本,所述概率标签用于标识所述拼音串对应的文本是通用文本还是人名文本;
将所述样本语料输入初始端到端神经网络,计算端到端神经网络的损失,所述损失为概率损失与文本损失的加权融合;
基于所述损失,迭代更新端到端神经网络的参数,直至满足训练截止条件。
7.根据权利要求1所述的文本输入法,其特征在于,所述文本输入法还包括:
构建基础候选词向量库,所述基础候选词向量库包括通用词库和人名词库,所述通用词库中包括多个通用语义特征,所述人名词库中包括多个人名语义特征;
所述获取融合候选词向量库包括:从所述基础候选词向量库中获取所述字符串中各字符的候选字的通用语义特征和人名语义特征;加权融合候选字的通用语义特征与候选字的人名语义特征,得到候选字的融合语义特征,构成所述融合候选词向量库。
8.根据权利要求7所述的文本输入法,其特征在于,所述构建基础候选词向量库包括:
获取通用文本语料和人名文本语料;
将所述通用文本语料输入第一语言模型获取所述通用文本语料中各个字的通用语义特征,将所述人名文本语料输入第二语言模型获取所述人名文本语料中各个字的人名语义特征,形成所述基础候选词向量库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111666573.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:偏光片贴合检测设备、系统及方法
- 下一篇:显示面板及其制备方法