[发明专利]手语生成方法和系统有效
| 申请号: | 202110935678.9 | 申请日: | 2021-08-16 |
| 公开(公告)号: | CN113657127B | 公开(公告)日: | 2023-08-18 |
| 发明(设计)人: | 赵洲;程诗卓;沈子栋;黄文璨;潘文雯 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G11B27/031 | 分类号: | G11B27/031;G06N3/045;G06N3/0464;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 手语 生成 方法 系统 | ||
本发明公开了一种手语生成方法和系统,属于手语生成领域。获取手语注解序列与目标手势姿态序列;将手续注解序列通过一个非自回归模型生成预测的手势姿态序列;在非自回归模型中,手语注解序列经过嵌入及位置编码后,由第一Transformer网络转换为注解同步特征序列,由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间,通过长度调节器将注解同步特征序列扩展到姿态同步特征序列,然后依次由另一个Transformer网络和时空图卷积姿态生成器变换为手势姿态序列;根据预测得到的手势姿态序列合成手语视频;在对非自回归模型进行训练时,引入一个外部对齐器以获得每个注解的目标对数持续时间。
技术领域
本发明涉及手语生成技术领域,具体涉及一种手语生成方法和系统。
背景技术
手语是一种丰富的视觉语言,具有复杂的语法结构,是听障人士社群的交流语言。为了让听障人士参与到更广泛的世界的主要语言中,已经采用了大量的方法来实现手语生成(SLP)。
通过给定一个口语描述,SLP的目标是将其自动翻译为相应的连续手势序列。一般来说,手势序列可以用手势骨架姿势序列或手语视频来表示。如图1所示,通常首先将口语转化为注解序列,然后从注解序列(G2P)生成手势姿态序列,最后可以使用手势姿态序列生成符号语言视频。
现有的G2P方法是基于序列自回归或序列到序列的编码器-解码器学习,它根据注解序列以及当前生成的姿态帧生成下一个姿态帧。然而,这些自回归方法很可能面临以下两个挑战:
1)误差积累:当前帧的预测精度很大程度上依赖于之前的帧,导致周期性的预测误差随时间传播。
2)高推理延迟:处理时间随手势姿态序列的长度近似线性增加。
发明内容
为了解决上述中的技术问题,本发明提供了一种手语生成方法和系统。
本发明采用如下技术方案:
一个目的在于提供一种手语生成方法,包括:
获取手语注解序列与目标手势姿态序列作为训练样本;将手续注解序列通过一个非自回归模型生成预测的手势姿态序列,计算生成损失;
所述的非自回归模型包括第一Transformer网络、持续时间预测器、长度调节器、第二Transformer网络和时空图卷积姿态产生器;手语注解序列经过嵌入及位置编码后,首先由第一Transformer网络转换为注解同步特征序列;接下来,由持续时间预测器预测与每个注解对齐的手势姿态序列的对数持续时间;根据预测的持续时间,通过长度调节器将注解同步特征序列扩展到姿态同步特征序列,然后依次由另一个Transformer 网络和时空图卷积姿态生成器变换为手势姿态序列;根据预测得到的手势姿态序列合成手语视频;
在对非自回归模型进行训练时,引入一个外部对齐器以获得每个注解的目标对数持续时间,计算持续时间损失。
进一步的,所述的第一Transformer网络和第二Transformer网络的结构相同,参数不共享;每一个Transformer网络由若干FFT块叠加构成,每一个FFT块包括一个自注意层、一个前馈层,且每一层之后设有残差连接和层规范化。
进一步的,所述的外部对齐器包括一个混合密度网络和单调排列搜索器;
手语注解序列经过嵌入及位置编码后,首先应用一个混合密度网络来将其转换为注解同步手势姿态高斯分布序列其中zi=(μi,σi)是对应于第i个注解的手势姿态帧的高斯分布平均值和方差;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110935678.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于燃气表智慧生产的电机装配系统
- 下一篇:一种基于区块链的安全高效溯源系统





