“标贝（北京）科技有限公司”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果29个，建议您升级VIP下载更多相关专利

[发明专利]三维点云的目标标注方法和点云连续帧中目标跟踪方法-CN202310461018.0在审
发明人：夏亚楠;李秀林;李世龙 -专利权人： 标贝（北京）科技有限公司
申请日： 2023-04-26 - 公布日： 2023-09-29 - 主分类号： G06T7/73 文献下载
摘要：本申请实施例提供一种三维点云的目标标注方法和点云连续帧中目标跟踪方法，该标注方法包括：针对三维点云中的第一区域中的待标注点云，基于待标注点云的不同部分的点的密度，对待标注点云进行地面点云过滤，以获得去除了地面点云的过滤后的点云；对过滤后的点云进行目标分割，以确定目标点云；以及输出所确定的目标点云的位置信息。这种方案计算量小，可以显著提高标注效率。同时，根据待标注点云中不同部分的点的密度进行地面点云过滤的方案可以较精准地去除地面点云，从而可以提高确定出的目标点云的精度，目标标注的准确率也较高。而且，此方案无需训练，实现成本也较低，因此该方案的可实施性好、可拓展性强。
三维目标标注方法连续跟踪

[发明专利]点云连续帧中目标跟踪方法、系统、电子设备及存储介质-CN202310465929.0在审
发明人：夏亚楠;李秀林;李世龙 -专利权人： 标贝（北京）科技有限公司
申请日： 2023-04-26 - 公布日： 2023-08-01 - 主分类号： G06T7/246 文献下载
摘要：本申请实施例提供一种点云连续帧中目标跟踪方法、系统、电子设备及存储介质，方法包括：获取待跟踪目标的三维点云的连续帧以及待跟踪目标的、连续帧的一帧中的标注包围框；对于连续帧中除了标注有标注包围框的帧以外的每一帧，至少基于待跟踪目标的标注包围框的位置参数，确定该帧中的划选点云，其中，标注包围框在该帧中的位置对应框内的点云是划选点云中的一部分；对划选点云进行目标分割，以确定分割点云；对标注包围框中的点云进行跟踪运算，以确定待跟踪目标的、该帧中的预测包围框；基于预测包围框，确定分割点云中的待跟踪目标的目标跟踪点云。该方案可显著提高点云连续帧中目标跟踪的精度，并且目标跟踪的效率也较高。
连续目标跟踪方法系统电子设备存储介质

[发明专利]语音合成的发音稳定性评价方法、装置和系统及存储介质-CN202011451192.X有效
发明人：黄志强;李秀林 -专利权人： 标贝（北京）科技有限公司
申请日： 2020-12-10 - 公布日： 2023-07-14 - 主分类号： G10L13/02 文献下载
摘要：提供一种语音合成的发音稳定性评价方法、装置和系统及存储介质。方法包括：获取待合成文本的音子序列；将音子序列输入语音合成模型进行语音合成，以获得注意力矩阵和用于表示合成语音的声学参数序列，语音合成模型是基于注意力机制的序列到序列模型，声学参数序列包括与合成语音所包括的n个语音帧集一一对应相关的声学参数，n个语音帧集中的每个语音帧集包括多个语音帧，注意力矩阵用于表示音子序列与声学参数序列之间的相关度，n是大于或等于1的整数；基于注意力矩阵中的元素计算稳定性评分，稳定性评分用于反映音子序列与声学参数序列之间的相关度相对于正常注意力矩阵中的相关度的偏离情况；基于稳定性评分确定合成语音的发音稳定性。
语音合成发音稳定性评价方法装置系统存储介质

[发明专利]文本标点预测方法、装置、系统及存储介质-CN202110555504.X有效
发明人：何梦中;李秀林;吴本谷 -专利权人： 标贝（北京）科技有限公司
申请日： 2021-05-21 - 公布日： 2023-07-07 - 主分类号： G06F40/20 文献下载
摘要：本发明提供一种文本标点预测方法、装置、系统及存储介质。方法包括：获取待处理文本；按照文本段对待处理文本进行划分，文本段是单个词或单个字符；将文本划分结果输入标点预测模型，以获得与待处理文本中的所有文本段一一对应的初始预测结果，初始预测结果包括与N个预设标点一一对应的N个预测概率，每个预测概率表示对应文本段后面的标点是对应预设标点的概率，N为大于1的正整数；对待处理文本中的至少部分文本段所对应的初始预测结果进行平滑处理，以获得与待处理文本中的所有文本段一一对应的最终预测结果；基于待处理文本中的所有文本段所对应的最终预测结果确定待处理文本包含的标点，以获得标点预测结果。有助于提高标点预测的准确率。
文本标点预测方法装置系统存储介质

[发明专利]图像配准方法和表面法向量重建方法、系统及电子设备-CN202310325418.9在审
发明人：孔嘉明 -专利权人： 标贝（北京）科技有限公司
申请日： 2023-03-29 - 公布日： 2023-06-23 - 主分类号： G06T7/33 文献下载
摘要：本申请实施例提供一种图像配准方法和表面法向量重建方法、系统及电子设备。该图像配准方法包括：获取多个视频帧；基于光流估计算法，确定多个视频帧中的目标帧至参考帧的第一光流估计结果；对目标帧和参考帧分别进行边缘检测，以分别获得目标帧的边缘图像和参考帧的边缘图像；利用第二损失函数并基于光流估计算法，确定目标帧的边缘图像至参考帧的边缘图像的第二光流估计结果，第二损失函数包括关于边缘图像中的高频信息的变化率的损失的分式；基于第一光流估计结果和第二光流估计结果，调整目标帧，以获取调整后的视频帧。该方案配准精度高，计算量小，处理速度快，可以有效实现多个视频帧的实时、精确配准。
图像方法表面向量重建系统电子设备

[发明专利]语音唤醒方法、装置、设备及存储介质-CN202110461938.3有效
发明人：何梦中;李秀林;吴本谷 -专利权人： 标贝（北京）科技有限公司
申请日： 2021-04-27 - 公布日： 2022-11-08 - 主分类号： G10L15/02 文献下载
摘要：本发明提供了一种语音唤醒方法、装置、设备及存储介质。其中包括：获取自当前唤醒人产生的音频信号；提取音频信号的声学特征；对音频信号进行一级唤醒检测，以得到一级检测结果；在一级检测结果通过的情况下，对音频信号进行二级唤醒检测，以得到二级检测结果，同时通过音频信号的声学特征对音频信号进行声纹验证；在二级检测结果通过的情况下，根据一级检测结果、二级检测结果和声纹验证结果分别执行对应的操作。在保证语音唤醒的响应速度的同时支持声纹验证，实现了语音唤醒和声纹验证的结合，满足了用户的多样需求。
语音唤醒方法装置设备存储介质

[发明专利]角色标注与语音合成方法、装置和系统及存储介质-CN202210389200.5在审
发明人：潘华山;李秀林 -专利权人： 标贝（北京）科技有限公司
申请日： 2022-04-13 - 公布日： 2022-09-16 - 主分类号： G06F40/117 文献下载
摘要：本发明提供一种角色标注与语音合成方法、装置和系统及存储介质，包括：获取标注文本、目标对白和候选角色列表；将标注文本以单个字符为粒度一一对应地映射为特征向量；将目标对白以单个字符为粒度一一对应地映射为特征向量；对对白向量序列中的向量进行池化；对于候选角色列表中的每个候选角色名称，将该候选角色名称以单个字符为粒度一一对应地映射为特征向量；对名称向量序列中的向量进行池化；将文本向量序列、对白向量和角色向量序列输入编码器模块；通过分类模块对与属于每个候选角色组的至少一个候选角色名称一一对应的编码结果进行分类；基于至少一个候选角色组的分类结果确定目标对白的角色标注结果。可节省计算资源，标注效率高，用户体验好。
角色标注语音合成方法装置系统存储介质

[发明专利]多音字消歧方法、装置、系统及存储介质-CN202110577910.6有效
发明人：张海腾;李秀林 -专利权人： 标贝（北京）科技有限公司
申请日： 2021-05-26 - 公布日： 2022-08-09 - 主分类号： G10L13/08 文献下载
摘要：本发明提供一种多音字消歧方法、装置、系统及存储介质。方法包括：获取待处理文本；从待处理文本中识别目标多音字字符；从待处理文本中识别一个或多个目标词，一个或多个目标词中的每一个包含目标多音字字符；利用多音字词典确定与一个或多个目标词一一对应的一组或多组字符发音信息，每组字符发音信息用于表示在对应目标词中目标多音字字符的发音，多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音；至少基于一组或多组字符发音信息生成输入特征；将输入特征输入多音字消歧模型，以获得目标多音字字符的预测发音结果。有助于提高多音字消歧的处理效率和预测准确率。
多音字方法装置系统存储介质

[发明专利]文本处理、模型训练与语音合成方法、装置、系统及介质-CN202210395460.3在审
发明人：李旭;潘华山;李秀林 -专利权人： 标贝（北京）科技有限公司
申请日： 2022-04-14 - 公布日： 2022-07-29 - 主分类号： G10L13/02 文献下载
摘要：本发明提供一种文本处理、模型训练与语音合成方法、装置和系统及存储介质。方法包括：获取待处理文本；从待处理文本中识别非标准化词；对非标准化词进行拆分，获得拆分信息，拆分信息包括待处理文本中包含的非标准化词的子非标准化词及子非标准化词的类型信息，子非标准化词为单纯的数字、单纯的字母或单纯的符号；基于拆分信息对待处理文本进行整理，以获得文本标准化数据，文本标准化数据包括从待处理文本中提取出的子非标准化词序列、待处理文本中除子非标准化词序列以外的标准字符序列以及标签信息，标签信息包括非标准化词序列中的每个子非标准化词的类型信息以及标准字符序列中的每个标准字符的类型信息。实现文本标准化数据的细粒度转换。
文本处理模型训练语音合成方法装置系统介质

[发明专利]语音质检的方法、装置、电子设备和存储介质-CN202210395836.0在审
发明人：何梦中;李秀林 -专利权人： 标贝（北京）科技有限公司
申请日： 2022-04-14 - 公布日： 2022-07-08 - 主分类号： G10L25/60 文献下载
摘要：本发明实施例提供了一种语音质检的方法、装置、电子设备和存储介质。该方法包括：获取待质检的音频信号；提取音频信号的第一语音特征和第二语音特征，其中第二语音特征包括频谱信息；对第一语音特征进行编码，以获得第一语音特征的时域表示；对第二语音特征进行编码，以获得频谱信息的频域表示；合并时域表示和频域表示，以作为编码输出数据；将编码输出数据进行解码；基于解码结果，确定音频信号的分数。由此，避免了背景噪声对语音质检的干扰，显著提高了语音质检的准确性。
语音质检方法装置电子设备存储介质

[发明专利]用于移动客户端的文本播放方法和装置-CN202010000741.5有效
发明人：胡帅君;李世龙;林喜;闫腾;李明辉 -专利权人： 标贝（北京）科技有限公司
申请日： 2020-01-02 - 公布日： 2022-07-08 - 主分类号： G10L13/047 文献下载
摘要：本发明实施例提供了用于移动客户端的文本播放方法、装置、移动客户端和存储介质，文本包括多个文本句，方法包括：播放根据服务器实时合成的第一合成语音确定的第一播放语音，第一合成语音与文本播放请求中的第一文本句对应；在开始播放第一播放语音的同时，将第一文本句之后的下一个文本句发送至服务器，以供服务器实时合成与下一个文本句对应的第二合成语音；接收服务器返回的第二合成语音；基于第二合成语音确定第二播放语音；将第二播放语音存储到播放列表，其中播放列表用于按顺序存储播放语音；在播放完根据第一合成语音确定的所有播放语音的情况下，播放第二播放语音。上述方案实现了对篇幅较长的文本进行语音合成时的实时且不间断播放。
用于移动客户端文本播放方法装置

[发明专利]语音评测方法、装置、设备及存储介质-CN202210325744.5在审
发明人：何梦中;李秀林;吴本谷 -专利权人： 标贝（北京）科技有限公司
申请日： 2022-03-29 - 公布日： 2022-06-14 - 主分类号： G10L25/51 文献下载
摘要：本发明提供了一种语音评测方法、装置、设备及存储介质。方法包括：获取待评测的音频信号；提取音频信号中每个语音帧的声学特征；利用声学特征确定音频信号的语音帧发音为音素字典中的各个音素的概率，以获得语音帧的发音信息；基于方言字典，确定标准文本信息对应的音素，其中方言字典中的字的音素包括标准音素和方言音素；基于音频信号中每个语音帧的声学特征和发音信息，将音频信号的语音帧和标准文本信息对应的音素对齐，以获得语音帧的对齐信息；以及根据语音帧的发音信息和对齐信息，确定音频信号相对于标准文本信息的评测结果。由此，能够有效地扩大语音评测技术的使用范围，进而能够满足用户的多种需求，提升用户的体验。
语音评测方法装置设备存储介质

[发明专利]语音合成方法、装置、系统和存储介质-CN201911366561.2有效
发明人：黄志强;李秀林 -专利权人： 标贝（北京）科技有限公司
申请日： 2019-12-26 - 公布日： 2022-06-10 - 主分类号： G10L13/02 文献下载
摘要：本发明实施例提供了一种语音合成方法、装置、系统和存储介质，所述方法包括：将待合成文本转换为包含多个音子元素的输入序列；将所述输入序列输入基于注意力机制的序列到序列神经网络模型，以获取所述输入序列和声学特征序列之间相关度矩阵，并输出包含语音帧集的声学特征序列，其中，所述相关度矩阵中的每个元素表示对应音子元素在对应语音帧集中所占的权重值；基于所述权重值确定每个音子元素在每个语音帧集中所占的发音时长；根据每个音子元素在每个语音帧集中所占的发音时长确定每个音子元素在所述声学特征序列中所占的发音总时长。上述技术方案不仅获得了自然流畅的语音，而且提供了音子元素发音时长的信息，有效提高了用户体验。
语音合成方法装置系统存储介质

[发明专利]声学模型训练与语音合成方法、装置和系统及存储介质-CN202111582248.X在审
发明人：崔君君;李秀林 -专利权人： 标贝（北京）科技有限公司
申请日： 2021-12-22 - 公布日： 2022-04-08 - 主分类号： G10L13/047 文献下载
摘要：本发明提供一种声学模型训练与语音合成方法、装置和系统及存储介质。训练方法包括：获取文本信息和初始真实声学信息，文本信息包括训练文本或与训练文本相关的文本特征序列，初始真实声学信息包括初始真实语音或与初始真实语音相关的初始真实声学特征序列；将文本信息输入声学模型，以获得声学模型输出的初始预测声学信息，初始预测声学信息与初始真实声学信息的形式一致；将初始真实声学信息和初始预测声学信息分别输入判别器，以获得判别器输出的真实判别结果和预测判别结果；至少基于真实判别结果和预测判别结果，对声学模型和判别器进行对抗训练。该方法可以提高训练获得的声学模型的性能，使其生成更准确、真实的声学信息。
声学模型训练语音合成方法装置系统存储介质

[发明专利]语音合成方法、装置、系统和存储介质-CN201911057450.3有效
发明人：李秀林;钟彩桂;边会康 -专利权人： 标贝（北京）科技有限公司
申请日： 2019-10-31 - 公布日： 2022-03-15 - 主分类号： G10L13/04 文献下载
摘要：本发明实施例提供了一种语音合成方法、装置、系统及存储介质，所述方法包括：利用文本分析模型对待处理文本进行分析，将待处理文本转化为包含一个或多个控制元素的第一编辑文本；生成与第一编辑文本对应的第一语音；接收用户对待处理文本进行编辑的编辑指令；根据所述编辑指令修改所述第一编辑文本中的所述控制元素，以生成第二编辑文本；生成与所述第二编辑文本对应的第二语音；接收用户对所述第二语音的确认指令；以所述待处理文本和所述第二编辑文本为训练样本，对所述文本分析模型进行训练；利用经训练的文本分析模型进行后续语音合成。本发明实施例能够在后续语音合成中生成更加符合用户需求的语音，从而改善用户体验，提高语音合成质量。
语音合成方法装置系统存储介质

1
2
下一页»
尾页
共 29 条