[发明专利]一种基于空耳文本的音乐检索方法在审

专利信息
申请号: 202011095696.2 申请日: 2020-10-14
公开(公告)号: CN112380376A 公开(公告)日: 2021-02-19
发明(设计)人: 叶洪良;朱皖宁 申请(专利权)人: 金陵科技学院
主分类号: G06F16/632 分类号: G06F16/632
代理公司: 南京众联专利代理有限公司 32206 代理人: 蒋昱
地址: 210000 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于空耳文本的音乐检索方法,该方法首先将空耳文本进行罗马化的操作,使之变成一个同一标准的编码,随后采用了一个TextToHumming框架,该框架采用WaveNet作为声码器,并且在输入进WaveNet之前,通过一个编码器,捕获文本之间的高阶映射。通过该框架,通过将空耳的文本转换成相应的音乐哼唱片段。然后我们改进了现有的DTW算法,为DTW算法添加了浮动系数,使之更加适用通过空耳文本生成的哼唱音乐的检索。通过以上方法,解决了目前通过空耳寻找歌曲难度大的问题。
搜索关键词: 一种 基于 文本 音乐 检索 方法
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金陵科技学院,未经金陵科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202011095696.2/,转载请声明来源钻瓜专利网。

同类专利
  • 专辑召回方法、装置、设备及存储介质-201910874945.9
  • 成梭宇 - 上海喜马拉雅科技有限公司
  • 2019-09-17 - 2023-10-10 - G06F16/632
  • 本发明实施例公开了一种专辑召回方法、装置、设备及存储介质。其中方法包括:获取用户特征和专辑特征;将用户特征和专辑特征输入第一深度矩阵分解模型,以生成用户矩阵和专辑矩阵;根据预设的近似搜索方法,确定专辑矩阵与用户矩阵中每个用户相似度达到第一预设条件的至少两个专辑;将用户特征及至少两个专辑的专辑特征输入第二深度矩阵分解模型,以确定与每个用户相似度达到第二预设条件的至少一个专辑,并召回所述至少一个专辑。本发明实施例实现了通过第二深度矩阵分解模型,获取用户与专辑之间的交互特征,从而基于交互特征能够向用户提供更精准及个性化的专辑推荐服务。
  • 一种音乐检索方法、系统、设备及介质-202310692123.5
  • 陈念泽;吕君蔚;刘博 - 上海君依悦远健康科技有限公司
  • 2023-06-13 - 2023-09-05 - G06F16/632
  • 本发明公开一种音乐检索方法、系统、设备及介质,涉及音乐检索领域;该方法包括:获取目标音乐软件的目标音频数据;目标音频数据包括:音乐频谱和/或用户语音;基于语义和/或梯度下降的方法,对目标音频数据进行特征提取,得到特征数据;将特征数据输入至检索模型中,得到检索结果;检索结果为与目标音频匹配的音乐的集合;本发明能够根据表达的语义进行音乐的检索,实现音乐检索的准确性。
  • 音乐检索方法、音乐检索装置、电子设备及存储介质-202310568357.9
  • 张旭龙;王健宗;程宁;赵嘉豪 - 平安科技(深圳)有限公司
  • 2023-05-19 - 2023-08-15 - G06F16/632
  • 本申请实施例提供了一种音乐检索方法、音乐检索装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取目标描述文本和候选音乐,其中,目标描述文本包括目标对象对音乐的描述内容;对目标描述文本进行词语识别,得到流派描述词语;对候选音乐进行频谱变换,得到候选音乐频谱序列;基于候选音乐频谱序列,获取候选音乐对应的候选音乐流派表征向量;基于候选音乐流派表征向量对候选音乐进行流派识别,得到候选音乐的流派标签数据;基于流派描述词语和流派标签数据对候选音乐进行筛选,得到目标音乐;将目标音乐反馈给目标对象。本申请实施例能够提高音乐检索的准确性。
  • 一种智能语音仓库物资查找装置-202223275109.5
  • 陈李鸣旭;杨军;汤文俊 - 苏州建设交通高等职业技术学校
  • 2022-12-07 - 2023-07-21 - G06F16/632
  • 本申请提供了一种智能语音仓库物资查找装置,包括:扬声器、显示屏、电源、语音识别芯片和外壳,所述扬声器、显示屏和电源均与所述语音识别芯片连接,所述语音识别芯片上自带麦克风并且内置可存储内存,所述可存储内存用于存储仓库备件的名称、数量和位置信息,所述扬声器、显示屏、电源、语音识别芯片均设置于所述外壳内。本装置通过设置语音识别芯片和扬声器,查找物资时,使用者只需说出要查找物资的名称,语音识别芯片便能够进行语音识别,并通过扬声器答复物资所在位置,还能通过显示屏显示物资信息,从而提高了物资查找效率。
  • 信息处理方法、设备及存储介质-202010626789.7
  • 牟海刚;于向丽;吴婷 - 中国联合网络通信集团有限公司
  • 2020-07-02 - 2023-07-18 - G06F16/632
  • 本发明提供了一种信息处理方法、设备及存储介质,包括:首先获取语音信号;然后,根据语音信号和预先训练得到的注意力模型,获得该语音信号对应的与目标业务相关的信息,该注意力模型用于向后语音预测,是根据电信运营商话务特点和话务数据训练得到的,最后,呈现与目标业务相关的信息,以供用户进行选中搜索。本发明实施例通过注意力模型向后语音预测来获得语音信号对应的与目标业务相关的信息,并呈现与目标业务相关的信息供用户进行选中搜索,替代了话务人员自行获取用户意图,并手动搜索业务内容的实现方式,有效提高话务服人员的问题处理效率,提升服务质量。
  • 旋律的自动生成-201810558917.1
  • 黄绍晗;崔磊;葛涛;韦福如;周明 - 微软技术许可有限责任公司
  • 2018-06-01 - 2023-06-27 - G06F16/632
  • 根据本公开的实现,提供了一种支持机器自动生成旋律的方案。在该方案中,用户情绪和/或环境信息被用于从多个旋律特征参数中选择第一旋律特征参数,其中该多个旋律特征参数中的每一个与多个参考旋律中的一个参考旋律的音乐风格相对应。该第一旋律特征参数进一步被用于生成符合该音乐风格的、与参考旋律不同的第一旋律。由此,可以自动地创作出与用户情绪和/或环境信息相匹配的旋律。
  • 一种数据推荐方法、装置、电子设备及存储介质-202310268557.2
  • 姜英彬;鲁俊 - 上海喜马拉雅科技有限公司
  • 2023-03-17 - 2023-06-23 - G06F16/632
  • 本申请的实施例提供了一种数据推荐方法、装置、电子设备及存储介质,涉及数据推荐领域,该方法包括:确定用户输入的搜索词,确定搜索词对应的多个候选专辑,针对每个候选专辑,确定候选专辑与对应搜索词的相似度,确定候选专辑的质量分以及和个性化分,基于相似度、质量分以及个性化分,计算各候选专辑的目标分值,将各目标分值从大到小进行排序,将排序后的各候选专辑推荐显示。通过考虑用户可能点击候选专辑的原因,为用户进行数据推荐,从而提高数据推荐的准确性。
  • 一种工业平缝机故障诊断方法-202310049919.9
  • 刘祖斌;周中华 - 浙江工业大学
  • 2023-02-01 - 2023-06-23 - G06F16/632
  • 本发明了公开了一种工业平缝机故障诊断方法,包括:通过麦克风采集正常和故障状态的工业平缝机等速运行时音频建立原始音频数据库;采用AVNCMD方法处理原始音频数据库中的音频数据,得到一系列非线性调频模态NCM分量;对所得非线性调频模态NCM分量进行多域特征提取和优选,得到最优特征集;将得到最优特征集的数据进行归一化处理,并输入极限学习机ELM中进行不同状态的工业平缝机的识别。本发明方法能够有效提取工业平缝机在噪声环境下的早期故障特征并有效识别其故障类型;在信号分解方面,采用的AVNCMD方法能够增强对实际信号分解的自适应性,增加了故障类型的识别准确性。
  • 音频问答库构建方法、音频问答方法及相关装置-202310234315.1
  • 鲁俊 - 上海喜马拉雅科技有限公司
  • 2023-03-09 - 2023-06-06 - G06F16/632
  • 本发明涉及计算机技术领域,提供一种音频问答库构建方法、音频问答方法及相关装置。通过从多个音频对应的音频文本中选取多个关键段落;一个关键段落对应一个音频片段;并利用预先训练的生成模型生成每个关键段落对应的全部初始问句;对于每个关键段落,利用预设模型计算关键段落与其每个初始问句的第一相似度并获取第一相似度大于第一预设阈值的标准问句,得到每个关键段落对应的标准问句;基于每个标准问句对应的全部关键段落,获得每个标准问句对应的全部音频片段的信息得到音频问答库。通过生成模型和预设模型获得标准问句,并基于关键段落建立标准问句与音频片段的对应关系,以构建高质量的音频问答库,提高了音频问答的准确性。
  • 音乐检索方法、系统、计算机设备及计算机可读存储介质-201910541222.7
  • 张爽;王义文;王健宗 - 平安科技(深圳)有限公司
  • 2019-06-21 - 2023-06-06 - G06F16/632
  • 本发明实施例提供了一种音乐检索方法,包括:预先配置音频检索数据库,所述音频检索数据库包括多个预存音频的多个钢琴窗图像数据;分析待测音频的目标频谱图;根据所述目标频谱图计算所述待测音频的八度音程的目标色度向量;根据所述目标色度向量生成对应的目标钢琴窗图像数据;计算所述待测音频的目标钢琴窗图像数据与所述多个预存音频中每个预存音频的钢琴窗图像数据的互相关系数,以得到多个互相关系数;根据所述多个互相关系数,选出与所述待测音频匹配的目标音频。本发明实施例提供了音乐检索系统、计算机设备和存储介质。本发明实施例通过对互相关系数的计算,提高了检索效率,并且节省了存储空间。
  • 一种基于SOA服务的车载音乐播放系统-202310182111.8
  • 韩梦思;王磊;何森;程世杰;宋小波;张建 - 阿尔特汽车技术股份有限公司
  • 2023-02-18 - 2023-05-26 - G06F16/632
  • 本发明实施例涉及车载音乐播放技术领域,具体公开了一种基于SOA服务的车载音乐播放系统。本发明实施例提供的一种基于SOA服务的车载音乐播放系统,采用SOA服务架构,包括客户端控制器、服务端控制器、传感器端控制器和执行器端控制器,实现将车载音乐播放相关功能的服务化设计,使得车载音乐播放功能与现有技术方案中的控制器进行解耦,使更多的场景功能软件可以灵活使用,采用了SOA服务架构,可以解决现有方案只能使用已有的互联网音乐APP带来的封闭性问题,对于功能的快速更新、迭代,以及新功能的快速上线有十分重要的意义,能够通过对用户识别,主动切换音乐风格的功能场景,极大地丰富用户体验。
  • 音频播放方法、电子设备及存储介质-202110416631.1
  • 李洪旭;孙静 - 网易(杭州)网络有限公司
  • 2021-04-16 - 2023-03-14 - G06F16/632
  • 本申请提供一种音频播放方法、电子设备及存储介质,涉及音频播放技术领域。其中,该方法包括:在目标音频播放期间,响应于第一控制指令确定的目标音频对应的至少一条跟唱音频,其中,至少一条跟唱音频为目标音频播放时实时录制的其他用户的跟唱音频,或,预设历史时间段内目标音频播放时所录制的至少一个用户的跟唱音频;同步播放至少一条跟唱音频,应用本申请实施例,使得目标用户在欣赏目标音乐时,还可以同步欣赏到至少一个用户的跟唱音频,增加用户的音乐趣味,增强音乐的社交属性。
  • 食材管理方法、系统和计算机存储介质-202210172555.9
  • 李敏;曾谁飞;刘卫强;张景瑞;孔令磊 - 青岛海尔电冰箱有限公司;海尔智家股份有限公司
  • 2022-02-24 - 2023-03-10 - G06F16/632
  • 本发明提供了一种食材管理方法、系统和计算机存储介质。其中所述食材管理方法包括获取用户语音咨询问题;将所述用户语音咨询问题转化为精准问题;获取所述精准问题对应的精准答案;向客户语音答复所述精准答案。其中食材管理系统包括语音交互模块、标准化模块、精准化模块。语音交互模块用于获取用户语音咨询问题并向用户输出语音答复。标准化模块用于将所述用户语音咨询问题转化为标准问题。精准化模块用于将所述标准问题转化为精准问题。其中计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能够实现上述的方法。如此设置,能够对用户进行更加精准的语音答复以便更好的满足用户的需求。
  • 试听音乐的确定方法、装置、设备及存储介质-202211435476.9
  • 蔡勇;吴争光;姚梦珂;郑夏妍;杨翊;张昱;戴鹏;周剑明;柯腾辉 - 中国联合网络通信集团有限公司
  • 2022-11-16 - 2023-03-07 - G06F16/632
  • 本申请关于一种试听音乐的确定方法、装置、设备及存储介质,涉及音频处理技术领域。该方法包括:获取目标音乐的多个人声片段;确定每个人声片段的平均响度差值;在多个人声片段中存在至少一个第一人声片段的情况下,从至少一个第一人声片段和多个人声片段中的首个人声片段中确定目标人声片段;第一人声片段满足第一预设条件:第一人声片段的平均响度差值大于或者等于第一阈值,在目标音乐中第一人声片段之前第一预设数量的人声片段的平均响度差值与第一人声片段之后第二预设数量的人声片段的平均响度差值均小于第二阈值;根据目标人声片段,确定目标音乐的试听音乐。本申请用于高效设置试听音乐,同时提升用户体验。
  • 音乐筛选方法、装置、设备、存储介质及程序产品-202110843309.7
  • 刘鼎;靳潇杰;王妍;宫伟博 - 脸萌有限公司
  • 2021-07-26 - 2023-02-03 - G06F16/632
  • 本申请实施例提供一种音乐筛选方法、装置、设备、存储介质及程序产品,该方法包括:获取至少一张图像和至少一个待选音乐;根据预先设定的N个图像分类标签,确定至少一张图像对应图像分类标签的分析结果,N为大于或等于1的整数;根据至少一张图像和至少一个待选音乐,确定每个待选音乐的属性信息;根据分析结果和每个待选音乐的属性信息,在至少一个待选音乐中确定与至少一张图像匹配的目标音乐。本申请实施例提供的音乐筛选方法、装置、设备、存储介质及程序产品能够用于提高目标音乐与至少一张图像的匹配度。
  • 基于模糊强化学习的销售语音推送决策方法-202211353575.2
  • 杨艺;贺广涛 - 无锡来龙去脉科技有限公司
  • 2022-11-01 - 2023-01-03 - G06F16/632
  • 本发明公开了基于模糊强化学习的销售语音推送决策方法,将当前语音内容情感量化值在语句模糊变量值阈上的隶属度组成状态空间,将所有推送语音信息组成动作空间;计算当前时刻状态空间中任一状态值执行动作空间中任一动作变量时的回报值;根据Q‑learning算法,得到状态空间中任一状态值执行动作空间中任一动作变量的Q值,选取最大Q值对应的动作变量为当前语音内容的推送语音信息。本发明的优点在于在电话销售过程中,对客户表达信息进行模糊建模,从而确定较为精确的客户需求;同时采用强化学习原理,设计语音推送内容的智能决策方法,针对客户的模糊的语言内容、感情色彩,推送合理的语音内容,提高电话销售的智能化水平,提高语音机器人的智能化水平。
  • 音频内容审核方法、装置和软件部署方法-202211020856.6
  • 王伟喆;焦南凯;马金龙;吴文亮;盘子圣;邓其春;黎子骏;张政统;曾锐鸿;熊佳;黄祥康;兰翔;徐志坚;谢睿;陈光尧 - 广州趣丸网络科技有限公司
  • 2022-08-24 - 2022-12-20 - G06F16/632
  • 本申请提供了一种音频内容审核方法、装置、软件部署方法、存储介质和计算机设备。该音频内容审核方法包括:将音频内容作为待审核音频输入关键词识别模型,得到待审核音频的置信度;置信度越高,则待审核音频中包含关键词的概率越大;在置信度属于第一置信度区间的情况下,判定待审核音频违规,禁止待审核音频发布;在置信度属于第二置信度区间的情况下,将待审核音频发送至审核端进行人工复核;第二置信度区间中的置信度均小于第一置信度区间中的置信度;在置信度属于第三置信度区间的情况下,判定待审核音频合规,允许待审核音频发布;第三置信度区间中的置信度均小于第二置信度区间中的置信度。该方法减少人工审核的工作量,提高了审核效率。
  • 一种用于优化生成呼叫中心服务的系统-202211069030.9
  • 吕红楠 - 深圳市容大数字技术有限公司
  • 2022-09-02 - 2022-11-29 - G06F16/632
  • 本发明提供一种用于优化生成呼叫中心服务的系统,包括:语音识别优化模块,用于将用户语音与语音数据库中的现有语音进行对比分析,优化生成语音数据库;呼叫流程优化模块,用于监测分析呼叫应答环节的阶段用时,优化生成自适应交互服务流程;服务质量优化模块,用于根据用户的呼叫服务反馈结果,优化生成服务质量评估机制。本发明通过优化语音数据库、呼叫服务流程和服务质量评估机制,可提高呼叫中心服务中的用户语音辨别度,提高呼叫服务流程的流畅程度,并提高服务质量评估的灵活性和准确性。
  • 分布式声纹检索方法及系统-202211021152.0
  • 张星东;招梓枫;丁卓 - 南京龙垣信息科技有限公司
  • 2022-08-24 - 2022-11-18 - G06F16/632
  • 本方案涉及一种分布式声纹检索方法及系统。所述方法包括:中心服务器训练声纹编码器并发给各个分布式存储端;各个分布式存储端构建本地声纹底库,并构建底库矩阵;中心服务器接收声纹查询数据,并根据声纹查询数据构建查询矩阵并广播至各个分布式存储端;各个分布式存储端接收查询矩阵,根据查询矩阵与底库矩阵进行声纹检索计算,得到打分矩阵并发送给中心服务器;中心服务器根据打分矩阵确定与声纹查询数据对应的说话人声纹检索结果。通过将声纹底库数据采用分布式存储的方式存储在各个存储端中,并通过查询矩阵和打分矩阵进行声纹查询,当存在大规模检索数据时,通过分布式存储端进行辅助声纹查询可以提高声纹检索的效率。
  • 一种基于音频技术的转动机械健康及故障特征识别方法-202210828173.7
  • 吴杰 - 西安电之杰信息科技有限公司
  • 2022-07-14 - 2022-10-25 - G06F16/632
  • 本发明公开了一种基于音频技术的转动机械健康及故障特征识别方法,涉及设备运行检测领域,包括以下步骤S1:实地采集转动机械声纹信息建立数据库;S2:构造训练特征神经网络模型,建立数据处理平台,综合统筹遥信、遥测、遥感数据、声学时序数据;S3:实地部署若干音频采集器采集数据;S4:数据导入特征神经网络模型;S5:特征识别,异常示警;S6:异常数据归档,数据库修正。将音频信息导入特征神经网络模型,健康及故障特征识别,检测转动机械的运行情况,同时对异常示警进行收集对数据库进行修正,大批量数据实时进行计算和判断,减少故障发生后检测响应时间,自动监控采集、自动运行状态分析、自动预警,整个过程无需工作人员进入危险空间。
  • 加密语音的检索方法、装置、电子设备及存储介质-202210734067.2
  • 黄石磊;蒋志燕;陈诚;廖晨;冯湘 - 深圳市北科瑞声科技股份有限公司
  • 2022-06-24 - 2022-10-14 - G06F16/632
  • 本公开实施例涉及一种加密语音的检索方法、装置、电子设备及存储介质,上述方法包括:获取检索音段,其中,上述检索音段为用于进行检索的语音片段;将上述检索音段分割为音节序列;采用哈希算法,生成上述音节序列中的各个音节的哈希值,得到目标哈希序列;从预先确定的至少一个哈希序列中,确定与上述目标哈希序列相匹配的哈希序列,其中,上述至少一个哈希序列中的每个哈希序列与一个加密音段相对应;将与所确定的哈希序列相对应的加密音段,确定为检索结果。由本方案,可以提高检索加密语音的速度和准确度。
  • 一种情景对话训练方法、装置、可读存储介质及终端设备-202210840910.5
  • 方思 - 东莞市步步高教育软件有限公司
  • 2022-07-18 - 2022-10-11 - G06F16/632
  • 本申请属于计算机辅助教育技术领域,尤其涉及一种情景对话训练方法、装置、计算机可读存储介质及终端设备。所述方法包括:获取终端设备的定位位置,并确定与定位位置对应的目标场所信息;在预设的情景对话数据库中查找与目标场所信息对应的目标情景对话数据子库;其中,情景对话数据库中包括各个情景对话数据子库,每个情景对话数据子库对应于一个指定的场所信息;基于目标情景对话数据子库中存储的各个用户的历史对话语句进行情景对话训练。在本申请中,可以通过定位来确定目标场所信息,并查找到与之对应目标情景对话数据子库,使用其中的历史对话语句来与当前用户进行情景对话训练,从而摆脱了对于时间的限制,便于用户随时开展外语角活动。
  • 针对异地恋情侣的交流方法、装置、计算机及存储介质-202110618992.4
  • 岳威;方若玉 - 安徽大学
  • 2021-06-03 - 2022-09-23 - G06F16/632
  • 本发明涉及针对异地恋情侣的交流方法、装置、计算机及存储介质,种针对异地恋情侣的交流方法,包括以下步骤:S11、第一终端响应于注册命令操作,并向第二终端发送建立匹配关系指令;S12、第二终端接收所述匹配关系指令,建立匹配关系;S13、当第一终端与第二终端建立匹配关系时,并获取当前时间,当前时间判断为晚安模式或者早安模式。本发明中,首先情侣通过彼此的第一终端、第二终端简历匹配关系,第二终端基于该指令来控制投影灯的灯光,通过不同的指令显示不同的灯光营造良好的氛围,解决了现有的异地恋情况只能靠枯燥的文字进行表达情感,通过文字与灯光相互配合营造出良好的氛围,能够更有效地维持情侣之间的感情。
  • 基于人工智能的音乐推荐方法、装置、存储介质-202210360368.3
  • 司世景;王健宗;朱智韬 - 平安科技(深圳)有限公司
  • 2022-04-07 - 2022-07-08 - G06F16/632
  • 本发明公开了一种基于人工智能的音乐推荐方法、装置、存储介质,方法包括:获取目标用户的历史音乐信息,历史音乐信息包括关键词信息和音频信息;对音频信息进行特征提取,得到MFCC特征信息;根据关键词信息从预设的推荐结果池中获取至少两个目标推荐结果;获取预先训练好的第一图卷积模型,将MFCC特征信息输入至第一图卷积模型,得到音乐偏好信息;根据音乐偏好信息确定至少两个目标推荐结果的排序,并输出排序结果。本发明利用历史音乐信息对应的MFCC特征信息作为图卷积模型的输入,相较于现有技术通过对音乐信息随机初始化作为图卷积网络的学习嵌入的方案,本方案能够保留不同音乐的特征信息,从而提高通过图卷积模型实现音乐推荐的准确性。
  • 一种普通话教学训练装置-202210071974.3
  • 魏博;魏巍 - 魏博
  • 2022-01-21 - 2022-05-13 - G06F16/632
  • 本发明公开了一种普通话教学训练装置,涉及普通话教学技术领域。一种普通话教学训练装置,包括机壳、麦克风和固定架,机壳与连接块相焊接,连接块与固定架固定连接,机壳一侧可拆卸安装有固定结构,机壳的另一侧设置有音量键。本发明通过T型板、挂件和支杆构成的固定结构,本装置可通过挂绳穿过挂件悬挂本装置,并且通过固定块通过固定旋钮插入固定孔来固定T型板的结构设置,不使用本装置携带时,可旋松固定旋钮,再将T型板滑出固定块,从而便于携带本装置,具有实用性,两个支杆能够很好地支撑本装置在桌上,解决了现有的普通话教学训练装置不方便学生携带,不可悬挂,或者将装置放在桌上的问题。
  • 一种基于wav2vec的语气词插入的语音交互方法及系统-202210161459.4
  • 李立峰;姜兴华;虞赵阳 - 杭州一知智能科技有限公司
  • 2022-02-22 - 2022-05-13 - G06F16/632
  • 本发明提出了一种基于wav2vec的语气词插入的语音交互方法及系统,属于人工智能、语音识别技术领域。该方法中,训练中文语音环境下的wav2vec预训练模型;获取用户通话音频并标注语气词插入位置,作为音频语料;将音频语料进行切割,对每一个切割后的语音块设置插入标签或者不插入标签,将每一个带有标签的语音块作为一个样本,构成训练样本集;构建由wav2vec预训练模型和分类器组成的音频分类模型并进行训练,利用训练好的音频分类模型判断在人机语音交互过程中是否需要插入语气词,稳定性高,避免了随机插入的突兀性,无需依赖专业人员设计复杂的规则,准确性高。
  • 生成劝阻话术的方法、装置、设备及存储介质-202111592324.5
  • 冯大航;陈孝良 - 北京声智科技有限公司
  • 2021-12-23 - 2022-05-10 - G06F16/632
  • 本发明公开了一种生成劝阻话术的方法、装置、设备及存储介质,所述方法包括:获取话术大脑模型;基于智能设备获取目标用户的需求音频;所述话术大脑模型基于所述需求音频进行查找,获取与所述目标用户匹配的目标劝阻话术;基于所述智能设备将所述目标劝阻话术输出至所述目标用户。本发明的技术方案获取了大量的原始劝阻音频,可以对民警的劝阻话术进行合理充分地利用;此外,本发明的实施例建立了话术大脑模型,可以实现机器人等智能设备基于用户的需求音频更为灵活、更为有针对性输出相应的目标劝阻话术;同时,基于声音合成的方法对目标劝阻话术进行处理,使得机器人等智能设备输出更为人性化的语音,进而更好地实现防诈骗的目的。
  • 一种资源搜索方法及电子设备-202111536169.5
  • 夏和奇;曾轶 - 咪咕音乐有限公司;咪咕文化科技有限公司;中国移动通信集团有限公司
  • 2021-12-15 - 2022-03-25 - G06F16/632
  • 本申请公开了一种资源搜索方法及电子设备,涉及计算机处理技术领域,以解决现有资源搜索方法在一些场景下不能良好满足用户需求的问题。该方法由终端执行,包括:获取第一节奏信息,所述第一节奏信息是根据用户的输入确定的,或者是从所述终端当前播放资源中提取的,所述第一节奏信息包括资源中的词持续时间和相邻词之间的停顿时间;获取与所述第一节奏信息匹配的目标资源。这样,通过获取用户输入的节奏信息或者主动提取当前播放资源中的节奏信息,来搜索与当前节奏信息匹配的目标资源,从而使得资源搜索功能更为丰富和便捷,且能够很好地满足用户在想要搜索一首不记得歌曲名称、不便于进行文字搜索或哼唱意愿较低等场景下的资源搜索需求。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top