[发明专利]词典处理方法、处理装置、服务器和语音交互系统有效
申请号: | 202010565886.X | 申请日: | 2020-06-19 |
公开(公告)号: | CN111723162B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 裴育;周伟 | 申请(专利权)人: | 北京小鹏汽车有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/36;G06F8/658;G06F8/71 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 邵泳城 |
地址: | 100089 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词典 处理 方法 装置 服务器 语音 交互 系统 | ||
本发明公开了一种词典处理方法、处理装置、服务器和语音交互系统。词典处理方法用于服务器,词典处理方法包括:采集各个垂直领域的原始数据并转换原始数据为设定格式的中间数据;和根据中间数据生成全量领域词典的关系型数据库版本和非关系型数据库版本,其中关系型数据库用于存储全量领域词典的数据并可对其中的单条数据执行包括新增、修改和删除在内的任意一项操作,非关系数据库用于对全量领域词典的查询。本发明的词典处理方法,词典数据的涵盖范围广,可以覆盖到文本内容在不同垂直领域的精确语义含义,而且词典以数据库版本存在,可以提升词典的检索速度。
技术领域
本发明涉及信息处理技术领域,特别涉及一种词典处理方法、处理装置、服务器和语音交互系统。
背景技术
目前,人机交互的一个重要发展方向是语音交互系统。在相关技术中,语音交互系统中提取文本内容语义含义主要是基于命名实体识别(Named Entity Recognition,NER)技术和词典技术。NER技术只能识别文本内容中关键词的词性和词的通用含义,而且准确率不高,难以覆盖文本内容在不同垂直领域的精确语义含义。词典技术方案存在以下几方面问题:1、词典数据涵盖范围有限,只包含某一个或某几个垂直领域适用的词典数据;2、词典检索速度慢,难以适用于实时语音交互系统的语义理解要求等问题。
发明内容
本发明提供一种词典处理方法、处理装置、服务器和语音交互系统。
本发明实施方式的词典处理方法用于服务器,所述词典处理方法包括:
采集各个垂直领域的原始数据并转换所述原始数据为设定格式的中间数据;和
根据所述中间数据生成全量领域词典的关系型数据库版本和非关系型数据库版本,其中,关系型数据库用于存储所述全量领域词典的数据并可对其中的单条数据执行包括新增、修改和删除在内的任意一项操作,非关系数据库用于对所述全量领域词典的查询。
在某些实施方式中,所述原始数据包括第一原始数据和第二原始数据,所述第一原始数据是通过各个垂直领域数据提供商的开放接口所采集,所述第二原始数据是已存储的数据。
在某些实施方式中,所述设定格式包括词典类型、词条的归一词和词条的同义词。
在某些实施方式中,根据所述中间数据生成全量领域词典的关系型数据库版本和非关系型数据库版本,包括:
对所述中间数据进行抽取加载转换处理以生成所述全量领域词典的关系型数据库版本和非关系型数据库版本。
在某些实施方式中,所述词典处理方法还包括:
对所述全量领域词典的关系型数据库版本和非关系型数据库版本进行实时增量更新。
在某些实施方式中,对所述全量领域词典的关系型数据库版本和非关系型数据库版本进行实时增量更新,包括:
根据变更消息,操作所述全量领域词典的关系型数据库版本,所述变更消息包括同义词;
基于所述同义词,全局查询所述全量领域词典的关系型数据库版本的相关记录并得到查询结果;
将所述查询结果生成新的键值对;
将所述新的键值对同步到所述全量领域词典的非关系型数据库版本。
在某些实施方式中,所述词典处理方法还包括:
使用所述全量领域词典的关系型数据库版本和非关系型数据库版本进行自然语言理解处理。
在某些实施方式中,使用所述全量领域词典的关系型数据库版本和非关系型数据库版本进行自然语言理解处理,包括:
获取输入的文本内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小鹏汽车有限公司,未经北京小鹏汽车有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010565886.X/2.html,转载请声明来源钻瓜专利网。