[发明专利]一种护理用机器人的自然语言处理系统及其方法在审
申请号: | 202010197009.1 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111430044A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 虎婕;路祥毅;楚淑娴;杨静;肖琬 | 申请(专利权)人: | 郑州大学第一附属医院 |
主分类号: | G16H80/00 | 分类号: | G16H80/00;G06F16/33;G06F40/289;G06F40/30;G10L15/22;G10L17/24 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 王新爱 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 护理 机器人 自然语言 处理 系统 及其 方法 | ||
本发明公开了一种护理用机器人的自然语言处理系统及其方法,可以快速应用在Raspberry Pi、(Ubuntu)Linux和Mac OS X等多种系统上;结合实际情况设计了基于C/S架构的工作模式,服务器端负责运行模型,而终端设备只需运行语音交互模块和数据交换模块。此结构大大降低了终端设备的硬件成本,加速了程序的运行,有助于提高用户体验,且使用此机构开发可为后期拓展终端设备提供极大的便利。创新性地提出了基于子字信息的句向量语义计算模型,并通过维基百科数据对模型进行预训练得到了子字信息的向量化表示。可随时随地地为用户提供医护知识以及回答用户提出地健康问题。
技术领域
本发明属于自然语言处理领域,具体设计一种护理用机器人的自然语言处理系统及其方法。
背景技术
NLP(Natural Language Processing)是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。自然语言处理往往应用在智能问答领域,在随着人口增加,我国的医疗资源日益紧张,而医疗需求不断增长。利用人工智能辅助医生、提高医疗系统运转效率是发展的必由之路。
医疗问答的具体定义是:用户(患者)提出具体的问题,系统通过人工智能技术向用户提供相应答案。医疗问答同时也能满足用户的泛医疗需求,即用户对医疗知识、日常保健等医疗健康知识的获取。医疗问答可以更加精准地满足用户的需求,而不需要用户从大量信息中进行筛选。现有的医疗问答技术方案主要有以下三种:1)基于信息抽取,通过信息抽取获取关键词,再进行排序。2)基于知识图谱,通过构建实体及其关系的知识图谱,在图谱上进行推理回答问题。3)基于深度学习。基于深度神经网络建模,计算问答匹配程度。
上述方法均存在缺陷:基于信息抽取的方式只能匹配一些关键词,无法有效处理同义词、近义词,以及医疗术语的口语化表达,因此获得一种应用于医疗问答装置的护理用机器人的自然语言处理系统及其处理方法十分重要。
发明内容
本发明的目的是为了解决上述技术的不足而设计的一种护理用机器人的自然语言处理系统,包括:语音唤醒模块,利用特定的词语来进行唤醒,运行完整的自动语音识别来执行热词检测,从而使得系统在自动语音识别转录中获取特定的触发词;录音模块,用于在进行语音录制的同时,根据语音的特征判断是否结实语音;语音转写以及合成模块,根据语速、音调、音量、音频码率设置,将语音转写成文字形式;播放模块,将语音合成模块合成的语音进行转换播放。
语音唤醒模块采用Snowboy可指定唤醒词检测引擎;录音模块能够特征提取、训练并使用分类器、语音分割和内容关系可视化工作,例如pyAudio软件;还包括跨平台的、可通过网络工作的声音服务,用以解决系统不兼容,例如pulseaudio。
其中语音转写以及合成模块将转化成的文字形式进行数据分析处理,其中:数据来源部分,包括系统处理所需要的语言数据,由专业知识数据、日常数据以及生成数据;神经网络对话生成部分,利用分词工具进行分词,随后根据构建的日常对话数据生成句子;匹配问答部分,通过计算文本间的相似度可以实现对提问者的问题与问答库中的问题进行匹配,从而得到提问者可能想要的答案;匹配问答部分包括:词向量模型,对两个句子特征提取后得到向量进行向量积计算即可求得语义相似度;基于子字信息的句向量模型,对无法通过语义相似计算方法无法区别具有相同特征而序列不同的句子进行计算。
数据包括:
静态训练数据,包括日常聊天对话数据,医疗护理相关知识数据;动态预测数据,在问答服务系统存在着一些问题并没有答案,或者答案事件并没有发生,而这类问题是用户切实需要了解,并根据答案对做出未来规划的,以大规模、多种类的历史性数据进行学习,并对此事件未来的发生情况进行预测;动态爬取数据,对部分网络上已存在数据量大且格式较为固定的数据使用网络爬虫的方式获得,不将其添加入静态训练数据之中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学第一附属医院,未经郑州大学第一附属医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010197009.1/2.html,转载请声明来源钻瓜专利网。