[发明专利]面向中文文本的语义理解系统及方法在审
申请号: | 201710671230.4 | 申请日: | 2017-08-08 |
公开(公告)号: | CN107577662A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 赵群飞;赵博轩;何弢 | 申请(专利权)人: | 上海交通大学;安徽酷哇机器人有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 上海汉声知识产权代理有限公司31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 中文 文本 语义 理解 系统 方法 | ||
技术领域
本发明涉及自然语言处理领域,具体地,可以广泛应用于无人驾驶车、智能家居、机器人等任何需要人机语音交互及其语义理解的智能终端。
背景技术
随着社会经济与科学技术的发展,人类已经走进人工智能时代,无人驾驶车、智能手机、智能电视、服务机器人等一大批智能产品已经走进人们的生活,改变人类的生活方式,而为了使智能产品更好的为人类服务,用户需要实时与其进行交互,并需要智能终端理解用户的意图。在众多交互方式中,基于语音的交互方式是最便捷、最方便、也是应用最广泛的交互方式,语音交互已成为人与智能产品最主要的交互方式。而基于语音交互的系统主要包括语音识别和语义理解三大部分,目前语音识别方面已经有很多成熟的论文及方法,且国内诸多公司都已推出了自己的语音识别产品,并有良好的应用效果。而语义理解技术则存在较多难点,怎样让机器对语音识别得到的文本进行理解,从而使机器理解人类的意图,成为了交互过程中的关键环节,进行对语义理解的研究有着重要意义。
经检索发现,目前针对中文文本的语义理解方法可分为两类,基于统计学的方法与基于深度学习的方法。基于统计的方法如发明专利(公告号:CN104408095A)是一种改进的KNN文本分类方法,其首先生成训练集的向量空间模型,将样本空间按类型定义为多个球形区,测试时再依距离进行判断类别,此方法适合高特征维度的文本空间分类,但当类别数量增加时,空间分类面的分类精度会随之下降;发明专利(公告号:CN105912716A)是一种基于SVM的文本分类方法,其引入了扩展词的概念,克服了短文本特征稀疏的问题,但其在大规模语料库情况下会产生维度过大的问题;基于深度学习的方法如发明专利(公告号CN104834747A)是一种基于词向量与卷积神经网络的分类方法,其将词映射到空间上一点并用其之间距离来衡量词间关系,并用卷积神经网络对其进行特征提取,但其在处理复杂意图文本或长语句时,会产生上下文信息丢失的情况。近些年基于深度学习的意图理解或文本分类方面的论文也越来越多的,Yann LeCun于Character-level Convolutional Networks for Text Classificat ion中提出一种基于字符的新文本表征方法,与之前以词为单位的特征方法所不同的是,序列将每一个字符视为单元输入,但这种方法在应用于中文时有其局限性,因为中文的拼音是以声韵母两部分组成,而不是单纯的单字符,以“导航”为例,将其视为“d ao 1 h ang 2”的组合比“d a o 1 h a n g 2”的构成更为科学,其中数字代表声调。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种面向中文文本语义理解系统及方法。
根据本发明提供的一种面向中文文本语义理解系统,包括:
文本预处理模块:对接收到的文本进行分词,将分词后的文本转化为拼音序列;
深度学习文本分类模型:将拼音序列作为已训练好的深度学习文本分类模型的输入,深度学习文本分类模型包括:
输入层:接收所述文本预处理模块得到的拼音序列,将拼音序列依照字符表映射成稀疏向量,拼音序列中所有映射后的稀疏向量构成该拼音序列的稀疏表示矩阵;
卷积层:采取不同窗口大小、不同权值的卷积核矩阵对稀疏表示矩阵进行特征提取,获取文本中每个词的特征序列;
池化层:对得到的每个词的特征序列取最大池化,得到对应词的拼音表示的特征;
GRU层:利用GRU递归神经网络单元对池化后的特征进行处理,得到GRU隐层单元;
全连接层:对GRU隐层单元进行全连接计算隐层输出;
输出层:对隐层输出进行分类得到文本的预测类别。
优选的,所述字符表为根据汉语拼音声韵母成分所定义的57维字符表,包括:a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t、u、v、w、x、y、z、0、1、2、3、4、5、6、7、8、9、ai、ei、ao、ou、ui、ie、ue、an、en、in、un、ang、eng、ing、ong、zh、ch、sh、$、_以及*。
优选的,所述卷积层与所述池化层的计算式为:
其中表示文本序列中第i个词xi中第j到j+h-1个字符映射构成的矩阵,w为权值矩阵,b为偏置,h表示窗口大小;
假设词xi中字符经映射后长度为l,词xi得到的特征序列为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学;安徽酷哇机器人有限公司,未经上海交通大学;安徽酷哇机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710671230.4/2.html,转载请声明来源钻瓜专利网。