[发明专利]混合的深度神经网络CNN和RNN的主题句识别方法在审
申请号: | 201710047031.6 | 申请日: | 2017-01-20 |
公开(公告)号: | CN106776580A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张志勇;任江涛 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/02 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明方法利用搜狗实验室中的全网新闻数据集训练出词向量,使得每个相近词在空间上的距离相近;并从百度旅游网站和蚂蜂窝旅游网站各爬取600篇的游记,对游记分割成句子,将这些句子分为训练集和测试集并按照82的比例进行划分,然后对于训练集根据信息熵和互信息的计算公式计算出每个词的信息熵值和互信息值;然后,对于训练集中每个句子根据计算出的词向量和计算出的信息熵和互信息来构建特征,作为构建的混合深度神经网络CNN_RNN的输入,获取到参数;同时,对测试集中每个句子根据计算出的词向量和计算出的信息熵和互信息来构建特征,输入到CNN_RNN中,利用得到的参数计算出类别,得出标准结果和预测的误差,评价其性能。 | ||
搜索关键词: | 混合 深度 神经网络 cnn rnn 主题 识别 方法 | ||
【主权项】:
一种混合的深度神经网络CNN和RNN的主题句识别方法,其特征在于,包括以下步骤:S1:利用搜狗实验室中的全网新闻数据集训练出词向量,使得每个相近词在空间上的距离相近;S2:从百度旅游网站和蚂蜂窝旅游网站各爬取600篇的游记,对游记分割成句子,将这些句子分为训练集和测试集并且按照8:2的比例进行划分,然后对于训练集根据信息熵和互信息的计算公式计算出每个词的信息熵值和互信息值;S3:对于训练集中每个句子根据S1计算出的词向量和S2计算出的信息熵和互信息来构建特征,作为构建的混合深度神经网络CNN_RNN的输入,获取到参数;S4:同样的对测试集中每个句子根据S1计算出的词向量和S2计算出的信息熵和互信息来构建特征,输入到深度神经网络CNN_RNN中,利用S3得到的参数,计算出其类别,得出标准结果和预测的误差,评价其性能。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710047031.6/,转载请声明来源钻瓜专利网。