[发明专利]混合的深度神经网络CNN和RNN的主题句识别方法在审
申请号: | 201710047031.6 | 申请日: | 2017-01-20 |
公开(公告)号: | CN106776580A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张志勇;任江涛 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/02 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混合 深度 神经网络 cnn rnn 主题 识别 方法 | ||
技术领域
本发明涉及文本挖掘领域,更具体地,涉及一种混合的深度神经网络CNN和RNN的主题句识别方法。
背景技术
近年来,随着经济的发展,越来越多的人开始去旅游来丰富自己的精神生活。确实,旅游,不仅可以放松一下,让我更加快乐还可以拓展视野。根据国家旅游局公布的数据显示,旅游业对GDP的贡献率已经超过10%。目前,旅游已经成为日程生活中很重要的一部分。在因特网时代,许多人开始通过微博,社交网站以文本的形式分享旅游经验。
一般来说,游记中大部分在描述旅行中的所见所闻并发表自己对这些景点的看法以及对后来的游客一些建议,但是还是会参差一些无关的内容。能否识别出这些主题句子,对于成功的挖掘出旅游中的知识是非常重要的。因为这些无关的内容会对结果造成一定的噪音影响。
例如:在蚂蜂窝中的描述广州的游记中,有人写到:“感谢你的关注和支持,如果觉得本篇文章值得分享,请推荐给你的朋友或微信群,以及分享在自己的朋友圈里”。这很明显描述的不是旅游中的所见所闻,自然也就不是主题句,这些句子无疑对对文本分析相当于加入一定的噪音。再如,有人写到:“入夜的花城广场灯火通明,可眺“小蛮腰”五彩斑澜,比白天更加迷人”。这很明显就是主题句,其中描述着广州的珠江新城的夜景。正是这些主题句的内容才是关注的重点。
在进行旅行推荐的时候,游客们在广州的游记中并不会仅仅提到广州,还会提到在广州周边的城市,例如:香港,珠海,深圳等城市的所见所闻,对这些景点的描述和评论的去除对后来的知识发现有着重要的意义。因为LDA模型的缺点之一就是在于其对噪音比较敏感。也就是说,噪音对结果的影响非常大。
因此,在游记中,大部分的句子都是阐述旅行中的景点和对这些景点进行评论的句子,如何正确的识别出这些主题语句是当前的一个挑战性的课题。
发明内容
本发明提供一种更好效果的混合的深度神经网络CNN和RNN的主题句识别方法。
为了达到上述技术效果,本发明的技术方案如下:
一种混合的深度神经网络CNN和RNN的主题句识别方法,包括以下步骤:
S1:利用搜狗实验室中的全网新闻数据集训练出词向量,使得每个相近词在空间上的距离相近;
S2:从百度旅游网站和蚂蜂窝旅游网站各爬取600篇的游记,对游记分割成句子,将这些句子分为训练集和测试集并且按照8:2的比例进行划分,然后对于训练集根据信息熵和互信息的计算公式计算出每个词的信息熵值和互信息值;
S3:对于训练集中每个句子根据S1计算出的词向量和S2计算出的信息熵和互信息来构建特征,作为构建的混合深度神经网络CNN_RNN的输入,获取到参数;
S4:同样的对测试集中每个句子根据S1计算出的词向量和S2计算出的信息熵和互信息来构建特征,输入到深度神经网络CNN_RNN中,利用S3得到的参数,计算出其类别,得出标准结果和预测的误差,评价其性能。
进一步地,所述步骤S1的具体过程如下:
S11:首先下载搜狗实验室中全网新闻数据集,并且对数据集进行清洗,得出每条完整的新闻;
S12:对数据集进行分词,写入到文件中,词与词之间用“/t”分开,新闻和新闻之间用”/n”分开;
S13:调用python的gensim中的word2vec工具,对词进行无监督的训练,得到其词向量表示。
进一步地,所述步骤S2的具体过程如下:
S21:对于训练集中每个句子进行分词,去除停用词,对每个句子得到一个词的集合,统计出主题句中每个词的出现频数和非主题句中每个词的出现频数;
S22:计算出每个词的信息熵值IG,公式计算如下:
其中,K是系数,n代表类别个数,pi代表每个词出现在类别i的概率,同时,设定频数阈值,对于频数小于3的词,不考虑其值;
S23:计算出每个词的在不同类别中互信息值,公式计算如下:
对于“愉悦”这个词来说,p(愉悦,主题句)表示愉悦出现在主题句中的次数,同理p(愉悦,非主题句)代表“愉悦”这个词出现在非主题句中的次数;
对每个词的PMI值计算公式如下:
PMI(愉悦)=PMI(愉悦,主题句)/PMI(愉悦,主题句)。
进一步地,所述步骤S3的具体过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710047031.6/2.html,转载请声明来源钻瓜专利网。