[发明专利]一种对话文本情感摘要的生成方法在审
申请号: | 201310693047.6 | 申请日: | 2013-12-17 |
公开(公告)号: | CN103617158A | 公开(公告)日: | 2014-03-05 |
发明(设计)人: | 李寿山;林莉媛;王中卿;周国栋 | 申请(专利权)人: | 苏州大学张家港工业技术研究院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/21 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 唐灵;常亮 |
地址: | 215600 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对话 文本 情感 摘要 生成 方法 | ||
技术领域
本发明涉及自然语言处理领域,特别是涉及一种对话文本情感摘要的生成方法。
背景技术
21世纪以来,随着互联网的飞速发展,人们越来越多地在网络上表达自己的观点与情感,这类文本往往以商品评论、论坛评论、博客的形式存在,并且大部分文本能很好的反映人们的看法和意见。而通过人工的方法来分析这些海量文本中的情感信息需要耗费大量的时间,人力和物力,在这种背景下,情感分析技术应运而生,并在自然语言处理研究领域得到了广大研究者的关注,具有很大的应用价值。
在现有的大多数的情感分析中,主要关注于评论语料。而摘要也应用到各个领域,如:新闻文章、科技文章和语音领域,语音领域包括广播新闻、会议、对话、和演讲。然而,对情感摘要的研究还比较少。
情感摘要旨在于对有情感的文本进行浓缩提炼生成带有情感的摘要。而现有的情感摘要主要集中在对评论语料的研究。随着对话记录的大量增加,作用于对话的情感摘要变得十分的迫切。对话文本的情感摘要具有其自己的特征:1.需要关注对话的主题相关性和情感相关性;2.对话的结构对摘要的选取起到重要的作用;3.对话文本中存在许多毫无信息量的句子,如:“Uh”,“Yeah”,“Well”等。虽然这些特征在现有的研究中被提及过,但并没有很好的被处理,而这很大的影响了对话文本情感摘要的效果。
因此如何处理对话文本中的上述问题,已经成为该种语料结构中获取情感摘要的新课题。
发明内容
有鉴于此,本发明的目的在于提供一种对话文本情感摘要的生成方法,以减少人工的工作量及更好的解决对话文本中的主题相关性和情感相关性。
根据本发明的目的提出的一种对话文本情感摘要的生成方法,该对话文本为英文对话文本,包括:
1)将英文对话文本进行分句;
2)将步骤1)中获得的句子进行分词处理,获取单词特征;
3)抽取步骤2)中具有情感词的句子,标记成情感特征,并根据单词特征和情感特征构建句子的特征向量;
4)采用余弦算法计算向量间的相似度;
5)根据所得相似度计算句子间的转移概率;
6)采用PageRank算法计算句子的权值;
7)根据所述句子的权值进行排序,抽取句子,获得摘要。
优选的,所述步骤1)中是按所述英文对话文本中的结束标志进行分句,所述结束标志为句话、感叹号、问号或省略号中的一种。
优选的,所述步骤2)中分词处理是据英文句子的空格,将一个句子分成各个单词。
优选的,所述步骤3)具体包括步骤:
3.1)提供一情感词词典;
3.2)将句子中的单词与所述情感词词典进行匹配查找,以检测句子中的情感词,当检测到情感词,在该句子后增加“OPINION”特征作为情感特征;
3.3)将所获得的单词特征和情感特征结合构建句子的特征向量。
优选的,所述步骤4)中余弦算法计算向量间的相似度具体为:
根据公式进行计算,其中,所述f(i→j)表示两个向量间的相似度,ui和uj表示两个句子的特征向量。
优选的,所述步骤5)具体为:
根据公式进行计算,其中,p(i→j)表示句子i到句子j的转移概率,f(i→j)和f(i→k)为两个句子特征向量间的相似度。
优选的,所述步骤6)具体为:
根据公式进行计算,其中,所述S(uj)表示句子j的权值,所述μ=0.85为惩罚因子,p(j→i)为上述句子间的转移概率。
优选的,所述步骤7)具体包括:
7.1)按照所述句子的权值S大小,分别选择出符合预设数量,且权值较大句子;
7.2)由选择的所述的句子组成对话文本的情感摘要。
与现有技术相比,本发明提供的对话文本情感摘要生产方法,不需要人工去生成摘要,节省了人力物力,同时,提高了生成对话文本情感摘要的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种对话文本情感摘要生成方法的工作流程示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学张家港工业技术研究院,未经苏州大学张家港工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310693047.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于Hadoop的微博热点话题提取方法
- 下一篇:治疗失眠的中药