[发明专利]一种融合话题属性和情感信息的文本数据观点摘要挖掘方法有效
申请号: | 201810165734.3 | 申请日: | 2018-02-28 |
公开(公告)号: | CN108287922B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 廖祥文;陈国龙;赵楠;杨定达 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 话题 属性 情感 信息 文本 数据 观点 摘要 挖掘 方法 | ||
本发明提供一种融合话题属性和情感信息的文本数据观点摘要挖掘方法,包括:对话题的文本语料集进行预处理;输入话题语料集和背景语料集;提取话题语料集的话题属性;将得到的话题属性添加情感极性,对句子向量化;将得到的话题属性作为评价对象,得出句子包含的情感属性特征,通过话题属性和情感分析方法将一个句子进行特征向量化;利用得到的话题属性集合、文本句子特征向量集合S构建三层图结构,把所有文本句子聚类;从类簇中挑选句子组成观点摘要,挑选得分高的句子组成观点摘要。本发明使得采用提取话题属性方法提取的话题属性更为精准,同样使其不仅仅应用与中文微博领域,更可以用于网站新闻、商品评论领域。
技术领域
本发明涉及文本摘要、情感分析领域,更具体地,涉及一种对中文微博语料的海量话题文本数据生成带有富含用户情感信息的简短的观点摘要,观点摘要能够准确地覆盖文本所讨论的重点内容,并能够应用于新闻摘要、商品评论分析等实际应用场景。
背景技术
当前,有很多技术方法可用于观点摘要领域的研究。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用KL散度、MMR方法对句子做一个相对的分数排序,通过分数排序得到观点摘要。其中这两种方法都忽略了更细粒度的文本话题属性,并没有在图结构中融合话题属性的细粒度情感信息,在一定程度上。
当前,国内外研究学者纷纷对此展开研究,提出了生成式的观点摘要模型和基于次模函数的观点摘要模型。其中,生成式观点摘要模型根据观点摘要的多样性、文本信息冗余性等要素来考虑理想的观点摘要,将文本句子分词,通过遍历组合的方式将所有的单词通过不同的组合生成新的句子或简短的文本,将最终符合要求的单词组合形式作为最终的观点摘要,该方法具有较好的效果,但算法求解的时间复杂度过高,对于较短的数据集都要花数倍其他方法的时间,同样无法应用在大数据背景下的实际场景。而基于次模函数的观点摘要方法通过次模函数性质,利用贪心算法保证得到的局部解可以不低于最优解的63%,其贪心算法考虑了多种要素的情况挑选句子,虽然实验效果相对较好,但手动构建语料本体树的方式并不适用于更为广泛的应用场景。
一般而言,观点摘要的两个基础性质是:1)保证得到的摘要覆盖话题文本主旨;2)得到的摘要覆盖富有情感色彩的话题主旨。不足的是,现有的多数图模型考虑利用文本句子和话题特征来构建图结构,并且通过整个文本句子的情感信息刻画观点摘要的情感信息,没有在图结构中融合话题属性的情感信息,没有考虑不同情感的话题特征是两个不同含义的主体,导致包含不同情感话题属性的句子被关联起来。因此,人们迫切希望能有一种更加高效准确的观点摘要研究方法,该方法通过实体抽取方法从源文本中提取话题属性单词作为文本主旨关键词,结合情感分析研究方法来研究每个句子中关于以话题属性为评价对象的情感信息,并将带情感信息的话题属性融入到图结构中。
发明内容
本发明的目的是解决从海量观点文本数据的抽取观点句子的问题,提出一种融合话题属性情感信息的观点摘要方法,从话题属性及其情感信息出发解决当前研究方法存在的问题,能够高效准确地得到话题文本的观点摘要,并且能够应用于更大规模数据集应用场景。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810165734.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息推荐方法及装置
- 下一篇:一种可视化接口数据智能提取系统及其设计方法