[发明专利]一种基于概念语义基元的文摘自动生成方法有效
申请号: | 201410309528.7 | 申请日: | 2014-06-30 |
公开(公告)号: | CN105320642B | 公开(公告)日: | 2018-08-07 |
发明(设计)人: | 张全;袁毅;韦向峰;丛培民;杜义华;池毓焕 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;吕爱霞 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概念 语义 文摘 自动 生成 方法 | ||
本发明涉及一种基于概念语义基元的文摘自动生成方法,包含:利用概念语义基元作为语义计算和文档内容表示的载体,通过对文档语义内容的汇聚,获取文档内容的语义重心,然后根据语义重心选择代表文档内容的文摘句构成文档摘要的自动生成方法。本发明利用潜在狄利克雷分配(LDA)模型对文档主题进行建模,实现主题生成处理,按照主题重要度选择文摘句。在计算过程中引入概念层次网络符号,并利用其中的语义层次关系实现对语义信息的归并,改善以词语作为语义计算单元而造成的数据稀疏问题。
技术领域
本发明涉及自然语言文本智能分析领域,特别涉及一种基于概念语义基元的文摘自动生成方法。
背景技术
信息技术的飞速发展,互联网进入人们的日常生活。信息传输的瓶颈已经打破,人们可以方便地接触到海量的信息内容。如何从中快速了解信息内容,已经成为当前智能信息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀,用户面对大量的文档信息,迫切需要能够有效处理这些文档信息的工具。自动文本摘要,是以自然语言处理技术为基础,通过对文档内容进行分析处理,自动生成文档摘要内容的智能文本处理应用技术。自动文本摘要可以为用户提供文档内容的概要性描述,对文档文字进行浓缩,便于用户在有限的时间内了解更多的文档信息。特别是随着移动互联网的普及,经过文摘浓缩的文字内容更适合在诸如手机、平板电脑等移动设备上呈现和展示,方便用户随时随地了解信息。
计算机自动文摘处理一般采用摘录的方式生成文本摘要。这一处理方式将文档看作是其组成句子的集合,对原文档中的所有句子按一定的方式计算重要程度的权值,然后按照权值的高低降序排列,选择权值高的若干句子作为文摘句。尽管这种方式自动形成的摘要常常会缺乏连贯性,但这一结果对用户了解该文档主要内容,判断是否有进一步阅读价值有帮助,因此已为用户所接受。摘录式自动文摘更注重于摘录语句的内容是否有代表性,而较少考虑生成摘要的连贯性,语句的简洁等其他方面的因素。
摘录式自动文摘从方法上可以分为有监督的处理方法和无监督的处理方法。有监督的方法基于大量人工制作的摘录文摘,利用机器学习算法,对于文摘句的特征进行学习训练,利用获得的参数进行文摘句的选择。因此,这种方法对于与训练文摘相似的文档,往往能够取得较好的效果,但对于其他文档则不一定能产生令人满意的结果。另外,当用户改变文摘的目的或文档的特性时,需要重新构建训练数据或重新训练模型。无监督的方法则不需要提供参考的文摘作为训练数据,它直接通过一定的准则计算句子的重要度权重来对句子进行排序并选择文摘句。在这类方法中主要采用基于词频信息计算语句权重的处理模型。有研究表明,词语出现的频度对于文档主要内容有重要的影响,文档中非常用词的相对频率可以较为准确的反映该词在文档内容中的重要程度,进而可以根据这些词语计算语句的权重。然而,基于词频信息的自动文摘在表示内容重要性时存在缺陷,由于缺乏考虑词语之间的关系,词语只是作为孤立的计算单元,因此对于深层的语义信息反映不够充分,不能很好的区分词汇之间的重要性。
为了改进处理方法,研究者进行了深入的研究。近年来在文本语义处理方面面向语言数据的浅层语义分析发展很快。这一处理技术以统计分布为基础,通过构造词语与主体之间的关系,描述文档主题的分布,形成了以词语概率权重表示的主题描述语义模型,建立了利用语言数据研究语义内容的新模式。这也为获取和表示文档语义内容提供了新手段,为摘录式自动文摘提供了新出处理思路――按照主题计算语句的重要程度:首先划分文档的主题,然后选择重要主题下重要的句子组成文摘。按照主题方式选择语句,一方面可以使文摘中的句子具有较少的冗余度,另一方面可以突显词语之间在主题分布上的关系,更好反映文档的内容。其中潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型在研究中得到广泛应用,取得较好的效果。这种处理方法已经应用在处理文档集合的多文档自动摘要中。需要指出的是,这类方法是以统计分析作为处理基础的,需要有比较充分的数据,才能反映出文档主题的分布规律来,而对于单个文档的摘要处理,往往会由于数据稀疏而难以达到预期的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410309528.7/2.html,转载请声明来源钻瓜专利网。