[发明专利]一种基于概念语义基元的文摘自动生成方法有效
申请号: | 201410309528.7 | 申请日: | 2014-06-30 |
公开(公告)号: | CN105320642B | 公开(公告)日: | 2018-08-07 |
发明(设计)人: | 张全;袁毅;韦向峰;丛培民;杜义华;池毓焕 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;吕爱霞 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概念 语义 文摘 自动 生成 方法 | ||
1.一种基于概念语义基元的文摘自动生成方法,所述方法包含:
步骤101)利用文档中语句的语义信息对文档主题进行LDA建模,获得语义主题模型;
步骤102)根据获得的语义主题模型,即LDA模型,进一步计算文档的语义重心,所述文档的语义重心指文档的“语句--主题分布”和“主题--概念语义基元分布”;
步骤103)根据语义重心的表述,选择若干语句作为文摘句进行输出;
所述步骤101)进一步包含:
步骤101-1)抽取输入文档的正文内容和标题;
步骤101-2)根据文档中的标点符号将抽取的正文内容划分为若干语句,且将标题作为一个独立的语句,进而得到文档的语句集合;
步骤101-3)为语句集合中的各语句增加序号信息和段标识信息,进而得到文档语句集合,其中,所述序号信息用于表示各语句属于文档的第几个句子;所述段标识信息用于表示各语句在一个段落中处于段首、段中还是段尾;
步骤101-4)对文档语句集合中的语句进行词语切分和概念语义基元符号映射,将各个语句中的词语与一个或若干个概念语义基元符号相对应,再对得到的概念语义基元符号进行层次分解,进而得到不同层次的概念语义基元符号的频次,最后将得到各个概念语义基元符号的频次特征输入潜在狄利克雷分配模型;
步骤101-5)通过潜在狄利克雷分配模型对输入信息的处理,进而得到语义主题模型;
所述步骤101-4)包括:
步骤101-4-1)对文档语句集合中的语句进行词语切分和概念语义基元符号映射,进而将各个语句与一个或若干个概念语义基元符号相对应;并过滤词语切分后得到的连词、介词,进而保留实词;
步骤101-4-2)从保留的实词中提取词语对应的、以概念层次网络符号表示的词语语义,计算概念语义基元符号的频次;
步骤101-4-3)根据概念语义基元符号的层次关系,得到词语对应的概念语义基元符号的父节点和祖先节点,自底向上将底层节点的频次信息添加到上层节点上;
步骤101-4-4)记录所有概念语义基元符号的频次信息,其中概念语义基元符号包括语句中词语对应的概念语义基元符号以及这些概念语义基元符号的祖先节点符号。
2.根据权利要求1所述的基于概念语义基元的文摘自动生成方法,其特征在于,所述步骤101-1)进一步包含:
步骤101-1-1)去除电子文档格式保存的文档中的结构化信息和版式信息,再提取文档的正文内容,保留文档内容中的自然段信息标记;
步骤101-1-2)去掉文档内容中的非连续语句内容,所述非连续语句内容包括:表格或注释;
步骤101-1-3)将文档按照标点符号分割为若干语句,得到的所有语句组成了正文内容。
3.根据权利要求1所述的基于概念语义基元的文摘自动生成方法,其特征在于,与主题模型相应的主题数目为K,所述的主题数目K的计算公式为:
上述K表示预设的主题个数,E(X)表示取X的整数部分;Na,Nd,Ns,Np分别表示摘要的字数,文档的字数,以及语句个数和段落个数。
4.根据权利要求1所述的基于概念语义基元的文摘自动生成方法,其特征在于,所述步骤102)采用Gibbs算法求解获得文档的“语句--主题分布”,该步骤进一步包含:
步骤102-1)利用Gibbs抽样算法进行参数估计,得到文档的语句集合中各语句在主题上的分布根据各语句在主题上的分布值获得各个主题在文档中的概率权重,再根据概率权重对主题重要度进行排序;
步骤102-2)根据步骤102-1)得到的主题权重顺序,对每个主题依次选择1~2个语句组成候选依据集合,且选择语句的原则为:依据计算得到的语句在主题上的分布选择每个主题下混合概率最高的前2个句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410309528.7/1.html,转载请声明来源钻瓜专利网。