[发明专利]英文长篇小说摘要生成方法有效
申请号: | 201611007088.5 | 申请日: | 2016-11-15 |
公开(公告)号: | CN106681982B | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 吴宗大;雷力;郑城仁 | 申请(专利权)人: | 温州大学瓯江学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州杭诚专利事务所有限公司33109 | 代理人: | 王江成 |
地址: | 325027 浙江省温州市瓯海区瓯海*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 英文 长篇小说 摘要 生成 方法 | ||
技术领域
本发明涉及英文长篇小说摘要生成技术领域,具体涉及英文长篇小说摘要生成方法。
背景技术
随着网上英文长篇小说数量的爆炸式增长,如果读者要想快速了解一篇英文长篇小说的主要内容,就得借助该英文长篇小说的摘要。目前,对英文长篇小说的摘要生成还采用人工方法,导致难于压缩提炼出英文长篇小说的主要内容。
发明内容
本发明是为了解决现有英文长篇小说的摘要生成还采用人工方法,导致难于压缩提炼出英文长篇小说主要内容的不足,提供一种英文长篇小说摘要生成方法,该方法能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。
以上技术问题是通过下列技术方案解决的:
英文长篇小说摘要生成方法,所述摘要生成过程如下:
步骤1,给出英文长篇自动摘要的问题定义;
步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;
步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;
步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;
步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。
本方案能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。
作为优选,所述问题定义包括摘要压缩率定义,所述摘要压缩率定义如下:
英文长篇小说可表示为句子的集合,记作英文长篇小说的自动摘要也可表示为句子的集合,记作通常有那么自动摘要关于英文长篇小说的压缩率为:
作为优选,所述问题定义还包括主题分布定义,所述主题分布定义如下:
记所有主题词组成的主题空间为记各主题词在英文长篇小说中的出现概率为则英文长篇小说的主题词概率分布向量为:
其中
作为优选,所述问题定义还包括摘要主题多样性定义,所述摘要主题多样性定义如下:
给定英文长篇小说及其自动摘要则自动摘要的主题多样性可通过自动摘要和英文长篇小说的主题概率分布向量之间的余弦相关性进行度量,则自动摘要的主题多样性为:
其中,
作为优选,所述问题定义还包括抽取式自动摘要问题定义,所述抽取式自动摘要问题定义如下:
英文长篇小说的自动摘要需要尽可能地同时满足高压缩率和高压缩质量这两个目标,则高压缩率和高压缩质量分别为:
从公式(4)和(5)可看出,高压缩率和高压缩质量这两个目标是一对矛盾体:
一方面,为了获取高压缩率,理想的自动摘要最好只包含一个句子或者为空,此时自动摘要的高压缩率达到最小值0;
另一方面,为了获取最佳的高压缩质量,理想的自动摘要最好覆盖英文长篇小说原文的所有主题,在最极端情况下,直接使用原文作自动摘要,此时主题多样性达到了最大值1;
为此,需要用一个抽取式自动摘要问题公式将高压缩率和高压缩质量这两个相互矛盾的目标统一起来,设该抽取式自动摘要问题的计算公式为:
其中,α∈[0,1]为平衡参数,用来平衡这两个相互矛盾的目标的影响,当公式(6)的值越大时则主题多样性目标越重要;反之,当公式(6)的值越小时则高压缩率目标越重要;
至此,高压缩率和高压缩质量这两个相互矛盾的目标就是如何从给定英文长篇小说中快速搜索出满足以上公式的自动摘要。
作为优选,主题建模处理过程如下:
在自动摘要生成过程中,主题建模的主要目的是为了发现英文长篇小说关联的主题词,进而获取摘要的候选句子。具体采用LDA算法对英文长篇小说进行主题建模和句子抽取。
作为优选,对自动摘要进行优化过程如下:
由于英文中大量存在着多义词和同义词,这对语义分析造成了极大的困扰;考虑到英文长篇小说和参考摘要的书写者、书写年代与词汇使用有极大的差异;有鉴于此,对机器摘要中一些同义词进行了映射,将其转化成了相对简单的单词,并将单词称作基本词,这有利于提高摘要的机器可阅读性;为此需要引入了外部语言资源,并构建外部语言资源相应的内部数据组织结构;为了处理摘要中的同义词问题,构建了一个同义词网;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院,未经温州大学瓯江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611007088.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铁皮石斛人工种子立体式微型培养架
- 下一篇:一种瓶内开花双底组织培养瓶