[发明专利]英文长篇小说摘要生成方法有效
申请号: | 201611007088.5 | 申请日: | 2016-11-15 |
公开(公告)号: | CN106681982B | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 吴宗大;雷力;郑城仁 | 申请(专利权)人: | 温州大学瓯江学院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州杭诚专利事务所有限公司33109 | 代理人: | 王江成 |
地址: | 325027 浙江省温州市瓯海区瓯海*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 生成方法申请(专利)号CN201611007088.5 | ||
搜索关键词: | 英文 长篇小说 摘要 生成 方法 | ||
【主权项】:
英文长篇小说摘要生成方法,其特征在于,所述摘要生成过程如下:步骤1,给出英文长篇自动摘要的问题定义;步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的自动摘要;步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要;所述步骤4包括以下步骤:首先,认定高压缩率英文长篇小说的自动摘要过程必须达到的首要目标,则将抽取式自动摘要问题重新定义如下:其中,θ是期望压缩率,为英文长篇小说的压缩率,为自动摘要的主题多样性,为自动摘要,为给定英文长篇小说;然后,定义句子重要性评估函数来量化评估每个候选句子在体现主题多样性上的重要程度,从而将组合空间的最优化搜索问题转换为基于“贪婪”策略的线性空间搜索问题,这里主要根据各个句子在主题多样性上的表现和在冗余信息量上的表现来评估候选句子的重要性,从而选取出对主题多样性重要程度影响最大的候选句子,以构成英文长篇小说的摘要,具体步骤如下:句子的正面主题多样性定义:对于任一候选句子该句子的正面主题多样性度量如下:其中,θ1为参数,Wt为主题词,为所有主题词组成的主题空间,Pr(Wt)为主题Wt出现概率;句子的负面主题多样性定义:给定一个当前英文长篇小说摘要对于英文长篇小说的任一候选句子该句子的负面主题多样性可度量公式如下:其中,表示主题词Wt在摘要中的出现次数,θ2为参数,Wt为主题词,为所有主题词组成的主题空间;句子的信息冗余量定义:对于任一候选句子符号表示所有的无用词的集合,则该句子的冗余信息可度量公式如下:其中,表示单词W在句子中的出现次数;根据负面主题多样性可度量公式和冗余信息可度量公式可得到以下的句子重要性评估公式:句子重要性评估公式的值越大,则句子越重要;将分割后的英文长篇小说候选句子集划分为三部子集:开头、经过和结尾;然后分别从这三个子集中选取重要性评分最高的句子,作为英文长篇小说的摘要;选取重要性评分最高的句子的过程如下:首先,确定英文长篇小说开头、经过和结尾部分所占比例,分别记作α1、α2和α3;这里按照叙述性英文长篇小说的一般性规律,即开头部分和结尾部分各占20%,经过部分占60%,设定α1=α3=0.2和α2=0.6;然后根据主题建模中确定的候选句子集合其中m为英文长篇小说候选句子数量,确定三个候选句子子集,分别记作:最后,将分别从这三个子集中选取最重要的句子,构成自动摘要;根据句子的重要性评估值,从选取个重要性最高的句子,记作类似地,从选取个最重要的句子,记作从选取个最重要的句子,记作最后,合并成最终的摘要其中,θ是期望压缩率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学瓯江学院,未经温州大学瓯江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611007088.5/,转载请声明来源钻瓜专利网。
- 上一篇:铁皮石斛人工种子立体式微型培养架
- 下一篇:一种瓶内开花双底组织培养瓶