[发明专利]基于深度学习模型进行智能文稿风格改写的方法和设备在审

专利信息
申请号: 201910780331.4 申请日: 2019-08-22
公开(公告)号: CN110688834A 公开(公告)日: 2020-01-14
发明(设计)人: 龙翀;王雅芳 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司: 11315 北京国昊天诚知识产权代理有限公司 代理人: 许振新;朱文杰
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文稿 风格 语义向量 关联 多个目标 目标文稿 顺序合并 学习 改写 智能
【权利要求书】:

1.一种基于深度学习模型进行智能文稿风格改写的方法,其特征在于,包括:

接收与源风格相关联的源文稿和至少一个目标风格;

对于所述源文稿的一个或多个自然句中的每一者:

由深度学习模型基于所述源风格生成与所述源文稿的该自然句对应的语义向量;以及

由所述深度学习模型基于所述至少一个目标风格生成与所述语义向量对应的目标自然句;以及

顺序合并与所述源文稿的一个或多个自然句对应的一个或多个目标自然句以生成与所述至少一个目标风格相关联的至少一个目标文稿。

2.如权利要求1所述的方法,其特征在于,所述深度学习模型包括编码器和解码器,其中

与所述源文稿的自然句对应的语义向量由所述深度学习模型的编码器基于所述源风格生成,并且

与所述语义向量对应的目标自然句由所述深度学习模型的解码器基于所述至少一个目标风格生成。

3.如权利要求2所述的方法,其特征在于,还包括:

对所述源文稿的自然句进行分词,并且其中

所述深度学习模型的所述编码器包括多个级联的第一单元模块,其中经分词的自然句中的每个词被按序分别输入到所述多个级联的第一单元模块。

4.如权利要求3所述的方法,其特征在于,进一步包括:

由所述多个级联的第一单元模块基于前一级第一单元的输出和经分词的自然句中输入到本级的词来生成本级的输出,其中第一级第一单元以所述源风格为前一级的输出,并且最后一级第一单元输出与所述源文稿的自然句对应的语义向量。

5.如权利要求3所述的方法,其特征在于,所述深度学习模型的所述解码器包括多个级联的第二单元模块,所述方法进一步包括:

由所述多个级联的第二单元模块基于所述至少一个目标风格分别生成与所述语义向量对应的目标词;以及

组合所述多个级联的第二单元模块各种生成的目标词以构成目标自然句。

6.如权利要求3所述的方法,其特征在于,进一步包括,当所述源文稿的自然句经分词之后所得的词的个数小于所述多个级联的第一单元模块的个数时,用空白来填充多余的第一单元模块的输入。

7.如权利要求3所述的方法,其特征在于,进一步包括,当所述源文稿的自然句经分词之后所得的词的个数大于所述多个级联的第一单元模块的个数时,对所述自然句进行切分。

8.如权利要求1所述的方法,其特征在于,所述源风格从外部接收或从所述源文稿直接提取。

9.如权利要求1所述的方法,其特征在于,进一步包括训练所述深度学习模型,其中训练所述深度学习模型包括:

设定特征库,所述特征库包括两个或更多个与智能文稿风格改写有关的特征;

生成文稿材料库,所述文稿材料库包括与所述特征库中的至少两个特征相关联的文章对;以及

基于所述文稿材料库来训练所述深度学习模型。

10.如权利要求9所述的方法,其特征在于,生成文稿材料库包括以下一项或多项或其任何组合:

针对所述特征库中的特定特征:

(i)从有特征网站抓取带有所述特定特征的所有文章;

(ii)基于所述特定特征从搜索引擎上检索相关度高的文章;以及

(iii)利用机器学习来学习出打标模型,以在从网上爬取的文本里寻找与所述特定特征相关的文章。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910780331.4/1.html,转载请声明来源钻瓜专利网。

同类专利
  • 基于神经网络的文本处理方法和文本处理装置-201810757854.2
  • 郭垿宏;郭心语;李安新;陈岚 - 株式会社NTT都科摩
  • 2018-07-11 - 2020-02-11 - G06F40/211
  • 本发明涉及一种基于神经网络的文本处理方法和基于神经网络的文本处理装置。所述神经网络包括至少一个文本处理层,所述至少一个文本处理层包括输入层、中间层和输出层,所述方法包括:所述输入层获取输入文本;所述中间层利用多种不同的处理方法对所述输入文本进行分析,获取对应于所述多种不同的处理方法的多种预处理结果;以及所述输出层基于所述多种预处理结果,生成并且输出文本处理结果。
  • 语句识别方法、装置以及计算机可读介质-201911025098.5
  • 胡鹏飞;黄申 - 腾讯科技(深圳)有限公司
  • 2019-10-25 - 2020-02-11 - G06F40/211
  • 本申请公开了一种语句识别方法、装置以及计算机可读介质,通过获取按照语序排列的多个词的原始组合;将原始组合输入至目标N元语法模型中,若原始组合中含有人名地名列表中的名称,则目标N元语法模型将原始组合中含有的名称替换成人名地名列表中对应的类别标签,得到替换后的组合,并计算得到替换后的类别标签相关的概率,根据替换后的组合中每一个词的词相关的概率、类别标签相关的概率、以及原始组合中的名称在人名地名列表中对应的类别标签下的所有名称的占比,得到原始组合作为一个句子的概率。相较于现有的N元语法模型,本申请的目标N元语法模型使得含有人名或者地名的语句更容易被正确识别出来。
  • 情感倾向分析方法、装置、电子设备及存储介质-201910910884.7
  • 段清华;李思涵;詹毅;张可 - 深圳市金证优智科技有限公司
  • 2019-09-25 - 2020-02-04 - G06F40/211
  • 本申请提供了一种情感倾向分析方法、装置、电子设备及存储介质,方法包括:获取待分析文本,所述待分析文本中包括至少一个含有待分析对象的句子;根据所述含有待分析对象的句子对所述待分析对象进行情感倾向分析,以获取与所述句子对应的情感倾向因子,所述情感倾向因子表征所述待分析对象在所述句子中体现的情感倾向;根据所述获取的情感倾向因子匹配属于所述待分析对象的情感倾向分析结果。上述方法针对某一个对象进行情感倾向分析,避免了传统的深度学习方法中当文本含有多个不同对象时难以区分每个对象所对应的情感分析结果的技术问题。对比于直接分析篇章的方法,将所述待分析对象的情感倾向精细化到句子,更便于定位句子的情感倾向因子。
  • 一种文本数据管理方法及系统-201910907716.2
  • 李俊杰 - 北京奇艺世纪科技有限公司
  • 2019-09-24 - 2020-01-24 - G06F40/211
  • 本发明涉及一种文本数据管理方法、系统及存储介质。管理方法包括:获取对应待处理文本数据的至少两组语句替换信息;其中,语句替换信息通过至少两组目标对象对应待处理文本数据进行设置,语句替换信息包括:待替换人物名词和用于替换待替换人物名词的替换人物名词;通过替换人物名词替换待处理文本数据中的所有对应的待替换人物名词。本发明实施例通过对用户将要进行阅读的文本数据,按对应的语句替换信息进行处理,将待处理文本数据中的待替换人物名词替换为替换人物名词,使得用户可以阅读到替换了角色名称的文本数据,增强了用户之间的互动性,通过提高用户的阅读乐趣和代入感,提高用户使用感受,并进一步提高用户粘性。
  • 基于迁移学习的缅甸语依存句法分析方法及装置-201910808117.5
  • 毛存礼;满志博;余正涛;王红斌;王振晗;马文举 - 昆明理工大学
  • 2019-08-29 - 2020-01-17 - G06F40/211
  • 本发明涉及基于迁移学习的缅甸语依存句法分析方法及装置,属于自然语言处理技术领域。本发明首先对缅甸语数据进行预处理:进行英缅双语词向量表征,将双语词向量表征在同一语义空间中;英语依存句法分析语料的迁移:将英语的依存弧、位置以及词性信息迁移到缅甸语上,进行缅甸语的依存句法分析模型训练,获得缅甸语的依存句法分析模型;通过预训练好的缅甸语依存句法分析模型,对输入的缅甸语句子向量化表示后进行缅甸语依存句法分析预测。并根据上述步骤功能模块化制成基于迁移学习的缅甸语依存句法分析装置,本发明对缅甸语句子实现了依存句法分析,解决了缅甸语依存句法分析数据缺乏造成性能不佳的问题,具有重要的理论和实际运用价值。
  • 基于深度学习模型进行智能文稿风格改写的方法和设备-201910780331.4
  • 龙翀;王雅芳 - 阿里巴巴集团控股有限公司
  • 2019-08-22 - 2020-01-14 - G06F40/211
  • 本公开的一示例性方面涉及一种基于深度学习模型进行智能文稿风格改写的方法,包括接收与源风格相关联的源文稿和至少一个目标风格;对于所述源文稿的一个或多个自然句中的每一者:由深度学习模型基于所述源风格生成与所述源文稿的该自然句对应的语义向量;以及由所述深度学习模型基于所述至少一个目标风格生成与所述语义向量对应的目标自然句;以及顺序合并与所述源文稿的一个或多个自然句对应的一个或多个目标自然句以生成与所述至少一个目标风格相关联的至少一个目标文稿。本公开还涉及相应的装置等。
  • 语料选取处理方法、装置、设备及计算机可读存储介质-201910072150.6
  • 杨福星;曹琼;郝玉峰 - 北京海天瑞声科技股份有限公司
  • 2019-01-25 - 2020-01-14 - G06F40/211
  • 本发明实施例提供一种语料选取处理方法、装置、设备及计算机可读存储介质。本发明实施例的方法,通过根据原始句长分布,从所述原始语料中选取满足句数要求和句长要求、且与所述原始句长分布相匹配的语料,作为初始句长分布模型,得到的初始句长分布模型的句长分布与原始句长分布一致或者非常接近;通过对所述初始句长分布模型进行修正处理,得到满足总字数要求、句数要求和句长要求的最终句长分布模型,使得得到的最终句长分布模型的句长分布接近原始句长分布,符合语料设计中对于句长分布的要求。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top