[发明专利]一种自然语言长文本生成方法在审

申请号：	201810006935.9	申请日：	2018-01-04
公开（公告）号：	CN108170657A	公开（公告）日：	2018-06-15
发明（设计）人：	陆丽娜	申请（专利权）人：	陆丽娜
主分类号：	G06F17/24	分类号：	G06F17/24;G06F17/27;G06N3/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	200127 上海市浦***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种自然语言长文本生成方法，包括如下步骤：首先，将语言看做一种数据，对文本内容作自然语言处理建立大数据体系；其次，运用文本摘要模型，通过算法解决文本主题归纳问题；通过分布式爬虫实时更新语料，并传递给算法，实现长文本生成。本发明解决使用RNN模型下的文本漂移问题，摆脱了之前文本复述领域对训练数据的极高要求，更加贴近人类复述能力，通过分布式爬虫实时更新语料，并传递给算法，实现了秒级的长文本生成能力，并且我们的模块化处理成本更低效果也令人满意。 1
搜索关键词：	自然语言算法爬虫实时更新文本长文本语料漂移自然语言处理模块化处理文本内容文本主题训练数据传递大数据归纳语言
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种自然语言长文本生成方法，其特征在于，包括如下步骤：首先，将语言看做一种数据，对文本内容作自然语言处理建立大数据体系；其次，运用文本摘要模型，通过算法解决文本主题归纳问题；通过分布式爬虫实时更新语料，并传递给算法，实现长文本生成；引入注意力机制，包括：第一步打分score，通过非线性函数tanh扭曲和；第二步是做score的softmax将值域压缩为权重；第三步是将权重分配给'形成context即；第四步是将和作非线性变换生成。

2.根据权利要求1所述的自然语言长文本生成方法，其特征在于，所述分布式爬虫用于抓取即时的上市公司财务报告，并且设定了定时运行功能，在全自动全天候实现自动下载财经信息到本地服务器。

3.根据权利要求1所述的自然语言长文本生成方法，其特征在于，还包括使用mongo数据库进行实时的插入，更新与查询。

4.根据权利要求1所述的自然语言长文本生成方法，其特征在于，还包括在所述注意力机制中引入文风修饰模块和文本摘要算法，使长文本生成的内容更加个性化，以及具有文本的再加工能力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于陆丽娜，未经陆丽娜许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810006935.9/，转载请声明来源钻瓜专利网。

上一篇：模板创建方法、文档创建方法、渲染方法和装置
下一篇：一种可灵活配置、灵活定义的文字识别编改校对系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种自然语言长文本生成方法在审

专利文献下载