[发明专利]一种自动化生成讲稿的方法在审
申请号: | 202010559615.3 | 申请日: | 2020-06-18 |
公开(公告)号: | CN111859950A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王子奕;王文广;陈运文;贺梦洁;王忠萌;纪达麒 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/81;G06F16/951;G06F16/955 |
代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 张文玄;周涛 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动化 生成 讲稿 方法 | ||
本发明公开了一种自动化生成讲稿的方法,所述方法包括如下步骤:根据讲稿的主题词自互连网获取相关文本,处理所述文本以生成按照关键词分类的候选文档,根据讲稿段落预先设定的关键词找到相对应的多个候选文档,自候选文档中采样语句以生成讲稿段落内容。本发明快速生成高质量、可读性好、且具备一定篇幅的自然语言文本。
技术领域
本发明属于文本处理领域,具体涉及一种自动化生成讲稿的方法。
背景技术
随着自然语言理解的迅速发展,研究者越来越多地将目光投向文本生成这一自然语言处理的核心领域上。从任务输入的角度来看,文本生成大致可以分为从文本到文本的生成、从意义到文本的生成、从数据到文本的生成和从图像到文本的生成四大类。讲稿生成在多数场景下更接近于第二、三类,只需要使用者提供少量输入信息,系统便能自动生成满足约束条件的文本。
与过滤冗余成分、保留重要信息的句子压缩任务不同,讲稿生成的输入往往只包含极少语义片段,而输出结果要求是高质量、可读性好、且具备一定篇幅的自然语言文本,该项技术的挑战性不言而喻。仅从用户输入中提取语义表示在解决这类问题上显得十分无力,因此通常要借助大量外部信息。
模板法是讲稿生成中常用的方法,预留出供用户填充的讲稿片段,能够快速实现文本生成,但维护大量模板对人力需求较高,且主题的多变使得生成内容的多样化依旧难以得到保证。而基于深度学习的生成模型本身具有解码效率低、结果不可控等缺陷,同时实践中往往只有少量特定领域的标注数据,监督学习收效不高。
发明内容
针对现有技术中存在的问题,本发明提供一种自动化生成讲稿的方法,本发明部分实施例能够通过从大量语料中抽取契合给定主题与关键词的句子组织成完整篇章,不仅在一定程度克服了传统模板法带来的多样性缺失难题,也解决了生成式模型造成的输出结果不可控的问题。本发明包含以下步骤:S1.启动爬虫模块请求指定URLs下载原始语料;S2.从语料中抽取得分最高的若干句子,通过一定的规则映射到预设主题关键词下作为一篇候选文档存入数据库;S3.根据用户配置信息解析讲稿主题、段落关键词、段落字数等参数,在一定的约束条件下随机采样候选文档和候选句子组成段落,再拼接段落作为最终讲稿输出。
为实现上述目的,本发明采用以下技术方案:
一种自动化生成讲稿的方法,所述方法包括如下步骤:
根据讲稿的主题词自互连网获取相关文本,处理所述文本以生成按照关键词分类的候选文档,根据讲稿段落预先设定的关键词找到相对应的多个候选文档,自候选文档中采样语句以生成讲稿段落内容。
所述处理所述文本包括:结合Word2Vec和TextRank算法保留所述文本中重要性分值最高的若干句子,作为一篇候选文档
所述处理所述文本包括如下步骤:
1)对文本进行分句;
2)对每个句子进行分词,以Word2Vec词向量均值作为句子语义表示;
3)计算句子相似度矩阵;
4)根据TextRank迭代公式求解每个句子的重要性得分并按从高到低排序;
5)取重要性得分最高的若干句子组成一篇候选文档。
所述自候选文档中采样语句以生成讲稿段落内容包括如下步骤:
1)段落句集初始化为空;
2)在数据库中查询本段落关键词对应的所有候选文档;
3)从候选文档集中随机采样一篇候选文档,并将该候选文档从候选文档集中移除;
4)从步骤3)选择的候选文档中,随机采样一个句子加入本段落句集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010559615.3/2.html,转载请声明来源钻瓜专利网。