[发明专利]用于输出信息的方法和装置有效
| 申请号: | 201910552619.6 | 申请日: | 2019-06-25 |
| 公开(公告)号: | CN110245334B | 公开(公告)日: | 2023-06-16 |
| 发明(设计)人: | 蒋帅;陈思姣;梁海金;罗雨;卞东海 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/12 | 分类号: | G06F40/12;G06F40/137;G06F40/189;G06F40/216;G06F40/289;G06N7/01;G06N3/0442;G06N3/047;G06F16/58;G10L15/26 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 输出 信息 方法 装置 | ||
本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取待转换的音频信息;将音频信息转换成文本信息;将文本信息进行切词,得到词序列;对于词序列中的词,通过预先训练的词连接概率模型得到的词连接概率表查询该词和与该词的下一个词之间连接概率和该词与各类标点的连接概率,以及基于查询到的连接概率确定该词的连接目标;将词序列中各词与相应的连接目标连接起来生成带标点的文章进行输出。该实施方式能够将音频自动转成带标点的文章。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
在文章自动生成领域,多媒体转写自动生成的文章还比较少,大多是根据结构化的文本数据来生成文章,这使得数据来源单一,生成的文章不够丰富、广泛;而人工编辑的多媒体文章又非常的耗时和繁琐,造成不必要的人力、财力的开销。常规的方法主要是人工编辑,通过人工将相关音频转化为文本,然后根据音频主题等在网络上查找相关图片,最后人工的将转化后的文本和图片渲染。
基于人工的方法主要问题在于:(1)对于音频的转换:采用人工的方式费时费力,准确率也不一定高;(2)配图的选择:根据主题选择相关的图片,人工搜索的方式将耗费大量人力;(3)文章的组织渲染,将相关文本和图片组织最终生成一篇阅读性强的文章。
发明内容
本公开的实施例提出了用于输出信息的方法和装置。
第一方面,本公开的实施例提供了一种用于输出信息的方法,包括:获取待转换的音频信息;将音频信息转换成文本信息;将文本信息进行切词,得到词序列;对于词序列中的词,通过预先训练的词连接概率模型得到的词连接概率表查询该词和与该词的下一个词之间连接概率和该词与各类标点的连接概率,以及基于查询到的连接概率确定该词的连接目标;将词序列中各词与相应的连接目标连接起来生成带标点的文章进行输出。
在一些实施例中,词连接概率表是通过以下步骤得到的:获取训练样本集合,训练样本包括含有标点的句子;将训练样本集合中的训练样本的句子作为LSTM模型的输入,训练得到词连接概率模型;根据词连接概率模型训练的中间过程中得到每个词与词之间的概率和每个词与各标点之间的概率生成词连接概率表。
在一些实施例中,获取训练样本集合,包括:获取样本文章,将样本文章按一个大句的粒度进行切分得到样本句集合,其中,大句是指以句号、问号或感叹号结尾的句子;对于样本句集合中的样本句,将该句进行切词后生成词向量作为训练样本。
在一些实施例中,该方法还包括:将文章分成至少一个段落。
在一些实施例中,该方法还包括:确定文章的主题和实体;获取与文章的主题和实体匹配的图像;根据图像和文章生成图文信息。
在一些实施例中,该方法还包括:将图文信息进行排版优化。
第二方面,本公开的实施例提供了一种用于输出信息的装置,包括:获取单元,被配置成获取待转换的音频信息;转换单元,被配置成将音频信息转换成文本信息;切词单元,被配置成将文本信息进行切词,得到词序列;判断单元,被配置成对于词序列中的词,通过预先训练的词连接概率模型得到的词连接概率表查询该词和与该词的下一个词之间连接概率和该词与各类标点的连接概率,以及基于查询到的连接概率确定该词的连接目标;连接单元,被配置成将词序列中各词与相应的连接目标连接起来生成带标点的文章进行输出。
在一些实施例中,该装置还包括训练单元,被配置成:获取训练样本集合,训练样本包括含有标点的句子;将训练样本集合中的训练样本的句子作为LSTM模型的输入,训练得到词连接概率模型;根据词连接概率模型训练的中间过程中得到每个词与词之间的概率和每个词与各标点之间的概率生成词连接概率表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910552619.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





