[发明专利]用于输出信息的方法和装置在审
申请号: | 201910533276.9 | 申请日: | 2019-06-19 |
公开(公告)号: | CN110222189A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 蒋帅;陈思姣;梁海金;罗雨;卞东海 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/55;G06F17/27;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本信息 方法和装置 输出信息 预设 匹配 分类模型 输出图片 文本内容 图片库 检索 图片 | ||
本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取待配图的文本信息;将文本信息输入预先训练的分类模型,得到文本信息的主题词;将文本信息与预设的实体列表进行匹配,得到文本信息的实体词;从预设的图片库中获取与主题词和实体词匹配的图片并输出图片。该实施方式能够快速、高效的根据文本内容检索相关图片。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
信息时代,数据变得越来越重要。随着数据爆炸式增长,想要快速获取到自己想要的数据成本也越来越高,特别是针对无法形象描述的图片,获取的难度更大。
目前市场上的文章配图,大多是直接通过人工搜索并筛选来获取,但这会造成大量人力财力的消耗,也不一定拿到优质的图片。现有方法的主要问题在于:(1)偏主观性:对于人工筛选的方式,不同的主观偏见往往会影响图片配置情况,影响文本和图片的匹配度。(2)局限性:由于人力有限,往往不能对所有的文本进行复述。(3)复杂低效,人工检索图片进行配图,成本高效能低。
发明内容
本公开的实施例提出了用于输出信息的方法和装置。
第一方面,本公开的实施例提供了一种用于输出信息的方法,包括:获取待配图的文本信息;将文本信息输入预先训练的分类模型,得到文本信息的主题词;将文本信息与预设的实体列表进行匹配,得到文本信息的实体词;从预设的图片库中获取与主题词和实体词匹配的图片并输出图片。
在一些实施例中,分类模型是通过以下步骤训练得到的:获取训练样本集合,其中,训练样本包括文档和文档的类别标签;将训练样本集合中的训练样本的文档和文档的类别标签分别作为fasttext模型的输入和输出,训练得到分类模型。
在一些实施例中,将文本信息与预设的实体列表进行匹配,得到文本信息的实体词,包括:将文本信息与预设的实体列表进行匹配,得到至少一个候选实体词;确定各候选实体词在文本信息中出现的频次;将频次最高的预定数目个候选实体词确定为文本信息的实体词。
在一些实施例中,将文本信息与预设的实体列表进行匹配,得到文本信息的实体词,包括:将文本信息的标题与预设的实体列表进行匹配,得到至少一个标题候选实体词;将文本信息的正文与预设的实体列表进行匹配,得到至少一个正文候选实体词;确定各标题候选实体词和正文候选实体词在文本信息中出现的频次;分别根据标题候选实体词的权重和正文候选实体词的权重对频次进行加权,得到各标题候选实体词的权重值和正文候选实体词的权重值,其中,标题候选实体词的权重大于正文候选实体词的权重;将权重值最高的预定数目个标题候选实体词或正文候选实体词确定为文本信息的实体词。
在一些实施例中,图片库的构造过程包括:通过搜索引擎利用主题词和实体词作为关键词搜索图片集合;从图片集合过滤掉低质图片后存储到图片库中。
在一些实施例中,图片库的构造过程包括:从预设的图片站点抓取图片集合;从图片集合过滤掉低质图片;根据图片的关键字将过滤后的图片集合中的图片分类存储到图片库中。
在一些实施例中,图片库的构造过程包括:从网络获取图片;将图片输入预先训练的VGG模型,得到分类标签;将图片与分类标签关联存储到图片库中。
第二方面,本公开的实施例提供了一种用于输出信息的装置,包括:获取单元,被配置成获取待配图的文本信息;主题确定单元,被配置成将文本信息输入预先训练的分类模型,得到文本信息的主题词;实体确定单元,被配置成将文本信息与预设的实体列表进行匹配,得到文本信息的实体词;匹配单元,被配置成从预设的图片库中获取与主题词和实体词匹配的图片并输出图片。
在一些实施例中,分类模型是通过以下步骤训练得到的:获取训练样本集合,其中,训练样本包括文档和文档的类别标签;将训练样本集合中的训练样本的文档和文档的类别标签分别作为fasttext模型的输入和输出,训练得到分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910533276.9/2.html,转载请声明来源钻瓜专利网。