[发明专利]用于生成信息的方法和装置有效
申请号: | 201711326807.4 | 申请日: | 2017-12-13 |
公开(公告)号: | CN107944032B | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 张晓寒;李双婕;史亚冰;梁海金;张扬;李京峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/335;G06N3/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 信息 方法 装置 | ||
本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取待挖掘文章;利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度;基于所挖掘主题和所确定的关联度,确定所述待挖掘文章的主题以及所述待挖掘文章与主题的关联度。该实施方式实现了从不同维度对待挖掘文章的主题进行挖掘,以获得更全面、准确地主题。
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于生成信息的方法和装置。
背景技术
现阶段,互联网是人们获取信息的一种重要方式,为了精准的向用户推荐其感兴趣的文章,需要精准的理解文章的主题,同时计算出文章与主题的关联度。目前,可以通过文章关键词提取的方式生成文章的主题,例如,首先,对文章全文切词,得到词集合;之后,对词集合进行过滤、词频计算等,并将得到的词集合中的关键词作为文章主题挖掘的结果,这种主题挖掘方式的精准度容易受到词语切分、别名等因素的影响。目前,还可以通过文章主题分类的方式生成文章的主题,例如,对文章中的语句提取词向量特征,进行文章分类获得文章主题,使用这种主题挖掘方式进行主题挖掘容易受候选主题集合的限制,比如,如果用来分类的候选主题集合很小,且候选主题都比较宽泛,那么会造成主题挖掘范围有限,不能全面、精准表达文章。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,包括:获取待挖掘文章;利用至少两种主题挖掘方式,挖掘上述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与上述待挖掘文章的关联度;基于所挖掘主题和所确定的关联度,确定上述待挖掘文章的主题以及上述待挖掘文章与主题的关联度。
在一些实施例中,上述利用至少两种主题挖掘方式,挖掘上述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与上述待挖掘文章的关联度,包括:对上述待挖掘文章进行命名实体识别,基于命名实体识别结果确定上述待挖掘文章是否包括至少一个第一类型文章主题;响应于确定上述待挖掘文章包括至少一个第一类型文章主题,确定上述待挖掘文章与上述至少一个第一类型文章主题中各个第一类型文章主题的第一关联度。
在一些实施例中,对上述待挖掘文章进行命名实体识别,基于命名实体识别结果确定上述待挖掘文章是否包括至少一个第一类型文章主题,包括:对上述待挖掘文章进行命名实体识别,确定上述待挖掘文章中是否包含至少一个命名实体;响应于确定上述待挖掘文章中包含至少一个命名实体,将上述至少一个命名实体中的各个命名实体与预先建立的候选主题集合中的候选主题进行匹配,根据匹配结果确定上述待挖掘文章中是否包括至少一个候选主题,其中,上述候选主题集合是基于知识图谱构建的;响应于确定上述待挖掘文章中包括至少一个候选主题,对于上述至少一个候选主题中的每一个候选主题,统计该候选主题在上述待挖掘文章中出现的频次,如果该候选主题在上述待挖掘文章中出现的频次超过预先设定的第一阈值,则确定该候选主题为上述待挖掘文章的第一类型文章主题。
在一些实施例中,上述响应于确定上述待挖掘文章包括至少一个第一类型文章主题,确定上述待挖掘文章与上述至少一个第一类型文章主题中各个第一类型文章主题的第一关联度,包括:对于上述至少一个第一类型文章主题中的每一个第一类型文章主题,统计该第一类型文章主题在上述待挖掘文章中出现的频次,根据统计得到的频次确定上述待挖掘文章与该第一类型文章主题的第一关联度。
在一些实施例中,统计该候选主题在上述待挖掘文章中出现的频次,包括:根据上述知识图谱确定上述待挖掘文章中是否包含该候选主题的别名;响应于确定上述待挖掘文章中包含该候选主题的别名,统计该候选主题的别名在上述待挖掘文章中出现的第一频次;统计该候选主题在上述待挖掘文章中出现的第二频次;计算上述第一频次和上述第二频次之和,将计算结果作为该候选主题在上述待挖掘文章中出现的频次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711326807.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于不同用户的汽车的数据采集方法及汽车
- 下一篇:关联话题推荐方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置