[发明专利]用于生成信息的方法和装置有效
申请号: | 201711326807.4 | 申请日: | 2017-12-13 |
公开(公告)号: | CN107944032B | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 张晓寒;李双婕;史亚冰;梁海金;张扬;李京峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/335;G06N3/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 信息 方法 装置 | ||
1.一种用于生成信息的方法,包括:
获取待挖掘文章;
利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度,其中,所述至少两种类型的主题包括命名实体类的主题和抽象概念类的主题;
基于所挖掘主题和所确定的关联度,确定所述待挖掘文章的主题以及所述待挖掘文章与主题的关联度。
2.根据权利要求1所述的方法,其中,所述利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度,包括:
对所述待挖掘文章进行命名实体识别,基于命名实体识别结果确定所述待挖掘文章是否包括至少一个第一类型文章主题;
响应于确定所述待挖掘文章包括至少一个第一类型文章主题,确定所述待挖掘文章与所述至少一个第一类型文章主题中各个第一类型文章主题的第一关联度。
3.根据权利要求2所述的方法,其中,对所述待挖掘文章进行命名实体识别,基于命名实体识别结果确定所述待挖掘文章是否包括至少一个第一类型文章主题,包括:
对所述待挖掘文章进行命名实体识别,确定所述待挖掘文章中是否包含至少一个命名实体;
响应于确定所述待挖掘文章中包含至少一个命名实体,将所述至少一个命名实体中的各个命名实体与预先建立的候选主题集合中的候选主题进行匹配,根据匹配结果确定所述待挖掘文章中是否包括至少一个候选主题,其中,所述候选主题集合是基于知识图谱构建的;
响应于确定所述待挖掘文章中包括至少一个候选主题,对于所述至少一个候选主题中的每一个候选主题,统计该候选主题在所述待挖掘文章中出现的频次,如果该候选主题在所述待挖掘文章中出现的频次超过预先设定的第一阈值,则确定该候选主题为所述待挖掘文章的第一类型文章主题。
4.根据权利要求3所述的方法,其中,所述响应于确定所述待挖掘文章包括至少一个第一类型文章主题,确定所述待挖掘文章与所述至少一个第一类型文章主题中各个第一类型文章主题的第一关联度,包括:
对于所述至少一个第一类型文章主题中的每一个第一类型文章主题,统计该第一类型文章主题在所述待挖掘文章中出现的频次,根据统计得到的频次确定所述待挖掘文章与该第一类型文章主题的第一关联度。
5.根据权利要求4所述的方法,其中,统计该候选主题在所述待挖掘文章中出现的频次,包括:
根据所述知识图谱确定所述待挖掘文章中是否包含该候选主题的别名;
响应于确定所述待挖掘文章中包含该候选主题的别名,统计该候选主题的别名在所述待挖掘文章中出现的第一频次;
统计该候选主题在所述待挖掘文章中出现的第二频次;
计算所述第一频次和所述第二频次之和,将计算结果作为该候选主题在所述待挖掘文章中出现的频次。
6.根据权利要求1所述的方法,其中,所述利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度,包括:
确定所述待挖掘文章的来源信息的来源置信度是否超过预先设定的置信度阈值,其中,所述待挖掘文章的来源信息的来源置信度是从预先设定的来源信息与来源置信度关系表中获取的,所述来源信息与来源置信度关系表对应存储有来源信息和来源置信度;
响应于确定所述待挖掘文章的来源信息的来源置信度超过预先设定的置信度阈值,将所述待挖掘文章的来源信息作为第二类型文章主题,并将所述待挖掘文章的来源信息的来源置信度作为所述待挖掘文章与所述第二类型文章主题的第二关联度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711326807.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于不同用户的汽车的数据采集方法及汽车
- 下一篇:关联话题推荐方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置