[发明专利]关注点的层次化构建方法、装置和计算机设备有效
| 申请号: | 201810128902.1 | 申请日: | 2018-02-08 |
| 公开(公告)号: | CN108280221B | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 陈一乐;刘呈祥;何伯磊;肖欣延;吕雅娟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/2458;G06F16/35 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 关注点 层次 构建 方法 装置 计算机 设备 | ||
1.一种关注点的层次化构建方法,所述关注点为用户感兴趣的内容标签,其特征在于,包括:
爬取至少两个数据源的概念层次体系;
对爬取的概念层次体系中相同垂类的相同概念层次进行融合,获得特定垂类的分类体系;
对特定垂类的分类体系中的概念进行层次化处理,获得特定垂类的关注点概念层次体系;
获取已挖掘的关注点的上位词,根据所述关注点的上位词将所述关注点关联到所述特定垂类的关注点概念层次体系;
其中,所述对特定垂类的分类体系中的概念进行层次化处理,获得特定垂类的关注点概念层次体系包括:对特定垂类的分类体系中非关注点的概念层次进行剪枝,删除无意义的知识性概念层次;删除指称性过强的具体关注点和不适合作为概念层次的叶子节点;将冲突和/或跳级的层次关系进行重新连接或删除,以及将不适合作为关注点的概念层次进行标注和识别,获得特定垂类的关注点概念层次体系;
所述将不适合作为关注点的概念层次进行标注和识别包括:将不适合作为关注点的概念层次进行人工的标注和识别。
2.根据权利要求1所述的方法,其特征在于,所述对爬取的概念层次体系中相同垂类的相同概念层次进行融合,获得特定垂类的分类体系包括:
通过同义词表或者同义词识别的方式,对爬取的概念层次体系中相同垂类的相同概念层次进行融合,获得特定垂类的分类体系。
3.根据权利要求1-2任意一项所述的方法,其特征在于,所述获取已挖掘的关注点的上位词包括:
通过预先构建的模板对已挖掘的关注点的百科词条内容进行模板化挖掘,并通过百科本身的类别与所述关注点的类别进行验证,获得所述关注点的上位词。
4.根据权利要求1-2任意一项所述的方法,其特征在于,所述获取已挖掘的关注点的上位词包括:
通过预先构建的模板对数据源中查找到的已挖掘的关注点的结构化信息进行模板化挖掘,并通过百科本身的类别与所述关注点的类别进行验证,获得所述关注点的上位词。
5.根据权利要求1-2任意一项所述的方法,其特征在于,所述获取已挖掘的关注点的上位词包括:
根据预先构建的模板对网页数据进行挖掘,获取已挖掘的关注点的候选上位词;
根据所述关注点与述关注点的候选上位词的上下位关系,挖掘新的模板;
根据所述新的模板对网页数据进行挖掘,获得所述关注点的候选上位词;
对所获得的所述关注点的每个候选上位词的出现频次进行统计,选择出现频次大于预定频次阈值的候选上位词作为所述关注点的上位词。
6.根据权利要求1-2任意一项所述的方法,其特征在于,所述获取已挖掘的关注点的上位词包括:
从语料中抽取上下位特征数据,根据抽取的数据进行训练,获得二元分类器;从语料中抽取的上下位特征数据包括:候选上位词是否为下位词的后缀、候选上位词在下位搜索出现结果的占比、候选上位词的同义词在下位搜索中出现结果的占比、候选上位词是否为下位词的百科标签以及候选上位词与下位词是否命中已有的模板;
通过所述二元分类器获得已挖掘的关注点的候选上位词,和每个候选上位词的置信度;
将置信度高于预定置信度阈值的候选上位词作为所述关注点的上位词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810128902.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种区域地理空间数据集成方法
- 下一篇:一种生产管理中二次精确检索的定位方法





