[发明专利]关注点的层次化构建方法、装置和计算机设备有效

申请号：	201810128902.1	申请日：	2018-02-08
公开（公告）号：	CN108280221B	公开（公告）日：	2022-04-15
发明（设计）人：	陈一乐;刘呈祥;何伯磊;肖欣延;吕雅娟	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/2458;G06F16/35
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	关注点层次构建方法装置计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种关注点的层次化构建方法，所述关注点为用户感兴趣的内容标签，其特征在于，包括：

爬取至少两个数据源的概念层次体系；

对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系；

对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系；

获取已挖掘的关注点的上位词，根据所述关注点的上位词将所述关注点关联到所述特定垂类的关注点概念层次体系；

其中，所述对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系包括：对特定垂类的分类体系中非关注点的概念层次进行剪枝，删除无意义的知识性概念层次；删除指称性过强的具体关注点和不适合作为概念层次的叶子节点；将冲突和/或跳级的层次关系进行重新连接或删除，以及将不适合作为关注点的概念层次进行标注和识别，获得特定垂类的关注点概念层次体系；

所述将不适合作为关注点的概念层次进行标注和识别包括：将不适合作为关注点的概念层次进行人工的标注和识别。

2.根据权利要求1所述的方法，其特征在于，所述对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系包括：

通过同义词表或者同义词识别的方式，对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系。

3.根据权利要求1-2任意一项所述的方法，其特征在于，所述获取已挖掘的关注点的上位词包括：

通过预先构建的模板对已挖掘的关注点的百科词条内容进行模板化挖掘，并通过百科本身的类别与所述关注点的类别进行验证，获得所述关注点的上位词。

4.根据权利要求1-2任意一项所述的方法，其特征在于，所述获取已挖掘的关注点的上位词包括：

通过预先构建的模板对数据源中查找到的已挖掘的关注点的结构化信息进行模板化挖掘，并通过百科本身的类别与所述关注点的类别进行验证，获得所述关注点的上位词。

5.根据权利要求1-2任意一项所述的方法，其特征在于，所述获取已挖掘的关注点的上位词包括：

根据预先构建的模板对网页数据进行挖掘，获取已挖掘的关注点的候选上位词；

根据所述关注点与述关注点的候选上位词的上下位关系，挖掘新的模板；

根据所述新的模板对网页数据进行挖掘，获得所述关注点的候选上位词；

对所获得的所述关注点的每个候选上位词的出现频次进行统计，选择出现频次大于预定频次阈值的候选上位词作为所述关注点的上位词。