[发明专利]一种基于数字报纸的资讯数据分类方法有效
| 申请号: | 201510104637.X | 申请日: | 2015-03-10 |
| 公开(公告)号: | CN104679875B | 公开(公告)日: | 2017-12-15 |
| 发明(设计)人: | 姚洲鹏;陈法涌;陈嘉松;吴云峰 | 申请(专利权)人: | 杭州凡闻科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州凯知专利代理事务所(普通合伙)33267 | 代理人: | 邵志 |
| 地址: | 310022 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数字 报纸 资讯 数据 分类 方法 | ||
1.一种基于数字报纸的资讯数据分类方法,其特征在于包括:
A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息,以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;
B、将提取的信息入至数据库中,并根据出版日期和版次信息在数据库内部建立关联关系;
C、按照上述方法,利用数据库中的时间维度汇聚每种报纸一段时间内的数据,基于全文检索引擎技术,针对同一种报纸中版面名称相同的版面进行重名合并处理;
D、根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系;
E、按照步骤D的对应关系,将数据库中,版面名称包含有某一关键词的版面内的所有文章自动归类至对应的类别下。
2.根据权利要求1所述的基于数字报纸的资讯数据分类方法,其特征在于还包括:
F、根据用户需求设置过滤条件,并基于全文检索引擎技术过滤干扰信息,生成最终的数据集合。
3.根据权利要求2所述的基于数字报纸的资讯数据分类方法,其特征在于:所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。
4.根据权利要求1或2或3所述的基于数字报纸的资讯数据分类方法,其特征在于,所述根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系包括:
针对每种报纸的不同属性,设定若干大类别,然后针对每个大类别设定若干细分类别;
在各细分类别下设定若干关键词,建立起细分类别与关键词之间的对应关系。
5.一种基于数字报纸的资讯数据分类方法,其特征在于包括:
A、分析并提取数字报纸各版面的出版日期、版面名称、版次信息,以及每个版面内各篇文章的标题、肩标题、副标题、作者、正文信息、插图;
B、将提取的信息入至数据库中,并根据出版日期和版次信息在数据库内部建立关联关系;
C、按照上述方法,利用数据库中的时间维度汇聚每种报纸一段时间内的数据,基于全文检索引擎技术,针对同一种报纸中版面名称相同的版面进行重名合并处理:
D、根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,再针对每个关键词建立一个对应的专用分词库,建立起类别、关键词和专用分词库之间的对应关系:所述分词库由若干版面名称组成,且位于同一专用分词库内的版面名称包含有与该分词库对应的关键词:
E、将所提取的版面名称与专用分词库内存储的版面名称进行比对,对于版面名称能够在专用分词库内找到匹配项的版面,按照步骤D的对应关系,将该版面内的所有文章归类至与该分词库对应的类别下;对于版面名称无法在专用分词库内找到匹配项的版面,按照版面名称包含有关键词的对应关系,将其版面名称与至少一个关键词对应,然后按照步骤D的对应关系,将该版面内的所有文章归类至与该关键词对应的类别下,同时在该关键词对应的专用分词库内加入该版面名称以增加专用分词库内的分词量。
6.根据权利要求5所述的基于数字报纸的资讯数据分类方法,其特征在于还包括:
F、根据用户需求设置过滤条件,并基于全文检索引擎技术过滤干扰信息,生成最终的数据集合。
7.根据权利要求6所述的基于数字报纸的资讯数据分类方法,其特征在于:所述过滤条件包括数据来源、数据的时间范围、标题和正文字数范围、版面语法、文章语法和标题语法。
8.根据权利要求5或6或7所述的基于数字报纸的资讯数据分类方法,其特征在于,所述根据报纸内容的不同设定不同的类别,然后在各类别下设定若干关键词,建立起类别与关键词之间的对应关系包括:
针对每种报纸的不同属性,设定若干大类别,然后针对每个大类别设定若干细分类别:
在各细分类别下设定若干关键词,建立起细分类别与关键词之间的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州凡闻科技有限公司,未经杭州凡闻科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510104637.X/1.html,转载请声明来源钻瓜专利网。





