[发明专利]一种以矩阵计算为基础进行舆论信息抽取的方法及系统有效
申请号: | 201510569894.0 | 申请日: | 2015-09-09 |
公开(公告)号: | CN105117385B | 公开(公告)日: | 2017-12-19 |
发明(设计)人: | 杜登斌;杜璞 | 申请(专利权)人: | 北京中润普达信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 祁建国,梁挥 |
地址: | 100029 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种以矩阵计算为基础进行舆论信息抽取的方法及系统,该方法包括抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,根据所述权重与所述候选级别计算综合评分,以完成舆情分析。本发明无需建立情感词库,实时多维度抓取数据,建立信息源矩阵、分词矩阵、规则矩阵,三个矩阵进行关联达到动态平衡,精确查找用户查询的词,准确率95%以上。 | ||
搜索关键词: | 一种 矩阵 计算 基础 进行 舆论 信息 抽取 方法 系统 | ||
【主权项】:
一种以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,包括:步骤1,抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;步骤2,建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析;其中,所述规则矩阵包括,查找网站中最能体现文章内容的关键词,进行关键词标注;并通过以下公式获取所述权重:信息源权重计算公式:q*w*e=r,其中q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重;分词权重计算公式:x*y=u,其中x为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重;规则权重计算公式:g*h=k,其中g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中润普达信息技术有限公司,未经北京中润普达信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510569894.0/,转载请声明来源钻瓜专利网。
- 上一篇:翻译方法和装置
- 下一篇:一种油棕传粉象甲成虫饲喂器