[发明专利]基于核心语句的网页内容关键词快速提取方法有效
申请号: | 201110248573.2 | 申请日: | 2011-08-26 |
公开(公告)号: | CN102270244A | 公开(公告)日: | 2011-12-07 |
发明(设计)人: | 孟庆康;文斌;刘东 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都虹桥专利事务所 51124 | 代理人: | 李顺德 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 核心 语句 网页 内容 关键词 快速 提取 方法 | ||
1.基于核心语句的网页内容关键词快速提取方法,其特征在于,包括以下步骤:
a.获取网页信息内容的标题和正文;
b.对标题进行分词,获取分词后的各个词组并构建包含这些词组的词组集;
d.对词组集中的词组在正文中进行查询定位,提取各个词组所在的语句,并构建包含这些语句的语句集;
e.判断语句集中的所有语句的总字符长度是否超过预先设定的字符长度阈值,如果超过,则执行步骤f,如果未超过,则执行步骤g;
f.删除语句集中的部分语句,直至剩余所有语句的总字符长度不超过预先设定的字符长度阈值;
g.对语句集中的语句进行分词,获取分词后的各个词组,并从中提取关键词。
2.如权利要求1所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,步骤a中,由计算机根据HTML语法格式对网页信息内容的标题和正文进行区分,获取网页信息内容的标题和正文。
3.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,步骤b中,对标题进行分词的方法是:根据词库及文字组合规则将标题划分为一个个单独的词组。
4.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤b与步骤d之间还包括步骤:
c.对词组集中的各个词组按照权重值的大小来进行排序,所述权重值的大小由网络使用频率的高低来决定,网络使用频率高的词组的权重值大,网络使用频率低的词组的权重值小。
5.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤d中,对词组集中的词组按照权重值大小的顺序在正文中进行查询定位,优先对权重值大的词组进行查询定位。
6.如权利要求1或2所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤d中,还包括:按照查询定位的先后顺序对语句集中的各个语句进行排序,优先查询定位的语句的排序靠前。
7.如权利要求6所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤d中,还包括:对语句集中的各个语句的排序进行修正,修正方法为:将语句集中来源于正文第一段或最后一段的语句的排序靠前。
8.如权利要求7所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,在步骤f中,按照一定的规则删除语句集中的部分语句,所述一定规则为:优先删除语句集中排序最后的语句,再删除语句集中排序倒数第二的语句……依次类推。
9.如权利要求8所述的基于核心语句的网页内容关键词快速提取方法,其特征在于,步骤g的具体步骤包括:
g1.对语句集中的语句进行分词,获取分词后的各个词组;
g2.计算各个词组重复出现的频率;
g3.根据实际需要选择重复出现频率较高的一个或数个词组作为关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110248573.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐溶剂无卤双组份丝印油墨
- 下一篇:一种沥青的改性生产方法