[发明专利]基于核心语句的网页内容关键词快速提取方法有效
申请号: | 201110248573.2 | 申请日: | 2011-08-26 |
公开(公告)号: | CN102270244A | 公开(公告)日: | 2011-12-07 |
发明(设计)人: | 孟庆康;文斌;刘东 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都虹桥专利事务所 51124 | 代理人: | 李顺德 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 核心 语句 网页 内容 关键词 快速 提取 方法 | ||
技术领域
本发明涉及关键词语检索技术,具体的说,是涉及一种基于核心语句的网页内容关键词快速提取方法。
背景技术
目前网页内容关键词的计算机自动提取方法主要采用以下方式:1.对网页的全体内容进行分词(即根据词库及文字组合规则将内容划分为一个个单独的词组);2.结合相关的加权算法如TF-IDF(Term Frequency-Inverse Document Frequency)分别计算出各个词组在文章中的频率;3.按照出现频率的高低对各个词组进行排序,并提取排序靠前的词组作为关键词。
上述方式由于在处理过程中需要对文章全体内容进行分词,大大的增加了处理复杂程度和时间成本,特别是在大批量网页数据的关键词提取中效率低下,给运营商带来了诸多不便。
发明内容
本发明所要解决的技术问题是:提出一种基于核心语句的网页内容关键词快速提取方法,快速、高效提取关键词,解决传统技术中网页内容关键词提取复杂、效率低的问题。
本发明解决上述技术问题所采用的技术方案是:基于核心语句的网页内容关键词快速提取方法,包括以下步骤:
a.获取网页信息内容的标题和正文;
b.对标题进行分词,获取分词后的各个词组并构建包含这些词组的词组集;
d.对词组集中的词组在正文中进行查询定位,提取各个词组所在的语句,并构建包含这些语句的语句集;
e.判断语句集中的所有语句的总字符长度是否超过预先设定的字符长度阈值,如果超过,则执行步骤f,如果未超过,则执行步骤g;
f.删除语句集中的部分语句,直至剩余所有语句的总字符长度不超过预先设定的字符长度阈值;
g.对语句集中的语句进行分词,获取分词后的各个词组,并从中提取关键词。
进一步,步骤a中,由计算机根据HTML语法格式对网页信息内容的标题和正文进行区分,获取网页信息内容的标题和正文。
进一步,步骤b中,对标题进行分词的方法是:根据词库及文字组合规则将标题划分为一个个单独的词组。
进一步,在步骤b与步骤d之间还包括步骤:
c.对词组集中的各个词组按照权重值的大小来进行排序,所述权重值的大小由网络使用频率的高低来决定,网络使用频率高的词组的权重值大,网络使用频率低的词组的权重值小。
进一步,在步骤d中,对词组集中的词组按照权重值大小的顺序在正文中进行查询定位,优先对权重值大的词组进行查询定位。
进一步,在步骤d中,还包括:按照查询定位的先后顺序对语句集中的各个语句进行排序,优先查询定位的语句的排序靠前。
进一步,在步骤d中,还包括:对语句集中的各个语句的排序进行修正,修正方法为:将语句集中来源于正文第一段或最后一段的语句的排序靠前。
进一步,在步骤f中,按照一定的规则删除语句集中的部分语句,所述一定规则为:优先删除语句集中排序最后的语句,再删除语句集中排序倒数第二的语句……依次类推。
进一步,步骤g的具体步骤包括:
g1.对语句集中的语句进行分词,获取分词后的各个词组;
g2.计算各个词组重复出现的频率;
g3.根据实际需要选择重复出现频率较高的一个或数个词组作为关键词。
本发明的有益效果是:通过先对标题进行分词,再对获取到的词组在正文中查询定位,得到词组所在语句,最后再对语句进行分词以获得词组并在词组中提取关键词的方式,不需要对正文部分进行全部分词处理,减少了处理过程,大大提高关键词提取效率;并通过采取对语句排序修正和对字符长度精简的措施,保证语句集中的语句为网页内容中的核心语句,有效地提高关键词提取的精度。
附图说明
图1为本发明实施例的方法流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110248573.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐溶剂无卤双组份丝印油墨
- 下一篇:一种沥青的改性生产方法