[发明专利]一种提取文本主题词的方法有效
申请号: | 200910001578.8 | 申请日: | 2009-01-12 |
公开(公告)号: | CN101464898A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 方高林;郑全战 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 谢安昆;宋志强 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 文本 主题词 方法 | ||
技术领域
本发明涉及互联网信息处理技术领域,尤其涉及一种提取文本主题词的方法。
背景技术
提取文本主题词是很多网络应用都需要面临的技术问题。例如,在基于内容的网络广告应用中,需要提取用户当前浏览的网页内容的主题词,然后向该用户发送与该主题词相关的广告;在搜索引擎建立索引时,需要提取搜索到的各个文本的主题词,然后根据从各个文本提取到的主题词建立各个文本的索引,从而提高检索效率;在基于内容的文本分类中,也需要提取能够反映文本内容的主题词,然后根据提取到的主题词进行文本分类。
目前,提取文本主题词的普遍方法是:首先建立大规模语料库,其中存储有大量的文本,根据大规模语料库建立语言词库,该语言词库中涵盖了从大规模语料库中统计得到的现有词。在提取待处理文本的主题词时,对待处理文本进行分词处理,将待处理文本分成现有词的组合序列,例如,采用通用的基于二元词模型的方法对待处理文本中的各个句子进行切分。然后将待处理文本中的现有词在所述大规模语料库中的词频或者文档频率或者逆文档频率(TFIDF),在词频或者文档频率或者TFIDF在第一预定范围内时,将相应现有词提取为待处理文本的主题词。
可见,现有技术根据基于大规模语料库得到的语言词库来对待处理文本进行分词处理,并从待处理文本中分出的现有词在所述大规模语料库中的词频或者文档频率或者TFIDF来提取主题词。
然而,在实际的网络应用中,常常会出现很多现有的语言库没有收录的新词,例如“霸王面”、“北漂一族”、“啃老”等,而这些新词作为文本的主题词的概率又很高。
可见,一旦能够表达待处理文本主题的词(下文简称待处理文本的主题词)不在已有的语言库中,由于无法根据现有的语言库从待处理文本中分出该主题词,因此,也不可能从待处理文本中提取该出题词,导致提取的主题词不全面。
发明内容
有鉴于此,本发明实施例的目的在于提供一种提取文本主题词的方法,以提高提取的主题词的全面性。
为达到上述目的,本发明实施例的技术方案具体是这样实现的:
一种提取文本主题词的方法,该方法包括:
将待处理文本切分成现有词的组合序列;
对于每一待处理文本,查找并提取在该待处理文本中的出现频率大于预定频率的候选字符串,根据该候选字符串的前缀和/或后缀的成词概率,从候选字符串中过滤出新词;
根据现有词和新词在待处理文本中的出现频率,将出现频率大于预定阈值的现有词和新词作为候选主题词;根据候选主题词在待处理文本中的出现位置,从所述候选主题词中选择主题词聚类中心;计算候选主题词与所述主题词聚类中心的距离,将距离大于预定阈值的所述候选主题词聚类为主题词。
由上述技术方案可见,本发明在将待处理文本分成现有词的组合序列后,对于每一待处理文本,查找并提取在该待处理文本中的出现频率大于预定频率的候选字符串,根据该候选字符串的前缀和/或后缀的成词概率,从候选字符串中过滤出新词,根据现有词和新词在所述待处理文本中的出现概率,从所述现有词和新词中提取该待处理文本的主题词。
由于本发明在提取主题词之前进行了基于局部特征的新词发现,即,对于每一待处理文本,都统计该待处理文本中重复次数大于预定频率的候选字符串,并根据候选字符串的前缀和/或后缀的成词概率,从候选字符串中过滤出新词,该新词是基于每一个待处理文本得到的,而非基于大规模语料库得到,因此, 能够更有针对性地体现待处理文本的主题,通过从该新词中提取主题词,可以提高提取的主题词的全面性。
附图说明
图1是本发明提供的提取文本主题词的方法流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
图1是本发明提供的提取文本主题词的方法流程图。
其中,步骤101~102用于提取待处理文本,并对待处理文本进行分词处理和词性标注,步骤101~102可以采用现有技术实现。
步骤103~104用于从待处理文本中发现新词。
步骤105用于从待处理文本包含的现有词和新词中提取文本主题词。步骤105可以采用现有技术中将出现频率在第一预定范围内的词作为主题词的方案实现,也可以采用本发明提供的主题词聚类方法实现。
下面结合图1对本发明的方法进行详细介绍。
如图1所示,本发明提供的提取文本主题词的方法包括:
步骤101,提取待处理文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910001578.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:存储器
- 下一篇:合成孔径激光成像雷达的矩形孔径望远镜天线