[发明专利]一种图书关键字自动生成的方法无效
申请号: | 201010133153.5 | 申请日: | 2010-03-26 |
公开(公告)号: | CN101826102A | 公开(公告)日: | 2010-09-08 |
发明(设计)人: | 庄越挺;吴江琴;张亮;张寅;魏宝刚 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种图书关键字自动生成方法。确定图书与作者的关系,从互联网上抓取书评,将其分词并标注词性,留下名词作候补关键词;通过谷歌检索候补关键词在维基百科中出现的文档数目以初步评定重要性,过滤语气词、错别字;将作者、图书、评论和候补关键词作为四种节点,将其互相间的关系作为边,构建四部图;基于四部图,运用以图书为中心的吸收态随机行走算法挑选出最重要的候补关键词作为图书关键字。本发明考虑了同一作者著作的主题一致性、内容相关性及读者反馈,关键词正确率高;充分覆盖读者不同角度的书评,关键词多样化;数据来自互联网,书评数量庞大、涵盖面广,方法覆盖面广。 | ||
搜索关键词: | 一种 图书 关键字 自动 生成 方法 | ||
【主权项】:
一种图书关键字的自动生成方法,其特征在于包括以下步骤:(1)确定图书与作者的对应关系,从互联网网站上抓取对应图书的对内容、风格、价值表达观点和看法的文学评论及其流行度,将图书评论分词,用词性标注器将其中的词标注词性,留下其中的名词作为候补关键词;(2)使用维基百科衡量器,通过Google检索候补关键词在维基百科中出现的文档数目和维基百科文档总数,利用公式WIKIIDF(i)=log(N/W)初步评定候补关键词的全局重要性,过滤语气词、错别字,其中WIKI_IDF表示通过维基百科衡量器得到的词的重要性,i为目标候补关键词,M为查询得到的文档数,N为中文维基百科文档总数;(3)将作者、图书、评论和候补关键词四种类型的个体作为四种节点,将其互相之间的关系作为边,利用图书与作者对应关系、图书与书评对应关系、维基百科衡量器、文本长度和流行度构建四部图;(4)基于四部图,运用以图书为中心的吸收态随机行走算法对候补关键词的重要性进行排序,挑出排序最高的几个候补关键词作为图书的关键字。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010133153.5/,转载请声明来源钻瓜专利网。