[发明专利]基于中医药领域专业词向量的中草药植物图片爬取方法有效
申请号: | 201610146357.X | 申请日: | 2016-03-15 |
公开(公告)号: | CN105824904B | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 魏宝刚;张引;庄越挺;谭亮 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于中医药领域专业词向量的中草药植物图片爬取方法。首先需要选择收集中医药文本数据,本发明采用医学书籍的文本信息以及从百科网站上爬取的中医药相关的词条信息;其次,利用这些文本数据训练Word2Vec模型得到中医药领域专业词向量;然后,利用谷歌、百度等通用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的文本信息,并利用Doc2Vec模型计算各源网页的特征向量;最后,根据源网页的特征向量与对应中草药词向量的相似度对候选图片集进行重排,选取排在前面的若干图片,然后使用感知哈希算法对图片集进行去重处理,得到最终的图片集。 | ||
搜索关键词: | 基于 中医药 领域 专业 向量 中草药 植物图片 方法 | ||
【主权项】:
1.一种基于中医药领域专业词向量的中草药植物图片爬取方法,其特征在于包括以下步骤:1)对医学书籍进行OCR处理,提取医案文本信息;同时,爬取百科网站上中医药相关的词条信息;2)将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词,同时过滤掉停用词,构建Word2Vec的训练集;3)训练Word2Vec模型,构造词向量矩阵,即对每一个单词,用一个向量来表示;4)对于每一种中草药植物,利用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的内容;5)对第4)步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容,然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息;6)利用第5)步所得的文本和第3)步得到的词向量矩阵训练Doc2Vec模型,即用第3)步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向量,训练完后便得到各源网页的文档向量;7)根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得到的候选图片集进行重排和过滤,选出相似度高于预设阈值的图片集,作为候选图片集;8)对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理,得到最终的图片集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610146357.X/,转载请声明来源钻瓜专利网。
- 上一篇:用户社会关系识别装置和方法
- 下一篇:基于脑电波的音乐播放控制方法及装置