[发明专利]用于在文档中识别中文物种名称的方法与系统在审

专利信息
申请号: 201611198995.2 申请日: 2016-12-22
公开(公告)号: CN106776565A 公开(公告)日: 2017-05-31
发明(设计)人: 庄会富;黄蓉;杜宁;王雨华 申请(专利权)人: 中国科学院昆明植物研究所
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 昆明协立知识产权代理事务所(普通合伙)53108 代理人: 马晓青
地址: 650201 *** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 文档 识别 中文 物种 名称 方法 系统
【权利要求书】:

1.一种在文档中识别中文生物物种名称的方法,其特征在于该方法包括:接收包含中文物种名称的文档,识别所述文档中的中文物种名称字段,识别所述文档中的非物种名称字段,基于所识别的中文物种名称字段向两端扩展、合并以得到所述完整的中文物种名称步骤。

2.如权利要求1所述的一种在文档中识别中文物种名称的方法,其特征在于其中所述非物种名称字段在基于所识别的中文物种名称字段向两端扩展以得到所述完整中文物种名称中作为终止符。

3.如权利要求1所述的一种在文档中识别中文物种名称的方法,其特征在于其中所述识别所述文档中的中文物种名称字段步骤包括:对所述文档进行分句,基于物种名称字典匹配所述文档的分句中出现的所有中文物种名称,记录所述中文物种名称字段的位置信息。

4.如权利要求3所述的一种在文档中识别中文生物物种名称的方法,其特征在于在识别所述文档中的中文物种名称字段步骤中,当同一分句中出现一个以上物种名称片段时,检查物种名称片段位置信息之间是否存在包含关系,响应于多个物种名称片段存在包含关系,保留最长的物种名称片段及位置信息。

5.如权利要求1所述的一种在文档中识别中文生物物种名称的方法,其特征在于其中所述识别所述文档中的非中文物种名称字段步骤包括:对所述文档进行分词,检查每个分词是否在非中文物种名称字段字典中,响应于所述分词在非中文物种名称字段字典中,确定所述分词为非中文物种名称字段,记录所述非物种名称字段的位置信息。

6.如权利要求1所述的一种在文档中识别中文物种名称的方法,其特征在于其中所述基于所识别的中文物种名称字段向两端扩展以得到所述完整中文物种名称步骤包括:从所述中文物种名称字段位置向前后两端扩展直至遇到非物种名称片段为止,以获得所述生物物种名称。

7.如权利要求3或5所述的一种在文档中识别物种名称的方法,其特征在于,所述位置信息由所述任一物种名称片段或非物种名称片段在所述文档中的起始位置和结束位置组成。

8.如权利要求3所述的一种在文档中识别中文生物物种名称的方法,其特征在于,该方法还包括以下步骤至少之一:

从已有的中文物种名称生成中文物种名称片段字典,包括物种中文学名、俗名、栽培驯化后的品种名称;或者,基于非生物领域的中文文档,收集出现频率较高的词,形成非物种名称片段字典。

9.一种在文档中识别中文物种名称的系统,包括:

接收装置,用于接收包括中文物种名称的文档;

识别装置一,用于识别所述文档中的中文物种名称字段;

识别装置二,用于识别所述文档中的非物种名称片段;

合并装置,用于基于所识别的中文物种名称字段向两端扩展、合并以得到所述完整的中文物种名称。

10.权利要求1或9所述的一种在文档中识别中文物种名称的方法或系统在从科技文献中识别中文物种名称中的应用。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院昆明植物研究所,未经中国科学院昆明植物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611198995.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top