[发明专利]用于在文档中识别中文物种名称的方法与系统在审
申请号: | 201611198995.2 | 申请日: | 2016-12-22 |
公开(公告)号: | CN106776565A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 庄会富;黄蓉;杜宁;王雨华 | 申请(专利权)人: | 中国科学院昆明植物研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 昆明协立知识产权代理事务所(普通合伙)53108 | 代理人: | 马晓青 |
地址: | 650201 *** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文档 识别 中文 物种 名称 方法 系统 | ||
技术领域:
本发明整体上涉及计算机信息处理技术领域,特别地,涉及一种用于在文档中识别中文物种名称的方法与系统。
技术背景:
目前,随着生物多样性领域的科学技术发展,涉及生物学领域的各类书籍、科技论文以及专利文献等日益增多。在这些文献的计算机深度处理中,生物物种中文名称识别技术显得非常重要。源于中文语义及构词的复杂性,生物物种中文名结构复杂,其书写格式多样或不规范等原因,目前还没有一种用于在文档中识别中文物种名称的技术或方法,在计算机处理生物类科技文献时,需要一种用于文档中识别生物物种名称的方法与系统。
发明内容:
本发明一方面提供一种用于在文档中识别中文物种名称的方法,步骤包括:接收包含中文物种名称的文档;识别所述文档中的中文物种名称字段;识别非物种名称字段;基于所识别的中文物种名称字段向两端扩展,扩展到非物种名称字段终止,合并物种名称字段以得到所述中文物种名称。
本发明另一方面提供一种用于在文档中识别中文物种名称的系统,如图2所示,装置包括:接收装置,用于接收包含中文物种名称的文档;识别装置一,用于识别所述文档中的中文物种名称片段;识别装置二,用于识别所述文档中的非物种名称片段;以及合并装置,用于基于所识别的中文物种名称片段向两端扩展以得到所述完整的中文物种名称。
本发明的具体实施方式可以有效地从科技文献中识别中文物种名称。
为了实现上述目的,本发明提供了如下的技术方案:
一种在文档中识别中文物种名称的方法,该方法包括:接收包含中文物种名称的文档,识别所述文档中的中文物种名称字段,识别所述文档中的非物种名称字段,基于所识别的中文物种名称字段和非物种名称字段,扩展、合并以得到所述完整中文物种名称步骤。
如所述的一种在文档中识别中文物种名称的方法,其中所述识别所述文档中的非物种名称字段步骤包括:对所述文档进行分词,检查每个分词是否在非中文物种名称字段字典中,响应于所述分词在非中文物种名称字段字典中,确定所述分词为非中文物种名称字段,记录所述非中文物种名称字段的位置信息。
如所述的一种在文档中识别中文物种名称的方法,其中所述识别文档中的中文物种名称字段步骤包括:对所述文档进行分句,基于中文物种名称字典匹配所述文档的分句中出现的所有中文物种名称,记录所述中文物种名称字段的位置信息。
如所述的一种在文档中识别中文生物物种名称的方法,所述位置信息由所述任一物种名称片段或非物种名称片段在所述文档中的起始位置和结束位置组成。
如所述的一种在文档中识别中文物种名称的方法,其中所述非物种名称字段在基于所识别的中文物种名称字段向两端扩展,以得到所述完整中文物种名称中作为终止符。
如所述的一种在文档中识别中文生物物种名称的方法,其中所述基于所识别的中文物种名称字段向两端扩展以得到所述完整中文物种名称步骤包括:从所述生物物种名称字段位置向前后两端扩展直至遇到非生物物种名称片段为止,以获得所述生物物种名称。
如所述的一种在文档中识别中文生物物种名称的方法,在识别所述文档中的中文物种名称字段步骤中,当同一分句中出现一个以上物种名称片段时,检查物种名称片段位置信息之间是否存在包含关系,响应于多个物种名称片段存在包含关系,保留最长的物种名称片段及位置信息。
如所述的一种在文档中识别中文物种名称的方法,该方法还包括以下步骤至少之一:
从已有的生物学领域中文物种名称生成中文物种名称片段字典,包括物种中文学名、俗名、栽培驯化后的品种名称;或者,基于非生物学领域的中文文档,例如数学、物理学、法学、社会学、心理学、管理学等;收集出现频率较高的词,形成非生物物种名称片段字典。
本发明还提供了所述的一种在文档中识别中文物种中文名称的方法与系统用于从科技文献中识别中文物种名称。
本发明的方法主要步骤包括接收包含中文物种名称的文档,识别所述文档中的中文物种名称字段,识别非物种名称字段,基于所识别的中文物种名称字段和非物种名称字段扩展、合并以得到所述完整的我中文物种名称。本发明的具体实施方式可以有效地从科技文献中识别中文物种名称。
附图说明
图1:本发明用于在文档中识别中文物种名称的具体实施方式示意图。
图2:本发明用于在文档中识别中文物种名称的系统构成示意图。
图3:本发明用于在文档中识别中文物种名称的计算机设备结构框架图。
具体实施方式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院昆明植物研究所,未经中国科学院昆明植物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611198995.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于知识图谱的语义识别方法及系统
- 下一篇:情感词汇的识别方法及装置