[发明专利]面向多数据源的药品类实体识别方法及装置有效
申请号: | 201710101841.5 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106919794B | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 黄玉丽;李雪莉;关毅 | 申请(专利权)人: | 黑龙江特士信息技术有限公司;哈尔滨工业大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F17/27 |
代理公司: | 11127 北京三友知识产权代理有限公司 | 代理人: | 王涛;汤在彦<国际申请>=<国际公布>= |
地址: | 150000 黑龙江省哈尔滨市经开区*** | 国省代码: | 黑龙;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种面向多数据源的药品类实体识别方法及装置,涉及医疗实体识别技术领域。方法包括:获取原始数据中的待处理语句;将待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;根据预先设置的药品类术语切分策略,对待处理语句进行术语切分,确定第二组候选实体;对各候选实体进行筛选,分别形成第一组药品类候选实体和第二组药品类候选实体;根据预先设置的判断策略从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果。 | ||
搜索关键词: | 面向 多数 药品 实体 识别 方法 装置 | ||
【主权项】:
1.一种面向多数据源的药品类实体识别方法,其特征在于,包括:/n获取原始数据中的待处理语句;/n将所述待处理语句进行单字切分,确定待处理语句中的每个文字;/n根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;/n根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;/n根据预先设置的药品类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;/n根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组药品类候选实体和第二组药品类候选实体;/n若第一组药品类候选实体和第二组药品类候选实体不相同,根据预先设置的判断策略从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果;/n所述根据预先设置的判断策略从第一组药品类候选实体和第二组药品类候选实体中确定药品类实体结果,包括:/n确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;/n若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组药品类候选实体中的候选实体作为药品类实体结果;/n若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组药品类候选实体中的候选实体作为药品类实体结果;/n或者,确定来源于相同待处理语句的原始字符串的第一组药品类候选实体和第二组药品类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为药品类实体结果;/n根据预先设置的药品类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体,包括:/n将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;/n调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;/n将预处理后的待处理语句采用逆向最大匹配原则与预先设置的药品规格数据库和包装规格数据库进行匹配,将从药品规格数据库中匹配到的待处理语句的字符串确定为规格实体,将从包装规格数据库中匹配到的待处理语句的字符串确定为包装规格实体;/n或者,识别预处理后的待处理语句中的数字组合;判断预处理后的待处理语句中所述数字组合后的字符串是否为计量单位;若预处理后的待处理语句中所述数字组合后的字符串为计量单位,则根据计量单位类型,将所述数字组合和计量单位作为整体抽出,形成规格实体或者包装规格实体;/n将预处理后的待处理语句中规格实体和包装规格实体之外的其他字符串,采用逆向最大匹配原则与预先设置的药品名称数据库、剂型数据库以及包材数据库进行匹配;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为产品名的待处理语句的字符串确定为药品产品名实体;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为通用名的待处理语句的字符串确定为药品通用名实体;将从药品名称数据库中匹配到的,且对应药品名称数据库中的词语类型为商品名的待处理语句的字符串确定为药品商品名实体;将从剂型数据库中匹配到的待处理语句的字符串确定为剂型实体;将从包材数据库中匹配到的待处理语句的字符串确定为包材实体;/n根据一预先设置的酸根碱根数据表,在预处理后的待处理语句中确定切分出的药品通用名实体或药品产品名实体之前是否存在分别与药品通用名实体或药品产品名实体连续的酸根词;并在预处理后的待处理语句中确定切分出的药品通用名实体或药品产品名实体之后是否存在分别与药品通用名实体或药品产品名实体连续的碱根词;/n将与药品通用名实体或药品产品名实体连续的酸根词抽出,并加入到其对应的药品通用名实体或药品产品名实体中,且实体类型不变;将与药品通用名实体或药品产品名实体连续的碱根词抽出,并加入到其对应的药品通用名实体或药品产品名实体中,且实体类型不变;/n若在预处理后的待处理语句中药品通用名实体与剂型实体相邻,则将药品通用名实体与剂型实体作为整体抽出,形成药品产品名实体;/n若在预处理后的待处理语句中药品通用名实体之后与预先设置的表示剂型的单字相邻,则将药品通用名实体与所述表示剂型的单字作为整体抽出,形成药品产品名实体;/n判断预处理后的待处理语句中是否存在药品名相关实体;所述药品名相关实体包括药品通用名实体、药品产品名实体和药品商品名实体;/n若预处理后的待处理语句中存在药品名相关实体,则将预处理后的待处理语句中抽取出的规格实体、包装规格实体、剂型实体、包材实体中的一个或多个实体与所述药品名相关实体作为所述第二组候选实体;/n若预处理后的待处理语句中不存在药品名相关实体,则将预处理后的待处理语句中抽取出的规格实体、包装规格实体、剂型实体、包材实体舍弃。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江特士信息技术有限公司;哈尔滨工业大学,未经黑龙江特士信息技术有限公司;哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710101841.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种曲折寿命更高的安全鞋
- 下一篇:一种减少甩水和泥巴的鞋底