[发明专利]一种基于机器学习和文本规则的中药药理作用识别方法及系统在审
申请号: | 201910853829.9 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110675962A | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 李巧勤;刘勇国;杨尚明;蒋羽;李杨;何家欢;蔡茁 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G16H70/40 | 分类号: | G16H70/40;G06F16/35;G06F16/33;G06K9/62 |
代理公司: | 11246 北京众合诚成知识产权代理有限公司 | 代理人: | 马超前 |
地址: | 610054 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于医学或兽医学;卫生学技术领域,公开了一种基于机器学习和文本规则的中药药理作用识别方法及系统,首先基于BIO规则构建训练语料库;然后提取文本特征并对特征进行数字化,采用组合多分类式SVM构建药理作用识别模型;最后采用基于规则的错误驱动学习(TBL)方法对SVM模型输出的标注结果进行后处理,提高实体识别精度。本发明将机器学习方法与基于规则的文本挖掘相关技术相结合,实现从中药文献中自动识别有效的中药药理作用信息,为中药药理作用信息化打下基础,与传统的药理作用研究方法相比,减少人工提取时间以及经济损耗,实现了在中药药理作用实体识别研究方法学上的改进。 | ||
搜索关键词: | 中药药理 实体识别 兽医学 药理作用研究 训练语料库 后处理 错误驱动 规则构建 基于机器 机器学习 经济损耗 文本规则 文本特征 文本挖掘 药理作用 自动识别 作用信息 传统的 方法学 分类式 信息化 构建 标注 数字化 中药 输出 学习 医学 改进 研究 | ||
【主权项】:
1.一种基于机器学习和文本规则的中药药理作用识别方法,其特征在于,所述基于机器学习和文本规则的中药药理作用识别方法包括:/n步骤一,获取包含中药药理作用实体的文档集;/n步骤二,获取的中药药理作用文档集进行预处理,去除文献中对药理作用识别无用的干扰信息,包括期刊信息、作者信息、参考文献、邮编信息、邮箱信息等,提取正文内容并保存为txt文档;/n步骤三,基于BIO规则对文档集的文本进行词性标注,得到规范化语料库,并将规范化语料库划分分为训练语料和测试语料;/n步骤四,从训练语料中提取对实体识别有效的各类特征信息;/n步骤五,将提取的文本特征信息转化为数字特征向量,并采用这些数字特征向量,基于五折交叉验证训练组合多分类式SVM实体识别模型;/n步骤六,利用构建的模型对输入文献的药理作用实体进行自动识别,并采用基于规则的错误驱动学习TBL方法对SVM模型输出的识别结果进行纠错处理。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910853829.9/,转载请声明来源钻瓜专利网。