[发明专利]基于小样本的医疗数值抽取和理解方法及装置有效
申请号: | 202210221233.9 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114357144B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 胡文蕙;刘学洋;曾晓东 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/216;G06K9/62;G16H50/70;G06F40/289 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 郭亮 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 样本 医疗 数值 抽取 理解 方法 装置 | ||
本发明提供一种基于小样本的医疗数值抽取和理解方法及装置,该方法包括:基于正则化表达式,对目标医疗文本进行数值抽取;基于prompt函数,获取每一数值对应的问句;将每一数值对应的问句和所述目标医疗文本输入问答模型中,得到每一数值对应的属性信息;其中,每一数值对应的属性信息为每一数值对应的问句的答案;所述问答模型,基于第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案,以及第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案进行训练获取;所述第一数量大于第二数量。本发明实现在节约医疗类标注数据资源的同时,达到较好的数值抽取和属性信息抽取效果。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于小样本的医疗数值抽取和理解方法及装置。
背景技术
近年来有很多关于数值抽取的研究,并且该领域已经非常成熟。例如,一些研究人员试图通过定义一系列的抽取模式和优先级,利用正则表达式或者基于规则的语法树来进行数值抽取;或者采用微软开发的Text-recognizer(文本识别器)进行数值抽取。该工具支持抽取纯数字、序号数字、百分比、年龄、货币、度量数值、温度、时间、电话号码、邮箱等数值,在一般领域表现良好,但是在医疗领域并不支持在中文环境下抽取出如mol,mg,L等度量信息。
随着人工智能和神经网络的发展,衍生了一系列数值抽取模型,包括CRF(Conditional Random Field,条件随机场)、LSTM(Long Short-Term Memory,长短期记忆)等方法。这些方法的特点都是依赖于大规模的标注数据,通过词向量(Word2Vector)的方法将文本表示成向量,然后通过神经网络完成命名实体抽取(Named Entity Recognition,NER)的任务,从而抽取出数值实体。由于在实际业务中,医疗领域的数值标注数据较为匮乏,因此无法获取可准确抽取数值的神经网络模型,进而也无法准确抽取出有效的医疗数值。
此外,现有技术中,有大量学者进行了关于数值理解的研究。例如,部分学者提出一种中文文本中实体数值型关系抽取方法,经过文本预处理、句式分析、候选集生成、关系抽取等四个阶段的处理,主要是将文本分词后进行POS(Part Of Speech,词性)标注,然后底层基于一套复杂的规则模式将数值和对应的度量进行匹配,最终生成(实体对象,实体特征,实体属性值)三元组。
另外,部分学者提出一个评测任务,该任务提出了一种关于数值理解的标准范式并给定了大量的英文标注数据。在理解一个数值的过程中主要需要理解以下内容:数值的单位、修饰符、度量的主体、度量的属性、时间范围;如2022年珠穆朗玛峰的高度为8848.13米,数值为8848.13米,单位为米,度量的主体为珠穆朗玛峰,度量的属性为高度,时间范围为2022年。
以上两种主流的方法,前者需要大量的针对目前的业务分析的规则模式,并且由于语言表述的丰富性,使得规则难以枚举完备,适用范围受限;后者需要基于大量的中文标注数据才能完成,而在实际业务中,医疗领域的数值标注数据较为匮乏,且不支持进行大规模的标注工作,因此无法准确理解获取有效的医疗数值的属性信息。
发明内容
本发明提供一种基于小样本的医疗数值抽取和理解方法及装置,用以解决现有技术中在标注数据较少时,无法准确抽取有效的医疗数值和理解获取有效的医疗数值的属性信息,以及适用范围受限的缺陷,实现在标注数据较少时,准确抽取出医疗数值和理解获取相应的属性信息,提高兼容性。
本发明提供一种基于小样本的医疗数值抽取和理解方法,包括:
基于正则化表达式,对目标医疗文本进行数值抽取;
基于prompt函数,获取每一数值对应的问句;
将每一数值对应的问句和所述目标医疗文本输入问答模型中,得到每一数值对应的属性信息;其中,每一数值对应的属性信息为每一数值对应的问句的答案;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210221233.9/2.html,转载请声明来源钻瓜专利网。