[发明专利]自然语言处理方法、装置及计算机设备在审
申请号: | 202210044925.0 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114528919A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 侯盼盼;黄明星;王福钋;张航飞;徐华韫;曹富康;沈鹏 | 申请(专利权)人: | 北京健康之家科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06F40/295;G06F40/30 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 刘敏 |
地址: | 100102 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 处理 方法 装置 计算机 设备 | ||
本申请公开了一种自然语言处理方法、装置及计算机设备,涉及人工智能技术领域,可解决针对不同的自然语言处理任务,需要量身定做相应的模型,同时进行各种“魔改”,导致任务处理效率低、成本高,且通用领域模型表征能力有限,在垂直下游任务中拟合能力较差的技术问题。其中方法包括:根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,其中,预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务;获取待进行自然语言处理的文本数据,并对文本数据进行预处理,其中,预处理包括数据清洗处理、停用词滤除处理中的至少一种;将预处理后的文本数据输入自然语言处理模型中,获取自然语言处理结果。
技术领域
本申请涉及人工智能技术领域,尤其涉及到一种自然语言处理方法、装置及计算机设备。
背景技术
在保险医疗场景中,有着丰富多样的自然语言处理任务,包括文本分类、情感分析、文本聚类、实体识别、文本相似度计算、信息抽取等。每一类任务中又有很多细分场景,比如在实体识别中,既有疾病名称和人物名称提取,也有药品、时间提取,也有医疗诊断证明中的关键实体提取等等。在情感分析中,除了常见的用户情感二分类以外,还需要对同一个事件进行多维度情感分析,比如坐席说话语气、坐席与用户交互轮次等等,这样方便业务人员可以对这个标的进行深入的竞争分析,业绩预测等等。可见,保险医疗领域的NLP任务具有任务庞杂、异构等特点。
目前,对于自然语言处理任务,在常见的解决方案中,算法工程师一般会针对每一类问题,量身定做相应的模型,同时进行各种“魔改”。这会导致大量的时间和精力消耗在了模型选择和测试中。同时,对于保险医疗这类垂直领域的问题,往往还面临着低资源的困境,这主要体现在两个方面:少样本,即数据搜集的成本很高。由于很多问题和具体业务场景有关系,因此能够搜集到的数据总量是有限的;少标注,即数据标注成本很高。对于保险领域的问题,数据标注往往需要专业医疗团队的深度参与,这极大增加了数据标注成本。
发明内容
有鉴于此,本申请公开了一种自然语言处理方法、装置及计算机设备,可用于解决目前在进行自然语言任务处理时,针对不同的处理任务,需要量身定做相应的模型,同时进行各种“魔改”,导致任务处理效率低、成本高,且通用领域模型表征能力有限,在垂直下游任务中拟合能力较差的技术问题。
根据本申请的一个方面,提供了一种自然语言处理方法,该方法包括:
根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,其中,所述预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务;
获取待进行自然语言处理的文本数据,并对所述文本数据进行预处理,其中,所述预处理包括数据清洗处理、停用词滤除处理中的至少一种;
将预处理后的所述文本数据输入所述自然语言处理模型中,获取自然语言处理结果。
可选地,所述根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,包括:
获取所述第一训练任务对应的第一样本语料,以及所述第二训练任务对应的第二样本语料;
根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练;
根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二预训练;
在判断所述BERT模型完成所述第一预训练和所述第二预训练后,将所述BERT模型确定为自然语言处理模型。
可选地,所述第一训练任务包括全词Mask任务、语句顺序预测任务,所述根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京健康之家科技有限公司,未经北京健康之家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210044925.0/2.html,转载请声明来源钻瓜专利网。