[发明专利]一种基于邻接密度的语料数据抽样方法及系统有效

专利信息
申请号: 202011185039.7 申请日: 2020-10-29
公开(公告)号: CN112256823B 公开(公告)日: 2023-06-20
发明(设计)人: 张伯政;吴军;樊昭磊;何彬彬 申请(专利权)人: 众阳健康科技集团有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 李琳
地址: 250000 山东省济南市高*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 邻接 密度 语料 数据 抽样 方法 系统
【说明书】:

本公开提供了一种基于邻接密度的语料数据抽样方法及系统,包括对所述语料数据进行规则化处理,得到标准化语料数据;利用距离度量方法计算所述标准化语料数据中样本点的邻接密度;基于所述邻接密度计算语料数据样本近似分布;根据语料数据样本近似分布进行样本抽样,获得临时抽样结果;根据预设迭代规则进行迭代求解最优超参数值,根据确定的最优超参数值获得最终的语料数据抽样结果;所述方案采用密度衡量邻接面积的方法,能够实现样本密集处少采样、稀疏处多采样,适用于自然语言语料标注任务前的数据筛选过程,避免近似样本过多及稀疏样本过少问题;同时通过多次迭代搜索,寻找原始样本的有效替代样本,提升抽样样本的全面性。

技术领域

本公开涉及数据抽样技术领域,尤其涉及一种基于邻接密度的语料数据抽样方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

现有医学领域积累出庞大数量的病人病例文本信息,自然语言处理有监督学习算法在医学领域的应用,包括命名实体识别(NER)、关系抽取(RE)、句法分析等,非常依赖于原始样本数据标注结果。但数据标注常采用人工进行手动标注,为避免重复标注与无效标注,减少标注时间与人工损失,提高标注质量。思考如何从原始数据集中抽取出覆盖面广、数量可接受的语料数据,在此基础上进行有效的数据标注、分析、挖掘是当前有监督训练方法亟待解决的问题。

自然语言领域文本数据往往具有特征高度抽象、信息杂糅、信息重复等特征,抽样方法不仅需要剔除掉重复信息样本,而且需尽可能全面准确的保留有效信息,为命名实体识别、关系抽取等任务的数据标注提供有效样本。医院中的病例文本长度短则几十字,长则上千字,病例书写常具有特定格式用语,充斥大量的同质信息,例如“既往史”的书写“既往史:既往有高血压、脑梗死病史。否认有糖尿病、冠心病病史,无肝炎、结核病史及密切接触史,无手术、外伤及输血史,无药物及食物过敏史,预防接种史不详”,医生在书写病例时,因时间原因,常采取病例模板,因此病例文本的书写方式大同小异,这势必导致病例文本样本空间中样本点较为紧密,差异不明显,同质化严重。

发明人发现,当前数据抽样方法有很多种,其中随机采样算法是一种简单直接的抽样方法,但由于文本数据的复杂性,标注数据需要人工进行一定干预,严格按照随机原则并不合理。不等比例的分层抽样方法,可以一定程度上解析文本的差异性,但如何恰当的对文本进行预分类是一个难题。现有的传统抽样方法已不能满足自然语言领域数据抽取的需要,无法区分出样本同质部分,在实际数据标注中,会出现稀少样本未标注及重复标注问题。

发明内容

本公开为了解决上述问题,提供一种基于邻接密度的语料数据抽样方法及系统,所述方法采用密度衡量邻接面积的方法,能够实现样本密集处少采样、稀疏处多采样,适用于自然语言语料标注任务前的数据筛选过程,有效避免了近似样本过多及稀疏样本过少问题。

根据本公开实施例的第一个方面,提供了一种基于邻接密度的语料数据抽样方法,包括:

对所述语料数据进行规则化处理,得到标准化语料数据;

利用距离度量方法计算所述标准化语料数据中样本点的邻接密度;

基于所述邻接密度计算语料数据样本近似分布;

根据语料数据样本近似分布进行样本抽样,获得临时抽样结果;

根据预设迭代规则进行迭代求解最优超参数值,根据确定的最优超参数值获得最终的语料数据抽样结果。

进一步的,对所述语料数据进行规则化处理是对所述语料数据进行数学化表示,具体包括:预先将所述语料数据定义为文本序列集合,所述文本序列集合包含若干样本集合,每个样本结合由若干单字组成;其次,利用编码索引算法对每个样本中的单字进行索引表示,得到文本序列集合的向量表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于众阳健康科技集团有限公司,未经众阳健康科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011185039.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top