[发明专利]标记训练集数据有效
申请号: | 201911101818.1 | 申请日: | 2019-11-12 |
公开(公告)号: | CN111177368B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | C·姆瓦拉布 | 申请(专利权)人: | 玛雷迪夫美国公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F40/253;G06F40/247;G16H50/20;G16H50/70 |
代理公司: | 北京世峰知识产权代理有限公司 11713 | 代理人: | 卓霖;张春媛 |
地址: | 美国密*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记 训练 集数 | ||
1.一种包括指令的计算机可读存储介质,所述指令在被执行时使得处理器:通过以下、基于有限的一组标记训练数据和较大的一组未标记训练数据来生成机器学习模型,所述标记训练数据和所述未标记训练数据具有共同的主题:
针对多个类别中的每个类别,标识与正被分类的训练数据对应的术语的包含列表和与当前未被分类的训练数据对应的术语的排除列表;
针对所述类别中的每个类别,从所述未标记训练数据获取文档子集,所述子集包括包含来自所述包含列表的任何术语的所有文档并且排除包含来自所述排除列表的术语的任何文档;
在每个文档子集内,标识设定标准内的、与来自所述包含列表或所述排除列表的术语相似的术语,并且将那些标识的术语分别添加到所述包含列表或所述排除列表;
重复基于所述包含列表和所述排除列表从所述未标记训练数据获取文档子集以及从所述文档子集内标识相似术语,直到没有新的相似术语在所述设定标准内被标识;以及
针对每个类别、从所述未标记训练数据生成包括最终文档子集的所述机器学习模型的训练数据。
2.根据权利要求1所述的介质,其中所述设定标准包括对应的单词或短语向量的余弦相似度。
3.根据权利要求1所述的介质,还包括:当生成所述包含列表和所述排除列表时,从所述未标记训练数据提取潜在短语并且将所述短语中的每个短语令牌化为单个单词。
4.根据权利要求3所述的介质,还包括:基于令牌化的所述短语来针对所述子集的每个文档生成单词向量。
5.根据权利要求1所述的介质,其中所述未标记数据包括病例,并且所述包含列表和所述排除列表上的所述术语包括医疗术语。
6.一种从具有标记文档子集的文档语料库进行主题提取的计算机实现的方法,所述方法包括:
从所述标记文档标识多个包含列表,其中每个包含列表包括标识共享主题的一组术语;
确定针对每个包含列表的排除列表,其中来自任何包含列表的所述术语存在于所有其他包含列表的排除列表上;
在所述语料库中标识具有第一包含列表的一组术语中的术语的第一文档,并且其中所述文档不包含所述第一包含列表的所述排除列表上的术语;
对来自所述第一文档中的所述第一包含列表的所述一组术语的术语令牌化;
解析所述第一文档以形成n元语法;
基于余弦相似度来对所述n元语法排序以标识潜在的新术语;
将所述潜在的新术语的词性与所述一组术语的术语的一部分比较;
向所述第一包含列表的所述一组术语添加高频n元语法;
向除了所述第一包含列表的其他包含列表的所述排除列表添加高频n元语法;
重复标识、令牌化、解析、排序、比较、添加和针对所述包含列表中的每个包含列表的添加的操作,直到没有具有包含列表上的术语而没有来自相关联的排除列表的术语的未标记文档保留在所述语料库中。
7.根据权利要求6所述的方法,其中文档是较大文档的段落。
8.根据权利要求6所述的方法,其中所述排除列表还利用来自所述语料库中的标记文档的标识的单词被填充。
9.根据权利要求6所述的方法,其中所述语料库中的具有标识的关键字而没有来自相关联的所述排除列表的关键字的所有文档被解析以形成n元语法,并且其中所述n元语法被分类在一起以标识高频n元语法。
10.根据权利要求6所述的方法,其中所述n元语法基于在基线之上的频率而被排序,其中所述基线从没有来自任何排除列表的术语的第二文档语料库被确定。
11.根据权利要求6所述的方法,还包括:标识与新主题相关联的高频n元语法,以及在所述包含列表上创建包括所述高频n元语法的新主题。
12.根据权利要求6所述的方法,还包括从数据库提取主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于玛雷迪夫美国公司,未经玛雷迪夫美国公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911101818.1/1.html,转载请声明来源钻瓜专利网。