[发明专利]人机回环交互式模型训练在审
| 申请号: | 201780091409.0 | 申请日: | 2017-09-29 |
| 公开(公告)号: | CN110709864A | 公开(公告)日: | 2020-01-17 |
| 发明(设计)人: | K.陈;E.奥伦;H.伊;J.威尔森;A.拉杰科马;M.哈尔特 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N5/00;G06N5/04;G06N20/20 |
| 代理公司: | 11105 北京市柳沈律师事务所 | 代理人: | 金玉洁 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 谓词 可信赖性 训练模型 解释性 迭代 迭代过程 多次重复 二元函数 可理解性 逻辑组合 时间分量 时间序列 因果关系 预测模型 原子元素 终端用户 专家知识 预测 构建 移除 标示 评估 检查 | ||
1.一种从包括多个特征的数据中训练预测模型的计算机实施的方法,每个特征与真实值和时间分量相关联,所述方法包括在计算机的处理器中运行以下指令的步骤:
a)将多个谓词定义为对特征的时间序列进行操作或对特征的时间序列的逻辑操作进行操作的二元函数;
b)通过执行以下步骤来迭代地训练增强模型:
1)生成若干个新随机谓词;
2)相对于与增强模型的预测相关的类别标签,通过加权信息增益对所有的新随机谓词进行评分;
3)选择具有最高加权信息增益的若干个新随机谓词,并将其添加到增强模型中;
4)计算增强模型中所有谓词的权重;
5)响应于来自操作员的输入,从增强模型中移除所选择的具有最高信息增益的新谓词中的一个或多个;和
6)多次重复执行步骤1、2、3、4和5,从而生成最终的迭代训练后的增强模型。
2.根据权利要求1所述的方法,还包括步骤:c)评估最终的迭代训练后的增强模型。
3.根据权利要求1或权利要求2所述的方法,其中,所述数据是以{X,xi,ti}类型的元组格式,其中,X是特征的名称,xi是特征的真实值,并且ti是真实值xi的时间分量,并且其中,谓词被定义为对元组序列进行操作或对元组序列的逻辑操作进行操作的二元函数。
4.根据权利要求1-3中的任一项所述的方法,其中,所述数据包括多个患者的电子健康记录数据。
5.根据权利要求1-4中的任一项所述的方法,其中,所述方法还包括以下步骤:基于可理解性将谓词划分为组,即,第一组是人类相对容易理解的谓词,以及第二组是人类相对不容易理解的谓词,并且其中,新的随机谓词从第一组中选择。
6.根据权利要求1-5中任一项所述的方法,其中,步骤b)5)还包括以下步骤:图形化地表示当前在增强模型中的谓词,并向操作员提供移除谓词中的一个或多个谓词的能力。
7.根据权利要求1至6中任一项所述的方法,还包括以下步骤:图形化地表示在步骤b)6)的迭代中的每一次迭代之后添加到增强模型中的谓词的集。
8.根据权利要求6所述的方法,还包括以下步骤:图形化地表示在步骤b)4)中计算的谓词中的每一个谓词的权重。
9.根据权利要求5所述的方法,其中,所述数据包括多个患者的电子健康记录数据,并且其中,以在谓词的电子健康记录数据内示出主题或源的方式来表示谓词的集。
10.根据权利要求2所述的方法,其中,所述评估步骤(c)包括评估最终的迭代训练后的增强模型的准确性、复杂性或可信赖性中的至少一项。
11.根据权利要求9所述的方法,其中,所述谓词包括存在谓词和计数谓词,所述存在谓词取决于在多个患者中的给定患者的电子健康记录数据中是否存在特征来返回结果0或1,所述计数谓词取决于相对于数字参数C的多个患者中的给定患者的电子健康记录数据中特征的计数的数量来返回结果0或1。
12.根据权利要求1-11中的任一项所述的方法,其中,步骤b)还包括以下步骤:向操作员提供在模型训练期间定义谓词的能力。
13.根据权利要求1至12中任一项所述的方法,其中,步骤b)还包括以下步骤:移除冗余谓词。
14.根据权利要求3所述的方法,其中,所述元组序列由从1天或更多天、1小时或更多小时、1分钟或更多分钟或者1个月或更多个月组成的组中选择的时间段来定义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780091409.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:使用秘密共享的逻辑回归建模方案
- 下一篇:用于产品识别的压缩网络





