[发明专利]计算机‑人交互式学习中的特征完成有效
申请号: | 201480039790.2 | 申请日: | 2014-07-11 |
公开(公告)号: | CN105393263B | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | P·Y·西马德;D·M·奇克林;D·G·格朗吉耶;D·X·查理;L·布特欧;C·卡西亚胡拉多苏亚雷斯 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00;G06F17/27 |
代理公司: | 永新专利商标代理有限公司72002 | 代理人: | 张扬,王英 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 非常大的数据集合很难进行搜索和/或分析。可以通过将查询和网页自动地分类成有用的类型,并使用这些分类评分作为相关特征,来显著地提高相关性。一种彻底的方法可能需要构建很大数量的分类器,它们对应于各种类型的信息、活动和产品。关于较大的数据集,提供分类器和架构器的生成。分类器和架构器关于数以亿计的项目进行练习,可以通过增加可使用的元数据来揭示该数据固有的值。一些方面包括主动标注探索、自动正则化和冷启动、随着项目数量和分类器数量进行扩充、主动特征化、以及分割和架构化。 | ||
搜索关键词: | 计算机 交互式 学习 中的 特征 完成 | ||
【主权项】:
一种用于机器学习的特征完成的方法,包括:存储第一组数据项,其中,每一个数据项包括词语的文本流;访问字典,其中,所述字典包括词语的列表,所述词语的列表定义能够作为用于训练机器学习模型的输入特征来使用的概念,以利用数据项成为特定类型的数据项的正面例子或者负面例子的概率来对数据项进行评分;提供特征,其中所述特征已经被训练以用于确定位于给定词语位置的词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的概率;以及利用所述字典作为输入特征,对所述机器学习模型进行训练,其中,所述训练包括:A)针对数据项中的文本流中的所述给定词语位置,利用所提供的特征来计算位于所述给定词语位置的所述词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的第一概率,B)检查所述给定词语位置的上下文,其中,所述上下文包括挨在所述给定词语位置之前的多个词语和跟在所述给定词语位置之后的多个词语,并且其中,所述上下文不包括位于所述给定词语位置的所述词语,C)基于所述给定词语位置的所述上下文中的所述词语的函数,计算位于所述给定词语位置的所述词语与由所述字典中的所述词语所定义的所述概念在语义上相对应的第二概率,其中计算所述第二概率包括以下中的一个或多个:1)确定来自给定列表的任何词语是否出现在所述给定词语位置周围的文本窗的中心,其中所述文本窗中的中心词语已被删除,2)确定在所述窗中存在动词还是不存在动词,3)确定存在后面跟着形容词的名词还是不存在后面跟着形容词的名词,或者4)确定给定词语在所述窗中出现的数量,以及D)基于所计算的第一概率,修改所述函数以调整所计算的第二概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201480039790.2/,转载请声明来源钻瓜专利网。
- 上一篇:定制的订阅顾客挽留规程
- 下一篇:网络应用与本地应用之间的渲染委托