[发明专利]用于不同标记集合的转移学习技术的系统和方法有效
申请号: | 201680039897.6 | 申请日: | 2016-07-05 |
公开(公告)号: | CN107735804B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 金永邦;R·萨里卡亚 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G06K9/62;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;杜波 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 不同 标记 集合 转移 学习 技术 系统 方法 | ||
1.一种用于映射不同标记集合的系统,包括:
至少一个处理器;以及
耦合到所述至少一个处理器的存储器,所述存储器包括计算机可执行指令,所述计算机可执行指令在由所述至少一个处理器执行时执行一种方法,所述方法包括:
访问与至少第一领域相关联的第一已标记数据集合,其中所述第一已标记数据集合包括一个或多个标记和对应的数据值;
将所述第一已标记数据集合转换成向量集合,其中所述向量集合至少包括第一向量和第二向量,所述第一向量包括第一标记,所述第二向量包括第二标记;
使用一项或多项聚类技术来识别所述第一标记与所述第二标记之间的共同性,其中所述共同性指示所述第一标记和所述第二标记属于共享的簇类别;
至少基于所识别的所述第一标记与所述第二标记之间的所述共同性,生成包括第三标记的粗糙标记集合,所述第三标记表示所述共享的簇类别,其中所述第三标记表示所述第一标记和所述第二标记的抽象;
使用所述粗糙标记集合来训练针对第二领域的模型以执行与自然语言理解相关联的转移学习技术,其中所述转移学习技术包括:使所述第一领域中的数据适应所述第二领域,以及使用来自所述第一领域和所述第二领域的数据的联合来训练所述模型,其中所述第二领域与所述第一领域不同;以及
使用所训练的所述模型,将与所述粗糙标记集合相关联的第一粗糙标记映射到与所述第二领域相关联的精细标记。
2.根据权利要求1所述的系统,还包括:接收来自接收到的输入的已标记数据,其中所述已标记数据包括与所述接收到的输入相关联的查询数据。
3.根据权利要求2所述的系统,还包括:使用所述模型向用户提供查询的结果集合。
4.根据权利要求1所述的系统,其中转换所述第一已标记数据集合包括:对所述第一已标记数据集合应用标准相关分析CCA。
5.根据权利要求1所述的系统,其中生成所述粗糙标记集合包括:使用从以下组中选择的至少一种技术来至少聚合所述第一向量和所述第二向量:所述组包括k均值聚类、谱聚类、相似性传播、均值漂移、Ward层级聚类、凝聚聚类、DBSCAN、Gaussian混合和Birch聚类。
6.根据权利要求1所述的系统,其中所述粗糙标记集合从至少两个向量生成。
7.根据权利要求1所述的系统,其中训练所述模型包括:识别与所述粗糙标记集合在语义上相关的一个或多个标记。
8.根据权利要求6所述的系统,还包括:使用识别的所述一个或多个标记来预测用于目标领域的标记。
9.根据权利要求1所述的系统,其中所述第二标记共享至少所述第一向量和所述第二向量的所述共同性。
10.根据权利要求1所述的系统,其中所述第一领域与模式相关联,所述模式在所述已标记数据集合内指定意图、插槽或元数据中的至少一项。
11.根据权利要求1所述的系统,其中所训练的所述模型被用来对所述第二领域内的标记做出预测,其中所述预测包括以下至少一项:在标记映射期间导出的标记相关性、关于同义标记名称的数据、历史映射数据或插槽分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680039897.6/1.html,转载请声明来源钻瓜专利网。