[发明专利]主题集细化在审

专利信息
申请号: 201980041803.2 申请日: 2019-06-14
公开(公告)号: CN112334890A 公开(公告)日: 2021-02-05
发明(设计)人: C·迈塔尼;M·舍利瓦斯塔瓦;P·舒克拉;J·巴克伦德;D·维格努德里;I·C·杜那拉维奇;张宏安 申请(专利权)人: 微软技术许可有限责任公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36
代理公司: 北京市金杜律师事务所 11256 代理人: 黄倩
地址: 美国华*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 主题 细化
【说明书】:

一种包括一个或多个处理器的计算系统生成针对领域的主题集。由一个或多个处理器执行分类评估器以基于相关性条件对照领域特定分类树评估从领域特定文本数据生成的一组类别簇,并且标识满足相关性条件的类别簇。领域特定分类树是从与领域相关的文档的层次结构生成的。每个所标识的类别簇利用标签被标记。由一个或多个处理器执行主题集创建器以将所标识的一组类别簇的标签插入到针对领域的主题集中。

背景技术

计算系统已经被成功编程以理解人类语言的语法。然而,向计算机系统提供对人类语言的基本含义的理解和欣赏是另一不同且更具挑战性的目标。例如,计算机系统可能在数据集中检测到术语“Tacoma”,但是可能无法区分华盛顿州的城市“Tacoma”和皮卡车模型“Tacoma”。在人类监督技术中,人类领域专家可以提供基本含义,但是无监督计算系统无法访问这样的人类提供的含义。这样,无监督计算系统在对人类语言的理解上往往不如有监督计算系统准确,但是与无监督技术相比,人类监督是昂贵的并且可扩展性较差。但是,计算系统无法以接近人类的准确性来识别人类语言的含义会降低数据搜索、web搜索、产品推荐、拼写检查、语音到文本和文本到语音转换、人类语言计算机交互、数据分类和其他计算机化服务的价值。

发明内容

所描述的技术提供了一种包括一个或多个处理器的计算系统生成针对领域的主题集。由一个或多个处理器执行分类评估器以基于相关性条件(coherency condition)对照领域特定分类树评估从领域特定文本数据生成的一组类别簇(category cluster),并且标识满足相关性条件的类别簇。领域特定分类树是从与领域相关的文档的层次结构生成的。每个所标识的类别簇利用标签被标记。由一个或多个处理器执行主题集创建器以将所标识的一组类别簇的标签插入到针对领域的主题集中。

提供本“发明内容”以便以简化的形式介绍一些概念,这些概念将在下面的“具体实施方式”中进一步描述。本“发明内容”既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。

本文中还描述和叙述了其他实现。

附图说明

图1示出了示例主题提取计算系统。

图2示出了用于从非结构化文本提取领域的类别的示例类别提取器。

图3示出了用于从结构化web文档提取针对领域的分类树的示例分类树提取器。

图4示出了用于增强从分层web文档结构提取针对领域的统一分类树的准确性的示例类别合并。

图5示出了用于增强与领域相关的主题的准确性的示例主题细化。

图6示出了用于生成针对领域的分类树的示例操作。

图7示出了可以用于实现所描述的技术以生成针对领域的分类树的示例计算设备。

具体实施方式

计算系统可以通过构造分类树(类别的结构化集合)(短语被准确分类到为上述分类树中)以自动化或半自动化方式针对领域(例如,行业、研究领域)确定这些短语(例如,主题)的准确含义。从其构造分类树和主题的领域数据本质上可以是结构化的,诸如在web文档的层次结构中(例如,“products.office.com/en-us/business/small-business-solutions”),或者是非结构化的,诸如在从web搜索中捕获的一组文本项(例如,查询、网页标题、网页的文本上下文、或来自选定搜索结果的文本)中。在所描述的技术中,结构化领域和非结构化领域都可以被组合使用,以获取和细化(refine)领域特定主题,这即使对于大型高度异构文档集(诸如万维网)也是很准确的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201980041803.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top