[发明专利]用于计算类别比例的系统和方法有效
申请号: | 201380026232.8 | 申请日: | 2013-05-22 |
公开(公告)号: | CN104364781B | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | A·菲拉特;M·布鲁克斯;C·宾汉姆;A·赫德安格迪伦;G·金 | 申请(专利权)人: | 克雷姆森海科斯康有限公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇,李科 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 计算 类别 比例 系统 方法 | ||
相关申请
本申请要求2012年5月25日提交的名称为“Systems and Methods for Calculating Category Proport ions”的美国临时申请61/651,703的优先权,该临时申请通过引用被并入本文。
技术领域
本发明涉及数据挖掘系统的领域。更具体地,本发明涉及用于采用非结构化、结构化或仅部分结构化的源数据的源作为输入数据来估计文档内容在一组类别中的分布或从文档内容得到的结论的系统和方法。
背景技术
通过将源数据分类为给定类别来从源数据——包括包含文本、音频、视频和其它通信媒体的文档和文件——提取信息的努力有很长的历史。数字内容(例如网页、博客、电子邮件、数字化书籍和文章、正式政府报告和立法听证和记录的电子版本以及特别是社交媒体例如TWITTER、FACEBOOK和LINKEDIN的帖子)的数量的增加对希望挖掘这样的丰富信息源以获得有用的信息的人产生了计算挑战。
简化这个问题的一种方法是对内容分类。也就是说,将不同的内容分配到多个类别。用于确定内容在这样的类别中的分布的传统技术聚焦于增加被正确地分类的单独元素的百分比和用于这么做的技术,且然后假设单独分类的元素的总比例表示在未检查的元素的更广总体中的分布。不幸的是,即使具有单独元素的给人印象深刻的分类准确度,在例如这些的总比例中的实质偏离仍会保持,且挑战随着数据集的大小和复杂度而增加,从而使得这些传统技术不适合于很多应用。因此,源数据的元素的单独分类——包括通过自动分析或手工编码——在大规模上是不可行的。
King等人在2008年3月19日提交的并于2009年1月29日公布的US 2009/0030862(“System for Estimat ing a Distribut ion of Message Content Categories in Source Data”)中公开了一种改进的方法,其首先评估具有某些内容简档的文档的带标记的集合并将在带标记的集合中的文档分配到类别,然后直接从文档的总体集合的内容简档计算文档的分布;该方法也可参见2008年3月公布的并在http://gking.harvard.edu/可得到的Daniel Hopkins和Gary King的“Extracting systemat ic social science meaning from text”。虽然这种方法使分析大量数据变得可能,但仍然可以对分类数据时的准确度进行改进。
发明内容
本发明包括用于计算总体集合中的类别比例的系统和方法。在第一方面中,提供了计算机实现的方法。在这个方面中,计算机处理器接收元素的训练集合。在训练集合中的每个元素被分配给多个类别之一并具有与其相关的内容简档。计算机处理器还接收元素的总体集合,在总体集合中的每个元素具有内容简档。计算机处理器然后应用堆叠回归方法基于与训练集合中的元素相关的内容简档和分配到训练集合中的元素的类别以及与总体集合中的元素相关的内容简档来计算总体集合的元素在类别上的分布。
在本发明的又一方面中,代替第一方面中的堆叠回归方法来应用偏差公式方法。在本发明的另一方面中,代替在第一方面中的堆叠回归方法来应用噪声消除方法。在本发明的再一方面中,代替在第一方面中的堆叠回归方法来应用由多种算术方法组成的汇总方法,这些算术方法的结果被平均化。
在本发明的再一方面中,提供了用于计算总体集合的类别比例的系统。该系统具有训练模块和总体集合类别估计模块。训练模块包括耦合到存储器的训练处理器,存储器包括使训练处理器执行下列操作的软件指令:(i)接收训练数据,训练数据包括多个训练文本元素,(ii)向用户呈现至少一些训练文本元素,从用户接收训练文本元素所属于的类别的指示,并使用所指示的类别给训练文本元素加标签,以及(iii)存储使用类别加标签后的训练文本元素。总体集合类别估计模块包括耦合到存储器的估计处理器,存储器包括使估计处理器执行下列操作的软件指令:(i)接收总体数据,总体数据包括多个总体文本元素,(ii)计算在训练集合中指示的每个类别的内容简档,(iii)计算总体集合的内容简档,以及(iv)基于与为训练集合中的元素指示的类别相关的内容简档和总体集合的内容简档来计算总体集合的属于每个类别中的比例。在执行其计算时,总体集合类别估计模块应用堆叠回归方法、偏差公式方法和噪声消除方法中的至少一个。
附图说明
图1是计算机系统的示例性实施方式的示意图;
图2是本发明的系统的体系结构图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于克雷姆森海科斯康有限公司,未经克雷姆森海科斯康有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380026232.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:正丁烷氧化制顺丁烯二酸酐的方法
- 下一篇:一种健脾益胃的面粉及其制备方法