[发明专利]用于计算类别比例的系统和方法有效
申请号: | 201380026232.8 | 申请日: | 2013-05-22 |
公开(公告)号: | CN104364781B | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | A·菲拉特;M·布鲁克斯;C·宾汉姆;A·赫德安格迪伦;G·金 | 申请(专利权)人: | 克雷姆森海科斯康有限公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇,李科 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 计算 类别 比例 系统 方法 | ||
1.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法,该方法由计算机处理器执行且包括:
(a)由所述计算机处理器接收各自包含数字内容的数字文档的训练集合,在所述训练集合中的每个数字文档被分配给多个类别之一并与多个内容简档之一相关联,每个内容简档指示在数字文档的数字内容中一个或多个特征的存在或不存在;
(b)由所述计算机处理器接收各自包含数字内容的数字文档的总体集合,在所述总体集合中的每个数字文档具有与其包含的数字内容相关的多个内容简档之一;
(c)使用所述多个内容简档将所述训练集合中的数字文档和所述总体集合中的数字文档组织成矩阵,所述矩阵的行对应于每个数字文档且其单元指示数字文档的数字内容中一个或多个特征的存在或不存在;
(d)使用矩阵的每行的估计总方差来确定该矩阵行的权重;以及
(e)由所述计算机处理器将耦合加权回归的堆叠回归应用至所述矩阵来确定所述总体集合中数字文档属于所述多个类别中各类别的比例,所述加权回归使用为所述矩阵的行确定的权重;
(f)确定一个或多个数字文档类别比例,各包括属于各类别的数字文档份额;以及
(g)通过根据与数字文档所属的比例对应的类别给数字文档加标签来对数字文档进行分类。
2.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法,该方法由计算机处理器执行的且包括:
(a)由所述计算机处理器接收数字文档的训练集合,在所述训练集合中的每个数字文档被分配给多个类别之一并关联于指示在其中一个或多个特征存在或不存在的多个内容简档之一;
(b)由所述计算机处理器接收数字文档的总体集合,在所述总体集合中的每个数字文档具有与其相关的多个内容简档之一;以及
(c)由所述计算机处理器应用偏差公式方法基于与所述训练集合中的数字文档相关联的内容简档和分配给所述训练集合中的数字文档的类别以及与所述总体集合中的数字文档相关的内容简档来确定所述总体集合的数字文档属于所述多个类别中各类别的比例;
(d)确定一个或多个数字文档类别比例,各包括属于各类别的数字文档份额;以及
(e)通过根据与数字文档所属的比例对应的类别给数字文档加标签来对数字文档进行分类。
3.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法,该方法由计算机处理器执行且包括:
(a)由所述计算机处理器接收数字文档的训练集合,在所述训练集合中的每个数字文档被分配给多个类别之一并关联于指示在其中一个或多个特征存在或不存在的多个内容简档之一;
(b)由所述计算机处理器接收数字文档的总体集合,在所述总体集合中的每个数字文档具有与其相关的多个内容简档之一;以及
(c)由所述计算机处理器应用噪声消除方法基于与所述训练集合中的数字文档相关联的内容简档和分配给所述训练集合中的数字文档的类别以及与所述总体集合中的数字文档相关的内容简档来计算所述总体集合的数字文档属于所述多个类别中各类别的比例;
(d)确定一个或多个数字文档类别比例,各包括属于各类别的数字文档份额;以及
(e)通过根据与数字文档所属的比例对应的类别给数字文档加标签来对数字文档进行分类。
4.一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法,该方法由计算机处理器执行且包括:
(a)由所述计算机处理器接收数字文档的训练集合,在所述训练集合中的每个数字文档被分配给多个类别之一并关联于指示在其中一个或多个特征存在或不存在的多个内容简档之一;
(b)由所述计算机处理器接收数字文档的总体集合,在所述总体集合中的每个数字文档具有与其相关的多个内容简档之一;以及
(c)由所述计算机处理器应用由多个算术方法组成的汇总方法基于与所述训练集合中的数字文档相关联的内容简档和分配给所述训练集合中的数字文档的类别以及与所述总体集合中的数字文档相关的内容简档来计算所述总体集合的数字文档属于所述多个类别中各类别的比例,所述多个算术方法的结果被平均化,所述汇总包括偏差公式方法;
(d)确定一个或多个数字文档类别比例,各包括属于各类别的数字文档份额;以及
(e)通过根据与数字文档所属的比例对应的类别给数字文档加标签来对数字文档进行分类。
5.如权利要求4所述的计算机实现的方法,其中所述汇总包括与加权回归耦合的堆叠回归方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于克雷姆森海科斯康有限公司,未经克雷姆森海科斯康有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380026232.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:正丁烷氧化制顺丁烯二酸酐的方法
- 下一篇:一种健脾益胃的面粉及其制备方法