[发明专利]用于计算类别比例的系统和方法有效
申请号: | 201380026232.8 | 申请日: | 2013-05-22 |
公开(公告)号: | CN104364781B | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | A·菲拉特;M·布鲁克斯;C·宾汉姆;A·赫德安格迪伦;G·金 | 申请(专利权)人: | 克雷姆森海科斯康有限公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇,李科 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供了用于基于语言来分类文本的系统和方法。计算机实现的方法包括接收元素的训练集合,在训练集合中的每个元素被分配给多个类别之一并具有与其相关的多个内容简档之一;接收元素的总体集合,在总体集合中的每个元素具有与其相关的多个内容简档之一;以及使用堆叠回归算法、偏差公式算法、噪声消除算法以及由多个算术方法组成的汇总方法中的至少一个基于与训练集合中的元素相关的内容简档和分配到训练集合中的元素的类别以及与总体集合中的元素相关的内容简档来计算总体集合的元素在类别上的分布,其中,所述多个算术方法的结果被平均化。 | ||
搜索关键词: | 用于 计算 类别 比例 系统 方法 | ||
【主权项】:
一种用于总体上对包含数字内容的数字文档分类的计算机实现的方法,该方法由计算机处理器执行且包括:(a)由所述计算机处理器接收各自包含数字内容的数字文档的训练集合,在所述训练集合中的每个数字文档被分配给多个类别之一并与多个内容简档之一相关联,每个内容简档指示在数字文档的数字内容中一个或多个特征的存在或不存在;(b)由所述计算机处理器接收各自包含数字内容的数字文档的总体集合,在所述总体集合中的每个数字文档具有与其包含的数字内容相关的多个内容简档之一;(c)使用所述多个内容简档将所述训练集合中的数字文档和所述总体集合中的数字文档组织成矩阵,所述矩阵的行对应于每个数字文档且其单元指示数字文档的数字内容中一个或多个特征的存在或不存在;(d)使用矩阵的每行的估计总方差来确定该矩阵行的权重;以及(e)由所述计算机处理器将耦合加权回归的堆叠回归应用至所述矩阵来确定所述总体集合中数字文档属于所述多个类别中各类别的比例,所述加权回归使用为所述矩阵的行确定的权重;(f)确定一个或多个数字文档类别比例,各包括属于各类别的数字文档份额;以及(g)通过根据与数字文档所属的比例对应的类别给数字文档加标签来对数字文档进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于克雷姆森海科斯康有限公司,未经克雷姆森海科斯康有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201380026232.8/,转载请声明来源钻瓜专利网。
- 上一篇:正丁烷氧化制顺丁烯二酸酐的方法
- 下一篇:一种健脾益胃的面粉及其制备方法