[发明专利]自助分类系统有效

专利信息
申请号: 201780006568.6 申请日: 2017-04-04
公开(公告)号: CN108463795B 公开(公告)日: 2022-03-08
发明(设计)人: S·赫兹;H·扎罗西姆;O·哈扎伊;O·罗姆;E·阿济克利;L·温特劳布;Y·林德曼;E·魏因雷布;S·卡拉曼;Y·本什洛莫;D·莱文森;E·沙拉比;A·R·戈德什拉格 申请(专利权)人: 金融及风险组织有限公司
主分类号: G06F3/0482 分类号: G06F3/0482;G06F40/205;G06F16/35;G06K9/62;G10L15/18
代理公司: 北京润平知识产权代理有限公司 11283 代理人: 陈潇潇;肖冰滨
地址: 英国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自助 分类 系统
【说明书】:

公开了用于生成定制的分类模型的系统、技术和方法。该系统和技术(诸如Thomson Reuters Self‑Service ClassificationTM)部分采用机器学习,并部分采用用户交互式方法以生成定制的分类模型。该系统结合了一种新颖的文本分类方法,其使用较小的初始数据集来启动训练,并且具有用于定制的独特的工作流程和用户交互。

版权声明

专利文档公开的一部分包含受版权保护的材料。版权所有者不反对任何人复制与专利和商标局的专利文档或记录中显示的一致的本专利文档或专利公开,但是另外无论如何保留所有的版权权利。以下声明适用于本文档:2017Thomson Reuters。

相关申请的交叉引用

本申请要求于2016年4月5日提交的标题为“自助分类(Self-ServiceClassification)”的美国临时申请第62/318,412号,以及于2016年8月17日提交的标题为“自助分类(Self-Service Classification)”的美国临时申请第62/376,039号的优先权。本段中提到的每个申请都通过引用整体并入本文。

技术领域

本公开涉及文档的分类,并且更具体地涉及用于生成定制的分类模型的方法和系统。

背景技术

许多公司正在积累大量的数据。他们每天都会生成和接收无数的文档、电子邮件、报告和其他内容。将文档分类到特定主题并创建分类模型的能力可以改进文档搜索、提高生产力、降低存储成本并且帮助进行分析以更好地利用数据。专业人员通常需要在大量非结构化文档中标识特定信息。例如,对“黄金开采”感兴趣的专业人士不可能去阅读所有提到“黄金”一词的新闻文档。由于缺乏适当的工具,许多组织和用户依靠手动分类文档的方式。该手动分类过程可能需要大量人力、耗时、昂贵并且容易出错。

手动分类的替代方法是训练将用来执行分类的机器学习模型。但是,为这些模型创建训练数据可能需要大量人力,并且建立和训练这些模型需要机器学习方面的专业知识。

通常,将用广泛的训练集开始分类过程,其明确标识涵盖主题的肯定的和否定的文档。例如,对于50个主题,用户需要标记具有至少20000个文档的集合,并且通过标记和标识文档涵盖的每个主题来详尽地标记每个文档。由于这种进行标记的数量太大而令人望而生畏,用户可能会转而采用基于特定规则的解决方案,但是它们存在不足且难以维护。另外地,典型的用户不是计算机科学专业人员,并且可能没有办法开发机器学习解决方案来加速这一过程。

因此,目前用于生成分类模型的工具需要广泛的训练集,它们很难进行管理,并且不允许用户改善模型的基准质量。我们的系统和技术解决了这两个问题。

发明内容

公开了用于生成定制的分类模型的系统、技术和方法。该系统和技术(诸如汤森路透自助分类(Thomson Reuters Self-Service ClassificationTM))部分采用机器学习,并部分采用用户交互式方法生成定制的分类模型。该系统结合了一种新颖的文本分类方法,其使用较小的初始数据集来启动训练,并且具有用于定制的独特的工作流程和用户交互。

该系统的各个方面涉及生成定制的分类模型。例如,根据一个方面,一种计算机实现的方法包括接收包含肯定标记的文档集和未标记文档集的文档集,处理文档集以移除文档内的副本文档和噪声,生成针对主题集中的每个主题的初步模型,训练初步模型以基于文档集确定附加的肯定的和否定的文档集,其中训练包含部分地标识来自文档集中的否定的文档,使用训练的初步模型和附加的肯定的和否定的文档集生成定制的分类模型,并且提供定制的分类模型并且至少提供模型的精度或查全率值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金融及风险组织有限公司,未经金融及风险组织有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201780006568.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top