[发明专利]自助分类系统有效
申请号: | 201780006568.6 | 申请日: | 2017-04-04 |
公开(公告)号: | CN108463795B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | S·赫兹;H·扎罗西姆;O·哈扎伊;O·罗姆;E·阿济克利;L·温特劳布;Y·林德曼;E·魏因雷布;S·卡拉曼;Y·本什洛莫;D·莱文森;E·沙拉比;A·R·戈德什拉格 | 申请(专利权)人: | 金融及风险组织有限公司 |
主分类号: | G06F3/0482 | 分类号: | G06F3/0482;G06F40/205;G06F16/35;G06K9/62;G10L15/18 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 陈潇潇;肖冰滨 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自助 分类 系统 | ||
公开了用于生成定制的分类模型的系统、技术和方法。该系统和技术(诸如Thomson Reuters Self‑Service ClassificationTM)部分采用机器学习,并部分采用用户交互式方法以生成定制的分类模型。该系统结合了一种新颖的文本分类方法,其使用较小的初始数据集来启动训练,并且具有用于定制的独特的工作流程和用户交互。
版权声明
本专利文档公开的一部分包含受版权保护的材料。版权所有者不反对任何人复制与专利和商标局的专利文档或记录中显示的一致的本专利文档或专利公开,但是另外无论如何保留所有的版权权利。以下声明适用于本文档:2017Thomson Reuters。
相关申请的交叉引用
本申请要求于2016年4月5日提交的标题为“自助分类(Self-ServiceClassification)”的美国临时申请第62/318,412号,以及于2016年8月17日提交的标题为“自助分类(Self-Service Classification)”的美国临时申请第62/376,039号的优先权。本段中提到的每个申请都通过引用整体并入本文。
技术领域
本公开涉及文档的分类,并且更具体地涉及用于生成定制的分类模型的方法和系统。
背景技术
许多公司正在积累大量的数据。他们每天都会生成和接收无数的文档、电子邮件、报告和其他内容。将文档分类到特定主题并创建分类模型的能力可以改进文档搜索、提高生产力、降低存储成本并且帮助进行分析以更好地利用数据。专业人员通常需要在大量非结构化文档中标识特定信息。例如,对“黄金开采”感兴趣的专业人士不可能去阅读所有提到“黄金”一词的新闻文档。由于缺乏适当的工具,许多组织和用户依靠手动分类文档的方式。该手动分类过程可能需要大量人力、耗时、昂贵并且容易出错。
手动分类的替代方法是训练将用来执行分类的机器学习模型。但是,为这些模型创建训练数据可能需要大量人力,并且建立和训练这些模型需要机器学习方面的专业知识。
通常,将用广泛的训练集开始分类过程,其明确标识涵盖主题的肯定的和否定的文档。例如,对于50个主题,用户需要标记具有至少20000个文档的集合,并且通过标记和标识文档涵盖的每个主题来详尽地标记每个文档。由于这种进行标记的数量太大而令人望而生畏,用户可能会转而采用基于特定规则的解决方案,但是它们存在不足且难以维护。另外地,典型的用户不是计算机科学专业人员,并且可能没有办法开发机器学习解决方案来加速这一过程。
因此,目前用于生成分类模型的工具需要广泛的训练集,它们很难进行管理,并且不允许用户改善模型的基准质量。我们的系统和技术解决了这两个问题。
发明内容
公开了用于生成定制的分类模型的系统、技术和方法。该系统和技术(诸如汤森路透自助分类(Thomson Reuters Self-Service ClassificationTM))部分采用机器学习,并部分采用用户交互式方法生成定制的分类模型。该系统结合了一种新颖的文本分类方法,其使用较小的初始数据集来启动训练,并且具有用于定制的独特的工作流程和用户交互。
该系统的各个方面涉及生成定制的分类模型。例如,根据一个方面,一种计算机实现的方法包括接收包含肯定标记的文档集和未标记文档集的文档集,处理文档集以移除文档内的副本文档和噪声,生成针对主题集中的每个主题的初步模型,训练初步模型以基于文档集确定附加的肯定的和否定的文档集,其中训练包含部分地标识来自文档集中的否定的文档,使用训练的初步模型和附加的肯定的和否定的文档集生成定制的分类模型,并且提供定制的分类模型并且至少提供模型的精度或查全率值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金融及风险组织有限公司,未经金融及风险组织有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780006568.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多模态感测表面
- 下一篇:显示装置以及显示控制方法