[发明专利]使用机器学习和模糊匹配自动分层分类文档和标识元数据在审
申请号: | 201811219473.5 | 申请日: | 2018-10-19 |
公开(公告)号: | CN109783635A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | U·博万;P·萨里斯丹;L·奥玛莱;A·亚历山大·米兰达;M·考克兰 | 申请(专利权)人: | 埃森哲环球解决方案有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 爱尔兰*** | 国省代码: | 爱尔兰;IE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开的实施例涉及使用机器学习和模糊匹配自动分层分类文档和标识元数据。公开了一种分层文档分类系统。该系统包括:基于文本的文档分类器模型,用于将输入电子文档分类为预定义文档类别集之一。该系统还包括:基于图像的元数据标识模型,用于将特定文档类别的电子文档分类到元数据类别集中。该系统还包括:模糊文本匹配器,用于补充基于图像的元数据标识模型的分类准确度,以获得针对输入电子文档的元数据类别。 | ||
搜索关键词: | 电子文档 标识元数据 元数据标识 元数据类别 分类文档 模糊匹配 使用机器 自动分层 图像 文档分类系统 分类准确度 模糊文本 文档分类 文档类别 匹配器 预定义 分类 分层 文档 文本 学习 补充 | ||
【主权项】:
1.一种系统,包括:数据库,包括被组织在元数据字段中的元数据数据元素,其中所述元数据字段至少包括元数据类别字段,所述元数据类别字段包含元数据类别数据元素;存储器,用于存储基于机器学习算法而建立的基于文本的文档分类器模型、元数据类别标识模型和模糊文本匹配器;以及系统电路,与所述数据库和所述存储器通信,所述系统电路被配置为:接收电子文档;响应于使用所述基于文本的文档分类器模型来确定所述电子文档属于预定文档类别集:获得与所述电子文档相对应的图像;使用所述元数据类别标识模型来获得所述图像与所述元数据类别字段的第一元数据类别数据元素的第一关联;使用所述模糊文本匹配器来获得所述电子文档与所述数据库的所述元数据数据元素的子集的第二关联;以及基于所述第一关联和所述第二关联,确定所述第一元数据类别数据元素中的单个元数据类别数据元素和与所述数据库的所述元数据数据元素的所述子集相对应的元数据类别数据元素集,作为针对所述电子文档的标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于埃森哲环球解决方案有限公司,未经埃森哲环球解决方案有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811219473.5/,转载请声明来源钻瓜专利网。