[发明专利]信息处理系统和信息处理方法有效

专利信息
申请号: 201310322481.3 申请日: 2013-07-29
公开(公告)号: CN103678436B 公开(公告)日: 2017-04-12
发明(设计)人: 柳濑利彦;今一修 申请(专利权)人: 株式会社日立制作所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 永新专利商标代理有限公司72002 代理人: 王成坤,胡建新
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息处理 系统 方法
【说明书】:

技术领域

本发明涉及信息处理系统。

背景技术

近年来,很多企业灵活运用被称为大数据的大量的电子数据。这是因为,由于Apache Hadoop等的开源软件的出现,使用一般的PC服务器进行分散并列计算的技术得到普及。通过这种技术的普及,在短时间内处理大量数据所需要的计算机资源等的成本大幅降低。

作为针对大数据的数据处理内容,具有大量数值数据的累计处理、以及计算机从电子文档数据中自动提取用户有用的模式的处理等。作为使计算机执行这种原本由人类进行的智慧处理的一个方法,使用机器学习。在机器学习、特别是有教师学习中,将人类生成的数据作为教师数据,计算机学习教师数据的模式,从而能够由计算机代替执行人类的智慧处理。

教师数据需要由人类制作,所以,在计算机进行有教师学习的情况下,产生人力成本。特别地,在从专业文档中提取信息的情况下,需要通过该领域的专家(领域专家)来制作教师数据,所以,人力成本特别大。

例如,为了进行从法令文档中提取信息这样的智慧处理,在计算机进行机器学习之前,律师或司法代书人等的法律专家需要生成应该提取的信息的例子。并且,为了进行从与知识产权有关的文档中提取信息这样的智慧处理,代理人或企业的知识产权负责人需要准备应该提取的信息的例子。

一般地,教师数据越多,越能够提高学习结果。但是,生成教师数据需要人力成本,所以,很难准备大量的教师数据。在大量处理大数据中包含的多种数据的今天,用于生成教师数据的人力成本成为应用有教师学习时的问题。

作为与用于生成教师数据的人力成本有关的问题的一个解决策略,尝试在学习中灵活运用没有教师信息(标签)的数据(无标签数据)。除了教师数据以外还在学习中使用无标签数据的机器学习被称为半有教师学习(例如参照专利文献1和2)。

在专利文献1和2中提出了如下方法:为了从文档群中提取包含有害单词的文档,使用半有教师学习。

在半有教师学习中,从计算效率方面看,非专利文献1所述的基于图表的半有教师学习特别受到关注。基于图表的半有教师学习例如应用于评判分析、语义暧昧性消除或词类估计等。

并且,提出了如下方法:根据基于某个观点而提取出的少数单词,提取基于同样观点的其他单词(例如参照专利文献3)。

并且,提出了如下方法:在对针对检索询问的文档的关联度赋予标签的问题中,从赋予了标签的文档向未赋予标签的文档传播关联度(例如参照专利文献4)。

这里,机器学习中的图表意味着如下的数学图表:将一个数据(例如单词)作为一个节点,将数据间即节点间的相似度作为节点间的边缘的权重进行定量。在该图表中,相似的数据在较大权重的边缘连接。因此,通过使用边缘的权重来传播标签信息,能够对无标签数据分配标签。

例如,以从电子文档中提取人名信息的处理为例,以下示出标签信息的传播。在该处理中,利用表情文字将文档分解为标记并判定各标记是否是人名,作为二值的识别问题进行处理。

在提取人名信息的处理的例子中,计算机将识别对象即标记作为节点,计算各标记间的相似度作为边缘的权重。并且,根据词类或字符串长等的标记自身的信息以及与相邻标记之间的共用信息等的信息,计算标记的相似度。具体而言,通过对所述标记的信息进行数值矢量化,使用数值矢量计算距离,从而求出标记的相似度。而且,由此求出包含各标记的图表。

在使用这样求出的图表传播标签的情况下,相似的上下文中使用的相似的标记在更大权重的边缘连接,所以,容易分配相同的标签。

在基于图表的半有教师学习中,图表的构筑方法对学习精度造成很大影响。此前,以提高构筑图表的精度和实现计算高速化为目的,进行了边缘的修剪(不需要边缘的删除)。

例如,提出了通过k-附近图表或b-匹配图表来近似原来图表的方法(例如参照非专利文献2)。这里,k-附近图表、b-匹配图表分别是仅包含通过k-附近法或b-匹配法生成的相似度的上位k件的边缘的图表。

进而,提出了在进行边缘的修剪的情况下不生成边缘集中的节点的边缘生成方法(例如参照非专利文献3)。

在这些文献中,为了生成图表,需要预先确定用于对节点的信息进行数值矢量化的特征(属性)。而且,该特征需要由领域专家、且熟悉机器学习处理的人来确定。

并且,在对机器学习的性能进行评价的情况下,可能进行实验结果的再次验证,所以,多使用已公开的共同的教师数据和无标签数据。但是,在用户实际对要处理的文档进行处理的情况下,无标签数据常常成为庞大的量,为了在现实的时间内进行学习,需要从无标签数据中选择有用的无标签数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310322481.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top