[发明专利]信息处理装置、信息处理方法以及记录介质有效

申请号：	201710853640.0	申请日：	2017-09-20
公开（公告）号：	CN108573289B	公开（公告）日：	2022-08-23
发明（设计）人：	田中辽平	申请（专利权）人：	株式会社东芝;东芝数字解决方案株式会社
主分类号：	G06V30/194	分类号：	G06V30/194;G06K9/62
代理公司：	永新专利商标代理有限公司 72002	代理人：	徐冰冰;刘杰
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	信息处理装置方法以及记录介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及信息处理装置、信息处理方法以及记录介质。信息处理装置具备分类部、算出部、选择部、赋予部。分类部将未赋予标签的未示教数据分类成组。算出部根据针对组辞典的、标签的识别精度来算出上述组的评价值，该组辞典是使用隶属于上述组的上述未示教数据而针对上述组的每个生成的，并用于识别相对于未知数据的标签。选择部基于上述评价值来选择上述组。赋予部对隶属于所选择出的上述组的上述未示教数据赋予与正解标签对应的标签。

技术领域

实施方式涉及信息处理装置、信息处理方法以及记录介质。

背景技术

公知有通过使用示教完毕数据和未示教数据进行半监督学习来制作图案识别用的辞典的方法。例如，公知有使用从示教完毕数据学习到的辞典来预测未示教数据的标签并追加至学习用数据，反复地进行学习，由此来对辞典进行更新的方法。此时，公知有并非将所有的未示教数据都追加至学习用数据，而是仅将所推定出的标签的可信度为阈值以上的数据追加至学习用数据的方法。

在半监督学习中，在未示教数据朝学习用数据的追加的判定中使用的阈值会大幅影响辞典的识别精度。但是，在现有技术中，并未进行阈值的最优化。因此，在现有技术中，未能提供用于生成识别精度高的辞典的学习用数据。

发明内容

实施方式的信息处理装置具备分类部、算出部、选择部以及赋予部。分类部将未赋予标签的未示教数据分类成组。算出部根据组辞典的、标签的识别精度，算出上述组的评价值，该组辞典是使用隶属于上述组的上述未示教数据而针对上述组的每个生成的，并用于识别相对于未知数据的标签。选择部基于上述评价值选择上述组。赋予部对隶属于所选择出的上述组的上述未示教数据赋予与正解标签对应的标签。

附图说明

图1是示出信息处理装置的结构的一例的示意图。

图2是示出学习用数据以及未使用数据的数据结构的一例的示意图。

图3是示出信息处理的流程的一例的示意图。

图4是示出信息处理的次序的一例的流程图。

图5是示出信息处理装置的结构的一例的示意图。

图6是示出信息处理的次序的一例的流程图。

图7是示出信息处理装置的结构的一例的示意图。

图8是示出信息处理的次序的一例的流程图。

图9是示出信息处理装置的结构的一例的示意图。

图10是示出信息处理的流程的一例的示意图。

图11是示出信息处理的次序的一例的流程图。