[发明专利]文件分类方法、文件分类装置以及记录介质在审
申请号: | 202110621773.1 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113807381A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 坂口彰洋;尾笼刚 | 申请(专利权)人: | 松下知识产权经营株式会社 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/284 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 柯瑞京 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 分类 方法 装置 以及 记录 介质 | ||
本公开提供一种文件分类方法、文件分类装置以及记录介质。从作为分类对象的第1文件包含的第1文章信息中提取一个以上的第1特征词,基于提取出的一个以上的第1特征词,从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中提取与第1文件类似的给定数量的第1事例,第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目表示该项目的要点,从给定数量的第1事例各自的第2文章信息中,提取给定数量的第1事例各自的一个以上的第2特征词,基于提取出的一个以上的第2特征词,计算给定数量的第1事例各自与第1文件的一致度,将一致度最大的第1事例被赋予的一个以上的类别决定为第1文件的类别。
技术领域
本公开涉及文件分类方法、文件分类装置以及记录介质。
背景技术
例如在专利文献1中,公开了用于根据内容而将电子化的大量的文件分类为类别的文件分类装置等。在专利文献1所公开的技术中,基于反复对类别分类对象的文件中的文章所包含的单词的出现频度以及共现关系进行分析来进行依存解析而获得的可靠性分数,锁定并提取成为该文章的特征的短语。然后,通过使用成为该文章的特征的短语来生成该文章的类别,从而对该文章的类别进行分类。
在先技术文献
专利文献
专利文献1:日本特开2014-41481号公报
发明内容
本公开的一个方式涉及的文件分类方法是由计算机进行将文件分类为至少一个类别的处理的文件分类方法,该文件分类方法包括:从作为分类对象的第1文件所包含的第1文章信息中,提取一个以上的第1特征词;基于提取出的所述一个以上的第1特征词,从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中,提取与所述第1文件类似的给定数量的第1事例,所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点;从所述给定数量的第1事例各自的第2文章信息中,提取所述给定数量的第1事例各自的一个以上的第2特征词;基于提取出的所述一个以上的第2特征词,计算所述给定数量的第1事例各自与所述第1文件的一致度;和将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别,从而将所述第1文件分类为至少一个类别。
本公开的一个方式涉及的文件分类装置是将文件分类为至少一个类别的文件分类装置,具备处理器和存储器,所述处理器使用记录在所述存储器中的程序,从作为分类对象的第1文件所包含的第1文章信息中,提取一个以上的第1特征词,基于提取出的所述一个以上的第1特征词,从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中,提取与所述第1文件类似的给定数量的第1事例,所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点,从所述给定数量的第1事例各自的第2文章信息中,提取所述给定数量的第1事例各自的一个以上的第2特征词,基于提取出的所述一个以上的第2特征词,计算所述给定数量的第1事例各自与所述第1文件的一致度,将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别,从而将所述第1文件分类为至少一个类别。
本公开的一个方式涉及的记录介质是记录有用于使计算机执行将文件分类为至少一个类别的文件分类方法的程序的计算机可读取的记录介质,所述程序用于使计算机执行以下处理:从作为分类对象的第1文件所包含的第1文章信息中,提取一个以上的第1特征词,基于提取出的所述一个以上的第1特征词,从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中,提取与所述第1文件类似的给定数量的第1事例,所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点,从所述给定数量的第1事例各自的第2文章信息中,提取所述给定数量的第1事例各自的一个以上的第2特征词,基于提取出的所述一个以上的第2特征词,计算所述给定数量的第1事例各自与所述第1文件的一致度,将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别,从而将所述第1文件分类为至少一个类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下知识产权经营株式会社,未经松下知识产权经营株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110621773.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高温压铸水温机
- 下一篇:触摸屏控制器、触摸屏驱动电路、以及触摸屏系统