[发明专利]对文档进行分类的方法、电子设备和计算机程序产品有效
申请号: | 201810362310.6 | 申请日: | 2018-04-20 |
公开(公告)号: | CN110390094B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 刘威扬;滕康;刘原一;张增杰;张之剑 | 申请(专利权)人: | 伊姆西IP控股有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;李春辉 |
地址: | 美国马*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 进行 分类 方法 电子设备 计算机 程序 产品 | ||
1.一种对文档进行分类的方法,包括:
确定与文档类别相关联的一个或多个关键词和对应权重;
至少基于所述一个或多个关键词在所述文档的字段中出现的频率以及所述权重,确定所述文档相对于所述一个或多个关键词的得分;
响应于所述文档的所述得分高于阈值,确定所述文档属于所述文档类别,其中所述文档类别选自多个文档类别;
确定所述文档的与所述多个文档类别对应的多个得分;
基于所述多个得分中的最大得分与前阈值的比较,确定后阈值;
标准化所述多个得分;以及
响应于所述文档的标准化后的得分大于所述后阈值,确定所述文档属于与所述标准化后的得分对应的文档类别。
2.根据权利要求1所述的方法,其中所述一个或多个关键词和所述权重是通过神经网络基于文本语料库训练得到的。
3.根据权利要求1所述的方法,其中所述文档的所述字段包括标题字段和内容字段中的至少一个。
4.根据权利要求1所述的方法,其中所述文档的所述字段仅包括内容字段。
5.根据权利要求1所述的方法,其中确定所述文档的所述得分还基于以下中的至少一个:
所述一个或多个关键词中出现在所述文档的所述字段中的关键词的数目;
所述文档的所述字段的长度;以及
在所述文档选自多个文档的情况下,所述多个文档中出现所述关键词的文档的数目。
6.根据权利要求1所述的方法,其中确定所述文档的所述得分包括:
标准化所述权重;以及
基于标准化后的所述权重,确定所述文档的所述得分。
7.根据权利要求1所述的方法,还包括:
响应于确定所述文档属于所述文档类别,向所述文档应用与所述文档类别对应的标签。
8.根据权利要求7所述的方法,还包括:
响应于针对所述文档的查询请求,提供包括所述文档和所述标签的查询结果。
9.一种电子设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述电子设备执行以下动作:
确定与文档类别相关联的一个或多个关键词和对应权重;
至少基于所述一个或多个关键词在所述文档的字段中出现的频率以及所述权重,确定所述文档相对于所述一个或多个关键词的得分;
响应于所述文档的所述得分高于阈值,确定所述文档属于所述文档类别,其中所述文档类别选自多个文档类别;
确定所述文档的与所述多个文档类别对应的多个得分;
基于所述多个得分中的最大得分与前阈值的比较,确定后阈值;
标准化所述多个得分;以及
响应于所述文档的标准化后的得分大于所述后阈值,确定所述文档属于与所述标准化后的得分对应的文档类别。
10.根据权利要求9所述的电子设备,其中所述一个或多个关键词和所述权重是通过神经网络基于文本语料库训练得到的。
11.根据权利要求9所述的电子设备,其中所述文档的所述字段包括标题字段和内容字段中的至少一个。
12.根据权利要求9所述的电子设备,其中所述文档的所述字段仅包括内容字段。
13.根据权利要求9所述的电子设备,其中确定所述文档的所述得分还基于以下中的至少一个:
所述一个或多个关键词中出现在所述文档的所述字段中的关键词的数目;
所述文档的所述字段的长度;以及
在所述文档选自多个文档的情况下,所述多个文档中出现所述关键词的文档的数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伊姆西IP控股有限责任公司,未经伊姆西IP控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810362310.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语言模型建立方法及装置
- 下一篇:语句标注方法及语句标注装置