[发明专利]一种处理方法以及装置在审
申请号: | 202210272295.2 | 申请日: | 2022-03-18 |
公开(公告)号: | CN114741524A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 敬毅民;崔恒;赵国光 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王花丽;吴素花 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 方法 以及 装置 | ||
本申请公开了一种处理方法以及装置,其中,所述方法包括:获取待处理文件;对所述待处理文件包含的词汇进行处理,得到所述待处理文件包含的词汇的属性信息;基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇;其中,所述实体词汇包括实体类型的词汇;得到所述实体词汇之间的关联结构信息。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种处理方法以及装置。
背景技术
在实际应用中,在构建文件中包含的词汇之间的关联结构信息比如知识图谱时,通常需要依赖与文件对应的词汇结构配置文件才能实现。这样的关联结构信息构建方式对文件格式以及词汇结构配置文件的要求严格,因此无法得到广泛的应用。
发明内容
基于以上问题,本申请实施例提供了一种处理方法以及装置。
本申请实施例首先提供了一种处理方法,所述方法包括:
获取待处理文件;
对所述待处理文件包含的词汇进行处理,得到所述待处理文件包含的词汇的属性信息;
基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇;其中,所述实体词汇包括实体类型的词汇;
得到所述实体词汇之间的关联结构信息。
在一些实施例中,所述属性信息至少包括所述待处理文件包含的词汇的格式属性信息;所述基于所述属性信息,从所述待处理文件包含的词汇中确定实体词汇,包括:
对所述格式属性信息中的格式属性参数进行分析,得到分析结果;其中,所述格式属性参数包括字号、字体、以及颜色中的至少一种;
基于所述分析结果对所述格式属性信息进行划分,得到至少一种类型的格式属性信息;
从所述至少一种类型的格式属性信息中确定第一格式信息;
基于所述第一格式信息,从所述待处理文件包含的词汇中确定所述实体词汇。
在一些实施例中,所述方法还包括:
从所述至少一种类型的格式属性信息中确定第二格式信息;
基于所述第二格式信息,从所述待处理文件包含的词汇中确定实体信息词汇;其中,所述实体信息词汇包括用于承载所述实体词汇的含义信息的词汇。
在一些实施例中,所述得到所述实体词汇之间的关联结构信息,包括:
确定所述实体词汇与所述实体信息词汇之间的关联关系信息;
基于所述关联关系信息,得到所述关联结构信息。
在一些实施例中,所述确定所述实体词汇与所述实体信息词汇之间的关联关系信息,包括:
对所述实体词汇以及所述实体信息词汇进行分析,得到第一坐标信息以及第二坐标信息;其中,所述第一坐标信息包括所述实体词汇的坐标信息;所述第二坐标信息包括所述实体信息词汇的坐标信息;
基于所述第一坐标信息以及所述第二坐标信息,关联所述实体词汇以及所述实体信息词汇,确定所述关联关系信息。
在一些实施例中,所述基于所述第一坐标信息以及所述第二坐标信息,关联所述实体词汇以及所述实体信息词汇,确定所述关联关系信息,包括:
从所述第一坐标信息中获取目标实体词汇的坐标信息;
基于所述目标实体词汇的坐标信息以及所述第二坐标信息,确定目标实体信息词汇;
关联所述目标实体词汇以及所述目标实体信息词汇,确定所述关联关系信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210272295.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:气腹机及气腹机压力控制方法
- 下一篇:一种可移动智能杀菌驱虫垃圾桶