[发明专利]一种文本的处理方法、装置和可读存储介质在审

专利信息
申请号: 202110796094.8 申请日: 2021-07-14
公开(公告)号: CN113821594A 公开(公告)日: 2021-12-21
发明(设计)人: 刘志煌 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F40/211;G06F40/295
代理公司: 深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人: 李杭
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 处理 方法 装置 可读 存储 介质
【说明书】:

本申请实施例提供了一种文本的处理方法及相关设备,可以提高文本分发的准确性。该方法包括:基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配,正样本匹配关系包括第一主体的关键词与支持度的匹配关系,负样本匹配关系包括第二主体的关键词与支持度的匹配关系;若匹配失败,则确定每个词语与第一关键词的互信息,并确定每个词语与第二关键词的互信息;根据每个词语与第一关键词的互信息、第一关键词的支持度、每个词语与第二关键词的互信息以及第二关键词的支持度,确定目标文本的关联分值;若目标文本的关联分值满足文本分发条件,则向第一主体分发目标文本。

技术领域

本申请涉及数字政务领域,尤其涉及一种文本的处理方法、装置和可读存储介质。

背景技术

在数字政务领域,公文自动分配是实现政务数字化转型、民生服务在线办理的必经途径。民生服务一网通办、政务服务一网互联等新治理、新服务理念的提出,加快政府数字化发展,其中民生服务和社会治理产生的大量政务数据,如民生事项办理、公文文本以及数字服务等数据,都需要被更好地进行挖掘和分析,才能真正实现和加快政务行业的智能化,提高人民和政府工作人员处理事项的便捷性。

目前建立电子公文分类分级系统的方法主要是基于模板的电子公文分类方法,该方法针对公文分配标签构建对应的敏感词库和匹配规则,根据输入的敏感词和导入的源文件进行学习,并生成模板的源文件学习模块,将文本按照导出的模板进行敏感词匹配和规则识别,获取公文分类从而实现文本的自动分配。

然而,基于模板的电子公文分类方法过度依赖于人工给定的规则和模板,在构建敏感词库和匹配规则上耗费较大的时间和人力成本,同时由于规则的局限性和公文文本的格式自由,所构建规则往往在一定时间后就会泛化能力降低,通用性不足,进而导致许多公文无法准确地进行分发。

发明内容

本申请提供了一种文本的处理方法、装置和可读存储介质,提高公文文本分发的准确性。

本申请实施例一方面提供一种文本的处理方法,包括:

基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配,其中,正样本匹配关系包括第一主体的关键词与支持度的匹配关系,负样本匹配关系包括第二主体的关键词与支持度的匹配关系;

若匹配失败,则确定每个词语与第一关键词的互信息,并确定每个词语与第二关键词的互信息,其中,第一关键词为第一主体的关键词中字符数最多的关键词,第二关键词为第二主体的关键词中字符数最多的关键词;

根据每个词语与第一关键词的互信息、第一关键词的支持度、每个词语与第二关键词的互信息以及第二关键词的支持度,确定目标文本的关联分值,其中,关联分值表示目标文本与第一主体的关联程度;

若目标文本的关联分值满足文本分发条件,则向第一主体分发所述目标文本。

本申请实施例第二方面提供了一种文本处理装置,包括:

匹配单元,用于基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配,其中,正样本匹配关系包括第一主体的关键词与支持度的匹配关系,负样本匹配关系包括第二主体的关键词与支持度的匹配关系;

第一确定单元,用于若匹配失败,则确定每个词语与第一关键词的互信息,并确定每个词语与第二关键词的互信息,其中,第一关键词为第一主体的关键词中字符数最多的关键词,第二关键词为第二主体的关键词中字符数最多的关键词;

第二确定单元,用于根据每个词语与第一关键词的互信息、第一关键词的支持度、每个词语与第二关键词的互信息以及第二关键词的支持度,确定目标文本的关联分值,其中,关联分值表示目标文本与所述第一主体的关联程度;

分发单元,用于若目标文本的关联分值满足文本分发条件,则向第一主体分发目标文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110796094.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top