[发明专利]一种文本的处理方法、装置和可读存储介质在审
| 申请号: | 202110796094.8 | 申请日: | 2021-07-14 |
| 公开(公告)号: | CN113821594A | 公开(公告)日: | 2021-12-21 |
| 发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/295 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 李杭 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 处理 方法 装置 可读 存储 介质 | ||
1.一种文本的处理方法,其特征在于,包括:
基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配,其中,所述正样本匹配关系包括所述第一主体的关键词与支持度的匹配关系,所述负样本匹配关系包括第二主体的关键词与支持度的匹配关系;
若匹配失败,则确定所述每个词语与第一关键词的互信息,并确定所述每个词语与第二关键词的互信息,其中,所述第一关键词为所述第一主体的关键词中字符数最多的关键词,所述第二关键词为所述第二主体的关键词中字符数最多的关键词;
根据所述每个词语与第一关键词的互信息、所述第一关键词的支持度、所述每个词语与第二关键词的互信息以及所述第二关键词的支持度,确定所述目标文本的关联分值,其中,所述关联分值表示所述目标文本与所述第一主体的关联程度;
若所述目标文本的关联分值满足文本分发条件,则向所述第一主体分发所述目标文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每个词语与第一关键词的互信息、所述第一关键词的支持度、所述每个词语与第二关键词的互信息以及所述第二关键词的支持度,确定所述目标文本的关联分值包括:
根据所述每个词语与第一关键词的互信息以及所述第一关键词的支持度确定所述每个词语的第一关联分值;
根据所述每个词语与第二关键的互信息以及所述第二关键词的支持度确定所述每个词语的第二关联分值;
根据所述每个词语的第一关联分值以及所述每个词语的第二关联分值确定所述目标文本的关联分值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若匹配成功,则确定所述正样本匹配关系中与所述每个词语相匹配的第一关键词集合,并确定所述负样本匹配关系中与所述每个词语相匹配的第二关键词集合;
确定所述第一关键词集合中的每个第一关键词命中所述正样本匹配关系中字符数最多的第一目标关键词,并确定所述第二关键词集合中的每个第二关键词命中所述负样本匹配关系中字符数最多的第二目标关键词;
确定所述正样本匹配关系所关联的样本分句集合中所述第一目标关键词所命中的第一样本分句数量,并确定所述负样本匹配关系所关联的样本分句集合中所述第二目标关键词所命中的第二样本分句数量以及所述正样本匹配关系所关联的样本分句集合中的所有样本分句的目标数量;
根据所述第一样本分句数量、所述第二样本分句数量以及所述目标数量,确定所述目标文本的支持度权重;
根据所述目标文本的支持度权重对所述目标文本进行分发。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一样本分句数量、所述第二样本分句数量以及所述目标数量,确定所述目标文本的支持度权重包括:
根据所述第一样本分句数量以及所述目标数量确定所述目标文本的正向支持度权重;
根据所述第二样本分句数量以及所述目标数量确定所述目标文本的负向支持度权重;
根据所述目标文本的正向支持度权重以及所述目标文本的负向支持度权重确定所述目标文本的支持度权重。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于第一主体的正样本匹配关系与负样本匹配关系,对目标文本中每个词语进行匹配之前,所述方法还包括:
获取训练文本集合,所述训练文本集合包括所述第一主体所关联的训练文本以及所述第二主体所关联的训练文本;
对所述训练文本集合中每个文本进行分句,得到所述每个文本所对应的分句集合;
对所述每个文本所对应的分句集合进行处理,得到所述每个文本所对应的第一字序列;
剔除所述第一字序列中小于支持度阈值的关键词,得到所述每个文本所对应的第二字序列;
确定所述第二字序列的关键词以及所述关键词所对应的支持度;
将所述第一主体所对应的所述第二字序列的关键词以及所述关键词所对应的支持度确定为所述第一主体的正样本匹配关系;
将所述第二主体所对应的所述第二字序列中的关键词以及所述关键词所对应的支持度确定为所述第一主体的负样本匹配关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110796094.8/1.html,转载请声明来源钻瓜专利网。





