[发明专利]文本处理方法、装置、电子设备及计算机可读存储介质有效
申请号: | 202010073135.6 | 申请日: | 2020-01-22 |
公开(公告)号: | CN111291551B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 俞一鹏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30;G06F16/35;G06N3/088 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本申请提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,涉及处理领域。该方法包括:获取游戏的文本;获取所述文本的互动信息;当所述互动信息符合预设条件时,确定所述文本是否包括预设关键词;当所述文本不包含预设关键词时,基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计相关条件;当检测符合所述统计相关条件时,基于预设的语义规则确定所述文本是否语义有效;当确定所述文本语义无效时,确定所述文本为无效文本,并对所述文本进行过滤。本申请实现了用户从评论区域内获得有效的评论内容的效率更高,用户体验更好。
技术领域
本申请涉及处理技术领域,具体而言,本申请涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网技术的迅速发展,用户通过互联网进行各种各样的互动。比如:用户可以在被评论主体下方的评论栏发表评论,其他用户可以对评论区的评论进行互动。
目前,在对评论进行分析时,由于针对同一评论主体会有大量的评论内容,在这些评论中混有高重复率且无实际意义的内容,比如:“沙发”;甚至有些评论区域出现很多胡乱输入的无意义语句,比如:“伏羲拨拉地方不额外费阿集散地哈达口味”。由于高重复率且无实际意义的评论内容的存在,使得评论区域内的有价值的文本内容被淹没,导致用户从评论区域内获得有效的评论内容的效率很低,用户体验较差。
发明内容
本申请提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,可以解决用户从评论区域内获得有效的评论内容的效率很低,用户体验较差的问题。所述技术方案如下:
第一方面,提供了一种文本处理方法,该方法包括:
获取游戏的文本;
获取所述文本的互动信息;当所述互动信息符合预设条件时,确定所述文本是否包括预设关键词;
当所述文本不包含预设关键词时,基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计相关条件;
当检测符合所述统计相关条件时,基于预设的语义规则确定所述文本是否语义有效;
当确定所述文本语义无效时,确定所述文本为无效文本,并对所述文本进行过滤。
优选地,所述互动信息包括所述文本的评论数量、支持数量、反对数量以及分享数量中的至少一种;
所述互动信息符合预设条件,包括:
当评论数量超过预设评论阈值,和/或,所述支持数量超过预设支持阈值,和/或所述反对数量不超过预设反对阈值,和/或分享数量超过预设分享阈值时,则判定所述互动信息符合预设条件。
优选地,所述基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计条件的步骤,包括:
获取所述文本中的中文字符,并统计出中文字符的数量;
当中文字符的数量超过中文字符的数量阈值时,确定所述文本符合统计条件。
优选地,所述基于预设的字符统计规则对所述信息进行检测以确定所述文本是否符合统计条件的步骤,包括:
获取所述文本中的非中文字符,并统计出非中文字符的数量;
当非中文字符的数量小于非中文字符的数量阈值时,确定所述文本符合统计条件。
优选地,所述基于预设的字符统计规则对所述文本进行检测以确定所述文本是否符合统计条件的步骤,包括:
获取所述文本中的全部字符;
检测全部字符中是否存在连续重复的字符;
当检测到全部字符中存在连续重复的字符时,统计出各个连续重复的字符的重复次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010073135.6/2.html,转载请声明来源钻瓜专利网。