[发明专利]文本数据的筛选方法、装置、电子设备及存储介质在审
申请号: | 202210698401.3 | 申请日: | 2022-06-20 |
公开(公告)号: | CN115292444A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 孙羽菲;李东闻;钟震宇;王昊天;申峻宇;张玉志 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/383;G06F40/216;G06F40/284 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗岚 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据 筛选 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种文本数据的筛选方法、装置、电子设备及存储介质,主要技术方案包括:将待处理文本数据通过第一筛选策略进行筛选,第一筛选策略用于根据首位标点及末位标点进行数据筛选;将待处理文本数据通过第二筛选策略进行筛选,第二筛选策略用于对待处理文本数据中的预设控制符进行筛选;将待处理文本数据通过第三筛选策略进行筛选,第三筛选策略用于根据待处理文本数据中出现预设敏感词汇的占比进行筛选;将待处理文本数据通过第四筛选策略进行筛选,第四筛选策略用于根据待处理文本数据的文本总长度进行筛选。与相关技术筛选结果存在误差或导致正常文本数据丢失相比,此方法可以将冗余文本、敏感文本或者过短文本去除,得到高质量的文本。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本数据的筛选方法、装置、电子设备及存储介质。
背景技术
文本数据来源多样,质量良莠不齐,包含但不限于冗余文本、敏感文本或者过短文本等无意义网络文本。该些无意义网络文本无法直接作为构建语言模型的训练用数据。
目前,对无意义网络文本进行筛选时,大多数通过人工筛选的方式,人工筛选的方式能够提高文本数据的质量,但是人工筛选的效率较低。为了提高筛选文本数据的效率,可通过设置简单的筛选规则,例如构建单语言数据集筛选规则,该种筛选方式相较于人工筛选方式,虽然能够提高筛选效率,但是可能会将不完整数据或敏感文本数据被保留,导致筛选结果存在误差;或者,当文本数据中出现敏感词汇时,会将整篇文本数据进行删除,进而导致正常文本数据的丢失。
发明内容
有鉴于此,本申请提供了一种文本数据的筛选方法、装置、电子设备及存储介质,以实现将冗余文本、敏感文本或者过短文本去除,得到高质量的文本。
第一方面,本申请提供了一种文本数据的筛选方法,包括:
将待处理文本数据通过第一筛选策略进行筛选,所述第一筛选策略用于根据首位标点符号及末位标点符号进行数据筛选;
和/或;将所述待处理文本数据通过第二筛选策略进行筛选,所述第二筛选策略用于对所述待处理文本数据中的控制符进行筛选;
和/或;将所述待处理文本数据通过第三筛选策略进行筛选,所述第三筛选策略用于根据所述待处理文本数据中出现预设敏感词汇的占比进行筛选;
和/或;将所述待处理文本数据通过第四筛选策略进行筛选,所述第四筛选策略用于根据所述待处理文本数据的文本总长度进行筛选。
可选的,所述将待处理文本数据通过第一筛选策略进行筛选包括:
从待处理文本数据的第一个字符开始遍历,确定所述首位标点符号及所述末位标点符号;
在所述第一个字符与所述首位标点符号之间查找预设符;
基于所述第一筛选策略,将所述第一个字符与所述预设符之间的文本数据删除;
将所述末位标点符号后的文本数据删除。
可选的,所述第一筛选策略还用于根据段落中是否存在标点符号进行数据筛选,包括:
基于所述第一筛选策略,查找所述待处理文本数据中不含标点符号的段落;
将所述待处理文本数据中不含所述标点符号的段落进行删除。
可选的,所述将所述待处理文本数据通过第二筛选策略进行筛选包括:
从待处理文本数据的第一个字符逐字检测,查找符合所述第二筛选策略的控制符;
将符合所述第二筛选策略的所述控制符删除。
可选的,所述将所述待处理文本数据通过第三筛选策略进行筛选包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210698401.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置