[发明专利]一种冗余词过滤方法及其相关设备在审

申请号：	202110818230.9	申请日：	2021-07-20
公开（公告）号：	CN113468880A	公开（公告）日：	2021-10-01
发明（设计）人：	戴怡琳;姚佳立;杜春赛;杨晶生	申请（专利权）人：	北京字跳网络技术有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/166
代理公司：	北京信远达知识产权代理有限公司 11304	代理人：	冯柳伟
地址：	100190 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种冗余过滤方法及其相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种冗余词过滤方法及其相关设备，该方法包括：在获取到待过滤文本之后，可以先对该待过滤文本进行冗余词识别，得到该待过滤文本的冗余词识别结果，以使该冗余词识别结果能够表示出该待过滤文本中各个词汇属于冗余词的可能性；再按照冗余词过滤参数值和该待过滤文本的冗余词识别结果，对该待过滤文本进行冗余词过滤，得到该待过滤文本对应的过滤后文本，以使该过滤后文本中存在较少的冗余词(甚至不存在冗余词)，从而使得该过滤后文本能够更简洁地表示出待过滤文本携带的语义信息，如此能够有效地克服该待过滤文本携带的无意义信息造成的不良影响，从而能够有效地提高该过滤后文本的信息表达效果。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种冗余词过滤方法及其相关设备。

背景技术

随着文本数据的应用范围越来越大，使得针对文本数据的信息表达效果要求越来越高。例如，文本数据可以应用于语音处理技术领域。

目前，对于一些文本数据(如，一个语音数据对应的语音识别文本)来说，因这些文本数据中存在大量无意义词汇，使得这些文本数据的信息表达效果较差。然而，如何提高这些文本数据的信息表达效果是一项亟待解决的技术问题。

发明内容

为了解决上述技术问题，本申请提供了一种冗余词过滤方法及其相关设备，能够提高文本数据的信息表达效果。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种冗余词过滤方法，所述方法包括：

获取待过滤文本；

对所述待过滤文本进行冗余词识别，得到所述待过滤文本的冗余词识别结果；

按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果，对所述待过滤文本进行冗余词过滤，得到所述待过滤文本对应的过滤后文本；其中，所述冗余词过滤参数值用于表示针对所述待过滤文本进行冗余词过滤的过滤强度。