[发明专利]一种针对海量高噪音口语化短文本的文本筛选方法在审

专利信息
申请号: 202010504536.2 申请日: 2020-06-05
公开(公告)号: CN113761903A 公开(公告)日: 2021-12-07
发明(设计)人: 戚梦苑;孙晓晨;万辛;李沁;刘发强;孙旭东;倪善金;吴广君;梁睿琪 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06F40/232;G06F16/35;G06N3/04
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 李文涛
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 海量 噪音 口语化 文本 筛选 方法
【说明书】:

发明提出一种针对海量高噪音口语化短文本的文本筛选方法,属于自然语言处理领域,通过对训练语料和待筛选的目标文本进行预处理;对预处理后的训练语料中的标注的正类语料进行句式信息提取,区分出业务强相关句式和弱相关句式;利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理;对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示;使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。

技术领域

本发明涉及一种针对海量高噪声口语化短文本的筛选方法,可对高错误率的文本进行降噪,并根据语义相似度和句式信息进行文本筛选,属于自然语言处理领域。

背景技术

随着通信技术的多样化和便捷化以及计算机网络的迅速发展,人们之间的远程交流变得更加低成本、高质量,互联网的发展也使人们可以更便捷的在线上发出自己的声音,这些交流和表达不同于书面文字,口语化短文本具有一些明显区别于常见书面语料的特征:

1.语法复杂且不规范:由于人们在说话时往往不如书面表达那样规范严谨,更多时候以便捷、符合习惯为主,口语化短文本中从句多、语序颠倒、指代不明确等情况十分常见;

2.用词口语化:语音交流尤其是非正式场合的日常交流,人们在用词方面可能习惯性带有许多口语化的词汇,比如方言特有词汇、常用英文词汇、缩略词汇以及流行词汇;

3.口音和方言:由于不同地方的人有不同的语言表达习惯,地域性差异极大,比如粤语的用词和语句句式,都和以北方方言为基础的普通话有相当大的差异,这些不同会造成口语化短文本在表达上的高差异性;

4.高噪声:由于部分口语化短文本可能来自于语音转译,语音信号传输依赖于通信环境,网络信号的不稳定以及环境噪声会极大地影响语音信号的质量,导致部分口语化短文本的错误和片段性遗漏。

5.语句长度较短:由于大多数情况下人们的口语表达不常用修饰繁复的复杂句式,偏向于使用简洁清晰的表达,并且其中包含许多仅表示应答的无意义词汇,如“嗯”“喂”,有效的语句长度普遍较短。

口语化短文本具有的高噪声、高错误率、规范性差、语句长度短等特点,给文本分类带来了极大的难度。

在自然语言处理任务中,文本分类是重要的一环。中文文本分类的步骤往往分为数据预处理、文本表示、使用分类模型分类三个。数据预处理包含数据清洗、中文分词、词性标注等工作。文本表示是将中文词汇数字化,以便于分类模型进行计算。文本分类模型主流的大致有基于统计学习的经典分类模型,如朴素贝叶斯分类器、支持向量机、Rocchio算法、KNN等,基于统计学习的方法计算量较小、复杂度低、且需要的训练预料较少,但这些算法的精度对文本质量的依赖很大,难以应对高复杂性和高差异性的文本,受文本噪音影响大,文本长度过短可能使分类准确度大大降低,不足以应对海量口语化短文本的分类。

近年来兴起的机器学习技术,尤其是利用高复杂度的神经网络实现的深度学习算法,在自然语言处理的多个任务分支中取得了极佳的效果,几乎成为了处理复杂的文本分类任务的不二选择。但这些深度学习算法在取得很好的成效的同时也有很大的成本和代价。(1)缺乏可解释性:高复杂度的神经网络的输入一般是将文本经过预处理得到的向量(词向量或者句向量),将自然语言数字化,输出为预测结果或分类结果,中间过程模糊,不易理解和控制;(2)巨大的计算量:深层神经网络的训练往往需要巨大的计算量,训练时间动辄需要数天,参数往往也比较复杂,为了选择合适的参数需要很长的时间试错;(3)受限于训练语料:深度学习算法的最终效果与训练语料的质量和数量有很大关系,越是复杂的网络往往越是需要大量的训练数据,但口语化短文本使用人工标注的成本很高,且不能应对不同体裁不同领域的语料,想要解决某一领域的文本分类问题,只能花费大量时间构建该领域的语料库,如医学、新闻传媒等,再训练针对该领域语料的模型。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010504536.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top