[发明专利]一种针对海量高噪音口语化短文本的文本筛选方法在审

专利信息
申请号: 202010504536.2 申请日: 2020-06-05
公开(公告)号: CN113761903A 公开(公告)日: 2021-12-07
发明(设计)人: 戚梦苑;孙晓晨;万辛;李沁;刘发强;孙旭东;倪善金;吴广君;梁睿琪 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06F40/232;G06F16/35;G06N3/04
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 李文涛
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 海量 噪音 口语化 文本 筛选 方法
【权利要求书】:

1.一种针对海量高噪音口语化短文本的文本筛选方法,其特征在于,包括以下步骤:

对训练语料和待筛选的目标文本进行预处理;

对预处理后的训练语料中的标注的正类语料进行句式信息提取,将含有所标注的关键词的句式作为业务强相关句式,将不含有所标注的关键词的句式作为业务弱相关句式;

利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理;

对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示;

使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。

2.如权利要求1所述的方法,其特征在于,预处理包括分词、降噪和拼音替代。

3.如权利要求2所述的方法,其特征在于,预处理的步骤包括:

首先,通过jieba中文分词器切词;

其次,利用滑动窗口对文本进行错误检测,通过n-gram模型计算极大似然估计构造语言模型,若计算出的概率低于合法阈值,则判断滑动窗口处的文本出错;

再次,对于字粒度的错误,使用近音词词典取得候选集,通过n-gram模型计算滑动窗口内的句子合法度,对所有候选集结果进行比较并排序,得到最优纠正字;对于词粒度的错误,直接采用拼音替代该词。

4.如权利要求1所述的方法,其特征在于,句式匹配的步骤包括:对文本中的句子进行句式提取;比较句式之间的相似度,选择相似度最大的句式进行匹配。

5.如权利要求4所述的方法,其特征在于,句式提取的步骤包括:对句子进行分词,对词性进行标注;对于句子中的主语、宾语、宾补成分表示动作对象的部分,剔除包括人名、地名、组织机构名在内的名词性成分,以其词性标签替代,保留代词;在状语中的时间地点用词性标签替代,定语中的修饰性成分替换为统一的字符表示;动词和连词部分形成备选词列表,句式以词汇和词性标签的列表表示。

6.如权利要求4所述的方法,其特征在于,比较句式之间的相似度的步骤包括:将含有语义的词汇转化为词向量,基于编辑距离计算其词向量在向量空间中的欧式距离;将在同一个备选动词列表中的动词作为相同词汇,将不在备选词列表中的动词,选取与词汇列表中的最小距离的词汇,作为最大相似度的词汇,根据上述相同词汇或最大相似度的词汇进行句式匹配。

7.如权利要求1所述的方法,其特征在于,文本处理是对文本进行长度限制,去口语词和合并重复词的操作。

8.如权利要求7所述的方法,其特征在于,文本处理的步骤包括:

利用滑动窗口扫描文本,对滑动窗口内出现两次及以上的词只保留第一个;

建立口语词词库,对出现的无意义口语词汇进行剔除;

对于有效词汇少于5个文本予以剔除,计算训练文本的平均长度,对于长度是该平均长度1.5倍以上的文本进行截取,截取位置为平均长度最近处的句子末尾,以保留完整的语句。

9.如权利要求1所述的方法,其特征在于,文本转化为词向量表示的步骤为:对处理后的文本使用word-to-vector模型训练词向量,将文本表示为词向量;对于采用拼音替代的词汇,基于编辑距离计算拼音相似度,并根据相似度大小找到发音与该拼音的相似度最高的词汇,用该词汇的词向量作为该拼音替代词的词向量,得到最终的词向量表示。

10.如权利要求1所述的方法,其特征在于,对目标文本进行文本筛选后,检测筛选结果是否含有标注信息,若有,则根据标注信息更新训练语料库,并对文本分类模型进行重新训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010504536.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top