[发明专利]一种针对海量高噪音口语化短文本的文本筛选方法在审
| 申请号: | 202010504536.2 | 申请日: | 2020-06-05 |
| 公开(公告)号: | CN113761903A | 公开(公告)日: | 2021-12-07 |
| 发明(设计)人: | 戚梦苑;孙晓晨;万辛;李沁;刘发强;孙旭东;倪善金;吴广君;梁睿琪 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/232;G06F16/35;G06N3/04 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提出一种针对海量高噪音口语化短文本的文本筛选方法,属于自然语言处理领域,通过对训练语料和待筛选的目标文本进行预处理;对预处理后的训练语料中的标注的正类语料进行句式信息提取,区分出业务强相关句式和弱相关句式;利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理;对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示;使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。 | ||
| 搜索关键词: | 一种 针对 海量 噪音 口语化 文本 筛选 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010504536.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种干燥机智能变频控制装置
- 下一篇:一种芬乐胺7位代谢物及其制备和应用





