[发明专利]一种基于自然语言处理的多语言分析方法和装置有效

专利信息
申请号: 201711488119.8 申请日: 2017-12-29
公开(公告)号: CN108197109B 公开(公告)日: 2021-04-23
发明(设计)人: 苏海波;刘钰;苏萌;刘译璟;杨哲铭;马晓雪 申请(专利权)人: 北京百分点科技集团股份有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/284;G06F16/35;G06K9/62
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 许志勇
地址: 100081 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于自然语言处理的多语言分析方法和装置,包括:通过语种检测训练模型选择输入自然语句文本信息语言种类;通过训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,并对得到的词嵌入表达信息通过TF‑IDF方式提取得到关键词;根据关键词和关键词权重计算得到文章向量和每个预设类目的类目向量,计算自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;将自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。本发明解决了传统多语言分析方法需要了解相关语言学的领域知识且需要大量人工操作的问题。
搜索关键词: 一种 基于 自然语言 处理 语言 分析 方法 装置
【主权项】:
1.一种基于自然语言处理的多语言分析方法,其特征在于,包括:通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类;对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,并对得到的词嵌入表达信息通过词频‑逆文档频率TF‑IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词;根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF‑IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711488119.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top