[发明专利]一种基于自然语言处理的多语言分析方法和装置有效
申请号: | 201711488119.8 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108197109B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 苏海波;刘钰;苏萌;刘译璟;杨哲铭;马晓雪 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F16/35;G06K9/62 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 语言 分析 方法 装置 | ||
一种基于自然语言处理的多语言分析方法和装置,包括:通过语种检测训练模型选择输入自然语句文本信息语言种类;通过训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,并对得到的词嵌入表达信息通过TF‑IDF方式提取得到关键词;根据关键词和关键词权重计算得到文章向量和每个预设类目的类目向量,计算自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;将自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。本发明解决了传统多语言分析方法需要了解相关语言学的领域知识且需要大量人工操作的问题。
技术领域
本申请涉及数据挖掘、机器学习、人工智能及面向多语言文本分析技术应用技术领域,特别涉及一种基于自然语言处理的多语言分析方法和装置。
背景技术
随着互联网信息的蓬勃发展,需要对互联网信息中各种语言进行处理。自然语言处理(NLP)是计算机科学、人工智能、语言学所关注的计算机和人类(自然)语言之间相互作用的领域,是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理研究范畴涵盖能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及到的领域包括自然语义理解、检索、信息抽取、机器翻译和自动问答系统等。
传统的多语言分析方法主要基于语言学相关知识来完成对应的语言领域的文本分析任务,需要了解相关语言学的领域知识,而且需要大量人工操作,存在领域单一、难以对多语言场景进行快速适应等问题。
由此可见,当前需要一种基于自然语言处理的多语言分析的技术方案,解决传统的多语言分析方法需要了解相关语言学的领域知识,而且需要大量人工操作,存在领域单一、难以对多语言场景进行快速适应的问题。
发明内容
本申请实施例提供一种基于自然语言处理的多语言分析方法及装置,以解决传统的多语言分析方法需要了解相关语言学的领域知识,而且需要大量人工操作,存在领域单一、难以对多语言场景进行快速适应的技术问题。
本发明提供了一种基于自然语言处理的多语言分析方法,包括:
通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类;
对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,并对得到的词嵌入表达信息通过词频-逆文档频率TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词;
根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF-IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;
将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。
进一步地,上述方法还可包括:
所述通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类的步骤,包括:
通过基于多项式的朴素贝叶斯分类器方式,收集不同语言的多种类型的数据作为训练数据,对训练数据做语种的标注,开始准备训练模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711488119.8/2.html,转载请声明来源钻瓜专利网。