[发明专利]双语篇章可比语料构建方法在审
| 申请号: | 202111434929.1 | 申请日: | 2021-11-29 |
| 公开(公告)号: | CN114118096A | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 吕飞;朱泽德;王卫;陈晓虎;郑守国 | 申请(专利权)人: | 中科合肥技术创新工程院 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/205;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 刘涛 |
| 地址: | 230088 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 双语 篇章 可比 语料 构建 方法 | ||
本发明特别涉及一种双语篇章可比语料构建方法,包括如下步骤:A、利用深度学习建立每种语言词汇间的语义关系;B、利用现有有限双语语料训练产生跨语言主题分布,对语料覆盖的不同语言词汇进行主题标注;C、利用未登陆词汇与覆盖词汇之间的语义关系,通过知识迁移分析未登录词汇的主题分布,构建多语言词汇统一的语义空间;D、构建具有较强泛化能力的跨语言主题向量;E、利用跨语言主题向量相似度筛选双语篇章,构建可比语料库。通过将单语词向量反映的语义关系、双语词汇对齐关系以及双语词向量融入跨语言主题,可提升跨语言主题模型对开放域文本信息的泛化能力,提高了可比语料构建的准确性。
技术领域
本发明涉及跨语言信息处理技术领域,特别涉及一种双语篇章可比语料构建方法。
背景技术
双语篇章可比语料因来源广、时效强和领域均衡等优势,已被广泛用于平行句对、双语多词和互译词汇等细粒度互译等价对挖掘,成为统计机器翻译、跨语言信息检索等基础资源;同时,还被用于跨语言文档聚类、多语言分布系统类标签描述、跨语言情感分析和跨语言文本抄袭监测等跨语言信息处理。
当前,双语可比语料构建技术已被广泛研究,主要通过特征匹配、跨语言信息检索和维基百科链接等方式,从杂乱、异构和分散的互联网文本获取不同语言描述的相同事件,构成双语可比语料。
近些年,主题模型作为分析篇章内容的重要工具,能提取相对稳定的隐含语义结构,具有降维、无监督和篇章级等优点,可用于协同过滤、文档相似计算等方面。跨语言主题模型是主题模型的多语言扩展,利用训练集中双语可比语料共享相同的主题信息,使每个主题采用两种语言词汇表示,将待量化的双语篇章形成统一空间的主题分布,为双语篇章可比度量化提供了较好的方法。然而,现有跨语言主题模型受限于双语训练语料的规模,提升跨语言主题模型的泛化能力是本发明的重要内容。
发明内容
本发明的目的在于提供一种双语篇章可比语料构建方法,具有较强的自适应能力。
为实现以上目的,本发明采用的技术方案为:一种双语篇章可比语料构建方法,包括如下步骤:A、利用深度学习在大规模的源语言和目标语言单语语料分别产生不同语言的单语词向量,建立每种语言词汇间的语义关系;B、利用现有有限双语语料训练产生跨语言主题分布,对语料覆盖的不同语言词汇进行主题标注;C、利用未登陆词汇与覆盖词汇之间的语义关系,通过知识迁移分析未登录词汇的主题分布,构建多语言词汇统一的语义空间;D、通过双语词汇对齐关系、未登录词汇主题分布和双语词向量融入跨语言主题模型,构建具有较强泛化能力的跨语言主题向量。E、利用跨语言主题向量相似度筛选双语篇章,构建可比语料库。
与现有技术相比,本发明存在以下技术效果:本发明以单语词汇语义关系和双语词对齐为基础,提高双语词向量对词汇的覆盖度,将双语词向量融入跨语言主题构建跨语言主题向量模型;通过噪声对比估算的无监督神经网络词对齐模型建立双语词汇对齐关系,同时将单语词向量反映的语义关系、双语词汇对齐关系以及双语词向量融入跨语言主题,构建跨语言主题向量模型,提升跨语言主题模型对开放域文本信息的泛化能力,提高了可比语料构建的准确性。
附图说明
图1是本发明的原理图。
具体实施方式
下面结合图1,对本发明做进一步详细叙述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科合肥技术创新工程院,未经中科合肥技术创新工程院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111434929.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环形锯片机构及管道清理设备
- 下一篇:一种异质金属激光增材制造方法





