[发明专利]一种交互式抽取可比语料与双语词典的方法及其装置在审

申请号：	201410830446.7	申请日：	2014-12-25
公开（公告）号：	CN104572634A	公开（公告）日：	2015-04-29
发明（设计）人：	朱泽德;王绍祺;李淼;张健;陈雷;杨振新;卫林钰;曾新华;郑守国;李华龙	申请（专利权）人：	中国科学院合肥物质科学研究院
主分类号：	G06F17/28	分类号：	G06F17/28;G06F17/30
代理公司：	合肥天明专利事务所 34115	代理人：	张祥骞;奚华保
地址：	230031 ***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种交互式抽取可比语料与双语词典的方法及其装置，解决了领域种子双语词典规模不足条件下难以识别可比语料和可比度不同条件下难以提取互译词汇的缺陷。本发明包括：对文档进行词性还原、分词、去停用词，得到预处理后的文档集合以及词汇集合；分别构建源语言文档-目标语言文档、源语言词汇-目标语言词汇、双语词汇对-双语文档对的关系；迭代增强计算双语文档对和双语词汇对的权重；选择权重最大的双语文档对构建可比语料，选择权重最大的双语词汇对构建双语词典。通过不同语言文档相似性促进不同语言词汇相似性的判断，不同语言词汇的相似性增强不同语言文档的相似性，二者交互式迭代增强实现同步抽取可比语料和双语词典。
搜索关键词：	一种交互式抽取可比语料双语词典方法及其装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种交互式抽取可比语料与双语词典的方法，其特征在于，包括以下步骤：11)预处理过程，对文档进行词性还原、分词、去停用词，得到预处理后的文档集合以及词汇集合；针对M个源语言文档、N个目标语言文档，进行词性还原、分词、去停用词预处理，得到源语言文档集合DS＝{dm|1≤m≤M}、目标语言文档集合DT＝{dn|1≤n≤N}、源语言词汇集合WS＝{wa|1≤a≤A}、目标语言词汇集合WT＝{wb|1≤b≤B}，其中M、N、A、B分别为源语言文档集包含文档个数、目标语言文档集包含文档个数、源语言词汇集合中包含词汇个数、目标语言词汇包含词汇的个数；m、n、a、b为相应集合中的某一元素的标号，其均为正整数；12)分别构建源语言文档‑目标语言文档、源语言词汇‑目标语言词汇、双语词汇对‑双语文档对的关系；13)迭代增强计算双语文档对和双语词汇对的权重；14)选择权重最大的双语文档对构建可比语料，选择权重最大的双语词汇对构建双语词典；双语文档对的权重越大则不同语言文档的相关性越强，选择权重最大的双语文档对构成可比语料；双语词汇对的权重越大则不同语言词汇的相关性越强，选择权重最大的双语词汇对构成双语词典。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院;，未经中国科学院合肥物质科学研究院;许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410830446.7/，转载请声明来源钻瓜专利网。

上一篇：关键字搜索方法和装置
下一篇：生成单语解析模型的方法和装置以及语言转换装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种交互式抽取可比语料与双语词典的方法及其装置在审

专利文献下载