[发明专利]一种语境标注的双语平行语料库构建系统有效
申请号: | 201610368937.3 | 申请日: | 2016-05-27 |
公开(公告)号: | CN106066870B | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 尹娜;高湘;韩进;李潼潼;林弋岚;李亚州 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/22;G06F16/2458 |
代理公司: | 江苏爱信律师事务所 32241 | 代理人: | 唐小红 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种语境标注的双语平行语料库构建系统,该系统由上位机与并行的语境标注数据生成单元组成。通过上位机进行双语语料的前置处理,再将语料分词发送至并行标注数据生成单元。在生成单元的主控模块控制下由单元内各节点模块生成语境标注数据并将数据存储在模块外接的FLASH芯片中。当双语平行语料库达到一定规模后,由上位机读取存储在各节点模块中词共句关系的统计数据实现对语料库中双语语料的语境标识。本构建系统充分利用了并行处理的架构优势,能快速处理较大规模的语料库语境标注数据的生成。并基于标注数据标注出语料库中语料的语境,实现语境标注的双语平行语料库。 | ||
搜索关键词: | 一种 语境 标注 双语 平行 语料库 构建 系统 | ||
【主权项】:
1.一种语境标注的双语平行语料库构建系统,其特征在于,包括:1)并行的语境标注数据生成架构:由上机位与外接的并行语境标注数据生成单元组成,通过上位机将语料分词结果发送到生成单元,由生成单元完成词的双向索引和词共句关系统计,作为语境标注所需的基础数据;2)并行语境标注数据生成单元:由一个主控模块和多个可扩展的处理节点模块构成,由主控模块实现与上位机的交互,可扩展并行节点实现对词的索引与词共句关系统计,作为语境标注的数据来源;3)面向语境的词索引结构:该结构实现了一种面向语境的词索引结构,能实现词与语料的双向索引,保存词在语料中位置,实现词与词之间的共现关联关系统计;4)基于语境的双语平行语料库的构建:基于语境模型实现对语料库中语料语境的构建,实现包含语境标注的双语平行语料库;其中,所述可扩展的节点模块由ARM、扩展内存、外接FLASH芯片以及相关的控制与数据线组成,其接收从主控模块发送来的分词以及语料ID,缓存于模块语料分词缓存数据结构中,再遍历各分词,将分词生成MD5再映射成节点号,判断该分词是否由本节点处理,若由本节点处理,则生成该词的面向语境的词索引结构和词共现关系统计数据;所述词索引结构,包括词,词的MD5码以及二进制的反向语料有序索引数组,每个索引数组元素为corpusID,index二元组,其中:corpusID为语料唯一ID,以及词在语料中的位置,数组以corpusID为序从小到大排列,提供二分法插入与查找,词与词句共现关系的分析接口;所述词共句关系统计,每个统计项为wordID,wordID,count三元组,其中前二个wordID分别代表在同一个句子中出现的二个词的ID,count代表到目前为止这二个词共句出现的频率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610368937.3/,转载请声明来源钻瓜专利网。
- 上一篇:新闻投放方法及装置
- 下一篇:一种基于开放接口的多源异构数据源访问方法