[发明专利]一种基于Dirichlet过程的可比语料双语平行片段抽取的方法有效
申请号: | 201811093818.7 | 申请日: | 2018-09-19 |
公开(公告)号: | CN109299461B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 严馨;蒋亚芳;余正涛;徐广义;周枫;郭剑毅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于Dirichlet过程的可比语料双语平行片段抽取的方法,属于机器学习翻译与自然语言处理技术领域。本发明首先需要通过双语主题模型获得双语可比语料对的主题分布,再通过泊松分布随机切分双语可比语料,然后设定一个主题阈值,通过阈值初步筛选可比语料平行片段集,最后由Dirichlet过程获得各个平行片段之间的匹配概率,再经过吉布斯抽样进一步获得最终精确的平行片段对。在相同的可比语料环境下,本发明基于Dirichlet过程的抽取方法获取平行片段对的效果更佳。 | ||
搜索关键词: | 一种 基于 dirichlet 过程 可比 语料 双语 平行 片段 抽取 方法 | ||
【主权项】:
1.一种基于Dirichlet过程的可比语料双语平行片段抽取的方法,其特征在于:包括如下步骤:Step1、通过双语LDA主题模型获得双语可比语料对的主题模型;Step1.1、利用相应的分词工具对双语可比语料进行分词、去停用词预处理;Step1.2、对处理好的双语可比语料,通过双语LDA主题模型获得双语可比语料对的主题模型;Step2、通过泊松分布随机切分双语可比语料,然后设定一个主题相似度,通过主题相似度初步筛选可比语料平行片段集;Step3、由Dirichlet过程获得各个平行片段之间的匹配概率,再经过吉布斯抽样进一步获得最终的平行片段对。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811093818.7/,转载请声明来源钻瓜专利网。