[发明专利]短语挖掘方法及装置有效
申请号: | 201610388049.8 | 申请日: | 2016-06-02 |
公开(公告)号: | CN107463554B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 卞华明;管陶然;史黎鑫;张海波;刘禹;赵宇;骆卫华;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/47 | 分类号: | G06F40/47;G06F40/58;G06F16/2457 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 李威;林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短语 挖掘 方法 装置 | ||
1.一种短语挖掘方法,其特征在于,包括:
从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;
将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选,包括:通过对所述候选短语集合中的候选短语进行聚簇处理,将具有包含关系的候选短语汇聚为一簇,以得到若干短语簇;为所述短语簇生成相应的筛选任务;向每一预设处理对象分配至少一个筛选任务,以由每一预设处理对象根据预定义的筛选条件对分配得到的筛选任务中的候选短语进行筛选;
根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。
2.根据权利要求1所述的方法,其特征在于,所述从原始语料中抽取候选短语集合,包括:
按照预定义的短语长度,对所述原始语料进行切分,以获得所述原始语料中所有符合所述短语长度的短语。
3.根据权利要求2所述的方法,其特征在于,所述按照预定义的短语长度,对所述原始语料进行切分,以获得所述原始语料中所有符合所述短语长度的短语,包括:
针对每个所述预定义的短语长度,分别创建长度为所述预定义的短语长度、移动步长为一个短语元素的短语切分窗口;其中,所述短语长度为短语中包含的短语元素的数量;
将所述短语切分窗口配置到所述原始语料中的预设位置,并将所述原始语料中对应于所述短语切分窗口的短语元素抽取为候选短语;
当所述原始语料中存在位于所述短语切分窗口的任一侧的未抽取短语元素时,向所述任一侧依次移动所述短语切分窗口,并在每次移动后将所述原始语料中对应于所述短语切分窗口的短语元素抽取为候选短语。
4.根据权利要求1所述的方法,其特征在于,还包括:
筛除所述候选短语集合中包含预设虚词的候选短语。
5.根据权利要求1所述的方法,其特征在于,还包括:
通过对所述原始语料进行句法分析,确定并筛除所述候选短语集合中包含非名词性短语元素的候选短语。
6.根据权利要求1所述的方法,其特征在于,还包括:
在从所述原始语料中抽取所述候选短语集合之前,将所述原始语料中的预设格式的短语元素泛化处理为预设变量;
其中,所述预设格式的短语元素包括以下至少之一:数字、颜色、时间。
7.根据权利要求1所述的方法,其特征在于,
所述将所述候选短语集合分配至若干预设处理对象,包括:将同一候选短语分配给至少预设数量的多个预设处理对象;
所述根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语,包括:当判定同一候选短语满足预设质量条件的预设处理对象的数量占比达到预设比例时,确定所述同一候选短语满足所述预设质量条件。
8.根据权利要求1所述的方法,其特征在于,还包括:
从被判定为满足预设质量条件的短语中,抽取第一预设数量的待审核短语;从被判定为不满足预设质量条件的短语中,抽取第二预设数量的待审核短语;
将所述待审核短语分配至预设审核对象,并接收所述预设审核对象返回的审核结果,所述审核结果包括所述预设处理对象对所述待审核短语的筛选准确度;
当所述筛选准确度达到预设准确度时,将相应的满足预设质量条件的短语输出至翻译记忆系统的术语库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610388049.8/1.html,转载请声明来源钻瓜专利网。