[发明专利]语料获取方法及装置在审
申请号: | 201610195320.6 | 申请日: | 2016-03-30 |
公开(公告)号: | CN105893348A | 公开(公告)日: | 2016-08-24 |
发明(设计)人: | 张俊博 | 申请(专利权)人: | 乐视控股(北京)有限公司;乐视致新电子科技(天津)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘戈 |
地址: | 100025 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种语料获取方法及装置,所述方法包括:获取针对任一类型的语法文件;所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语;将所述语法文件进行解析,按照所述组织关系将所述各个词串进行任意组合,获得多个文本句子;将所述多个文本句子作为语料,构建获得语料库,本发明实施例提高了降低了语料获取难度,提高了语料获取的准确度。 | ||
搜索关键词: | 语料 获取 方法 装置 | ||
【主权项】:
一种语料获取方法,其特征在于,包括:获取针对任一类型的语法文件;所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语;将所述语法文件进行解析,按照所述组织关系将各个词串进行任意组合,获得多个文本句子;将所述多个文本句子作为语料,构建获得属于所述类型的语料库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐视控股(北京)有限公司;乐视致新电子科技(天津)有限公司,未经乐视控股(北京)有限公司;乐视致新电子科技(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610195320.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种棒料剪断机强制循环水冷制动器
- 下一篇:一种脱离电机抱闸制动的专用工具