[发明专利]一种分词系统的评测方法和一种分词评测系统有效
申请号: | 200810089834.9 | 申请日: | 2008-03-28 |
公开(公告)号: | CN101246473A | 公开(公告)日: | 2008-08-20 |
发明(设计)人: | 张耀杰;邵荣防 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 系统 评测 方法 | ||
技术领域
本发明涉及自然语言处理领域,特别是涉及一种分词系统的评测方法和一种分词评测系统。
背景技术
分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解,就是分词技术所要解决的问题。例如,英文是以词为单位的,词和词之间是靠空格隔开,对于英文句子“I am a student”,计算机可以很简单通过空格知道student是一个单词;而中文是以字为单位,句子中所有的字连起来才能描述一个意思,对于中文句子“我是一个学生”,计算机不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,对于“我是一个学生”,分词的结果可以是:我是一个学生。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,而需要综合不同的算法。由于中文分词是其他中文信息处理的基础,诸如搜索引擎、机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等技术均需要运用到中文分词技术,因此,有必要建立一个相应的评测机制,用来评价分词系统分词的合理性。
现有技术中,对于分词系统的评测通常采用将分词系统分词的结果与基础语料库(如,北大语料库)进行匹配,根据匹配的结果验证分词的合理性,在实际中,这种匹配评测的过程需要大量的人工操作才能得以完成,且数据处理量较大,不仅评测效率较低,成本也较高。
因此,现阶段需要本领域技术人员迫切解决的一个技术问题就是,如何在尽可能地节约成本的情况下,提高对分词系统评测的处理效率。
发明内容
本发明所要解决的技术问题是提供一种分词系统的评测方法,以在节约成本的情况下,提高对分词系统评测的处理效率。
本发明的另一个目的是提供了一种分词评测系统,用以保证上述方法在实际中的实现及应用。
为了解决上述技术问题,本发明实施例公开了一种分词系统的评测方法,包括:
采用目标分词系统对测试语料进行多次切分,获得多个目标切分结果,并采用基准分词系统对所述测试预料进行切分,获得基准切分结果;
将所述多个目标切分结果进行纵向对比,得到第一评测参数,用以评估所述目标分词系统的稳定性;并将所述目标切分结果与所述基准切分结果进行横向对比,得到第二评测参数,用以评估所述目标分词系统的准确性。
优选的,所述的方法,还包括:
记录所述评测参数符合预设条件的测试语料。
优选的,所述的方法,还包括:
从不符合所述预设条件的测试语料中,选取一定的测试语料生成语料库。
优选的,所述评测步骤包括:
依据所述测试语料的多个目标切分结果计算第一评测参数;以及,匹配所述基准切分结果和目标切分结果获得第二评测参数;
依据所述第一评测参数和第二评测参数评测所述目标分词系统。
优选的,所述切分步骤包括:
获取所述测试语料的特征信息;
所述基准分词系统和目标分词系统分别依据所述特征信息对所述测试语料进行切分,获得基准切分结果和目标切分结果。
优选的,所述切分步骤还包括:
将具有同一特征信息的测试语料保存至同一文件中。
优选的,所述评测参数符合预设条件的测试语料为不合理语料,所述记录为在文件或数据库中记录。
优选的,所述基准分词系统为海量智能分词系统。
本发明实施例还公开了一种分词评测系统,所述评测系统用于评测分词系统,所述分词系统包括基准分词系统和目标分词系统,所述评测系统包括:
结果获取模块,用于采用目标分词系统对测试语料进行多次切分,获得多个目标切分结果,并采用基准分词系统对所述测试预料进行切分,获得基准切分结果;
参数评测模块,用于将所述多个目标切分结果进行纵向对比,得到第一评测参数,用以评估所述目标分词系统的稳定性;并将所述目标切分结果与所述基准切分结果进行横向对比,得到第二评测参数,用以评估所述目标分词系统的准确性。
优选的,所述的评测系统,还包括:
记录模块,用于记录所述评测参数符合预设条件的测试语料。
优选的,所述的评测系统,还包括:
自定义库生成模块,用于从不符合所述预设条件的测试语料中,选取一定的测试语料生成语料库。
优选的,所述参数评测模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810089834.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:梳齿型静电驱动器
- 下一篇:低功耗FPGA、及降低FPGA的功耗的方法