[发明专利]面向汉语词汇学习的分级词表动态生成方法和系统在审
申请号: | 202010123921.2 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111427991A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 彭炜明;张曌;张引兵;宋继华;宋天宝 | 申请(专利权)人: | 彭炜明;宋继华;宋天宝 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/289 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 汉语 词汇 学习 分级 词表 动态 生成 方法 系统 | ||
本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统,方法包括:根据语言学和计量词汇学,确定合适的可量化的词汇属性,构建词表价值评价体系;结合词汇属性,对汉语分级语料进行标注分析,获取需要用到的有用的词汇属性信息;结合构建的词表价值评价体系和确定的词汇属性信息,通过分级词表动态生成算法,自动生成分级词表。优点为:本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统,能够节省更新词表时所需要的大量人力和财力,使汉语学习资料更具有时效性,提升汉语学习效果。
技术领域
本发明属于语料库语言学和自然语言处理技术领域,具体涉及一种面向汉 语词汇学习的分级词表动态生成方法和系统。
背景技术
欧洲语言测试者协会发布了欧洲语言共同参考框架,用于评估学习者对所 学语言的掌握程度。欧洲语言共同参考框架将语言能力分为六级,并对各级别 所要求达到的语言能力进行了详细描述,为词表的分级提供了理论支撑。
我国从上世纪60年代开始研制用于对外汉语教学的词表,词表的研制基本 依靠人工筛选,由于没有统一的标准,各种词表层出不穷。随着时代发展和语 言使用习惯的变更,年代久远的词表暴露出越来越多的问题,传统的依靠人力 的词表研制方式在规范化、规模化、信息化、自动化、重复性、时效性以及可 解释性等方面均无法满足当前国际汉语教学领域的需求。
发明内容
针对现有技术存在的缺陷,本发明提供一种面向汉语词汇学习的分级词表 动态生成方法和系统,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种面向汉语词汇学习的分级词表动态生成方法,包括以下步 骤:
S1,根据语言学和计量词汇学,确定合适的可量化的词汇属性,构建词表 价值评价体系;
S2,结合S1中确定的词汇属性,对汉语分级语料进行标注分析,获取需要 用到的有用的词汇属性信息;
S3,结合S1构建的词表价值评价体系和S2确定的词汇属性信息,通过分级 词表动态生成算法,自动生成分级词表。
优选的,S1中,所述合适的可量化的词汇属性包括两种:不依赖于上下文 的词汇内部属性和依赖于上下文的词汇外部属性;其中,词汇内部属性包括词 汇本身词性、词汇本身释义和词汇的构词能力;其中,词汇的构词能力包括构 词方式和构词类型;词汇外部属性包括词汇在特定语境中的词性、词汇在特定 语境中的释义和词汇的频率特征;其中,词汇的频率特征包括词频、文档频率 和等级频率。
优选的,S1具体包括如下步骤:
S101,基于“词汇类推”的研究成果,结合中文词汇的特点,将词汇的构 词能力具体化;S101具体包括如下步骤:
S1011,将词表中的每个词语进行减字类推,得到减字扩充词表;
S1012,基于减字扩充词表,进行组合类推,得到最终的扩充词表;
S102,基于词汇的构词能力对S1012得到的最终的扩充词表进行价值评价计 算,构建得到词表价值评价体系,S102具体包括如下步骤:
S1021,计算每个词汇的词频TF值;
S1022,计算每个词汇的文档频率DF值;
S1023,计算每个词汇的等级频率GF值;
S1024,计算每个词汇对不同等级词表的影响程度;
S1025,综合考虑每个词汇的词频TF值、文档频率DF值、等级频率GF值和 影响程度,计算每个词汇的价值;
S1026,将词表的每个词汇的价值求和,得到词表的总价值,由此得到词表 价值评价结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于彭炜明;宋继华;宋天宝,未经彭炜明;宋继华;宋天宝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010123921.2/2.html,转载请声明来源钻瓜专利网。