[发明专利]一种汉语二语作文自动评分方法在审
| 申请号: | 202110896135.0 | 申请日: | 2021-08-05 |
| 公开(公告)号: | CN113569560A | 公开(公告)日: | 2021-10-29 |
| 发明(设计)人: | 胡韧奋;王予沛;彭一平;宾帅 | 申请(专利权)人: | 北京师范大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289;G06N3/04;G06N3/08;G06Q10/06;G06Q50/20 |
| 代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 刘浩;许天易 |
| 地址: | 100875 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 汉语 作文 自动 评分 方法 | ||
1.一种汉语二语作文自动评分方法,包括:
S1、抽取作文的语言特征;
S2、抽取多粒度文本表示特征;
S3、抽取切题特征;
S4、将语言特征、多粒度文本表示特征和切题特征输入评分模型,获得分数。
2.根据权利要求1所述的评分方法,其中,所述语言特征包括语言复杂度特征和语言偏误特征;所述语言复杂度特征包含字词复杂度特征、句法复杂度特征、依存复杂度特征和语法点复杂度特征。
3.根据权利要求2所述的评分方法,其中,句法复杂度特征,用于从语句、搭配、二元组三个维度对作文进行衡量,语句维度的特征包括平均大句长、平均小句长、平均T单位长、平均小句数、平均T单位数,搭配维度的特征包括整体搭配的多样性、跨语言通用搭配的多样性、汉语特有搭配的多样性、每类句法搭配的多样性、低频搭配比例、汉语特有搭配比例、二元组的多样性和低频二元组比例。
4.根据权利要求2所述的评分方法,其中,依存复杂度特征,用于反映句法结构中词与词之间的关系,包括每种依存类型三元组的多样性、比例和平均依存距离、依存三元组多样性、低频依存三元组比例、所有三元组的平均依存距离、定中三元组多样性、状中三元组多样性、动宾三元组多样性、定中三元组多样性、动宾结构的平均距离、主谓结构的平均距离、依存关系的多样性、高级依存三元组的比例。
5.根据权利要求2所述的评分方法,其中,语法点复杂度特征,用于捕捉二语作文句法复杂度和成熟度;优选的,包括10个语法点比例和11个语法点密度。
6.根据权利要求3所述的评分方法,其中,句法搭配类型包括动宾搭配、主谓搭配、形名搭配、状中搭配、量名搭配、框式介词搭配、介动搭配、述补搭配。
7.根据权利要求3所述的评分方法,其中,所述低频二元组比例的获取方法包括:
通过外部教材语料库提取二元组及其频次,并设定阈值;
将外部教材语料库中频次低于阈值的二元组界定为低频二元组;
计算作文文本中的低频二元组占比;
所述低频依存三元组比例的获取方法包括:
通过外部教材语料库提取三元组及其频次,并设定阈值;
将外部教材语料库中频次低于阈值的三元组界定为低频三元组;
计算作文文本中的低频三元组占比。
8.根据权利要求1所述的评分方法,其中,在步骤S2中,所述多粒度文本表示特征的获取方法包括:
提取作文中汉字、词汇和词性的一元组、二元组和三元组;
计算汉字、词汇和词性的一元组、二元组和三元组的TF-IDF权重;
使用TF-IDF权重对汉字、词汇和词性的一元组、二元组和三元组进行加权表示,从而获得作文的文本向量表示。
9.根据权利要求1所述的评分方法,其中,在所述步骤S3中,将作文题目和作文语句输入切题模型获取所述切题特征,所述切题模型为二分类模型,优选的,所述切题模型由顺次连接的BERT模型和全连接层构成的,激活函数为sigmoid函数;
优选的,切题模型的训练方法包括:
将训练集中“原作文题目+该题目下正文”作为正例,将“随机选取一个其他题目+原题目下的正文”作为负例,随机采样构造第一正负样本;
将训练集中“原作文题目+该题目下正文中句子”作为正例,将“随机选取一个其他题目+原题目下的正文中句子”作为负例,构造第二正负样本;
使用第一正负样本训练切题模型,从而得到切题模型的第一参数,使用第二正负样本训练切题模型,从而得到切题模型的第二参数。
10.根据权利要求1所述的评分方法,其中,所述评分模型的获取方法包括:
S41、根据步骤S1抽取训练集中作文的语言特征;
S42、采用逐步回归方法对特征作进一步筛选,排除与作文分数无显著相关性的特征,得到用于构建评分模型的语言特征集合;
S43、将筛选出的语言特征进行标准化处理;
S44、根据步骤S2抽取训练集中作文的多粒度文本表示特征;
S45、根据步骤S3抽取训练集中作文的切题特征;
S46、将标准化处理后的语言特征和多粒度文本表示特征、切题特征拼接,得到最终的特征集;
S47、采用基于阈值的有序逻辑回归模型进行评分学习,以获得评分模型。
优选的,所述有序逻辑回归模型中的损失函数是全阈值损失函数:
其中h(z):=log(1+exp(z)),标记k∈{1,...,l}对应区间(θk-1,θk),θ0和θl分别表示-∞和+∞,是训练样本{y1,...,yn},yi∈{1,...,l}是与其对应的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110896135.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种室内装饰石材铺设设备及工艺
- 下一篇:一种电磁推力器结构及其应用





