[发明专利]一种基于句法主语聚类的中文篇章主题表现力分析方法有效
申请号: | 201810166125.X | 申请日: | 2018-02-28 |
公开(公告)号: | CN108564106B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 周建设;罗茵;陈炳哲;杨曲;娜仁图雅 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/211 |
代理公司: | 长沙智德知识产权代理事务所(普通合伙) 43207 | 代理人: | 陈铭浩 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明设计一种基于句法主语聚类的中文篇章主题表现力分析方法,属于自然语言处理应用技术领域。包括以下步骤:首先获取待分析的目标篇章,将每一篇章进行异常过滤后进行小句划分并数据化标记,然后进行句子主语总数提取和有效筛选并均根据预置的同义词词库进行编码式标记,再根据筛选获得的有效主语进行主语聚类,以及筛选获得的各有效主语的编码进行层次划分,从而根据方程得出主题表现力值并完成计算工作。本发明的计算方法,可对篇章中的主语进行清晰有效地分析,并计算得出篇章主题表现力值,可作为篇章主题表现力的有效支撑数据,与篇章最终的评分分数正相关,提高记叙文的中文篇章主题聚合度评价的精准性。 | ||
搜索关键词: | 一种 基于 句法 主语 中文 篇章 主题 表现力 分析 方法 | ||
【主权项】:
1.一种基于句法主语聚类的中文篇章主题表现力计算方法,其特征在于,该方法包括以下步骤:一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集T:规则1:过滤纯非中文句子;规则2:扫描错别字、修正;规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为T1、T2、T3...、Tn;三、主语提取:对所述语料集T中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集S;规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集S1;规则2:识别相邻的小句首个句为名词性非主谓句,第2个小句为名词或谓词性非主谓句的,采用预置的非主谓句主语骨干模型执行主语提取,提取的主语归集为子集S2;所述子集S1与所述子集S2合并为主语集S;四、有效主语筛选:遍历主语集S中的所有词语,与预置的同义词词库内的词语一一对照匹配,执行下述筛选规则:规则1:无法获得匹配对象的词语,判定为未登陆词语;并合并具有相同词型的未登录词,按其重复词型数计数,其中重复词型的词语大于等于2的,取计数数量为2,归集为子集C5;不重复的词,归集为子集C1;规则2:匹配成功的词语,判定为登陆词语,给予唯一对应的编码;规则3:具有相同词型不同编码的登陆词语,根据其所在语料位置,确认其唯一的对应编码;同时合并词型相同编码也相同的登陆词语,按其重复词型统计,归为集合C;经筛选后的登陆词语赋予唯一的编码,所述编码为五级或以上的若干位数编码,并进入集合C,即集合C中每个词的编码中至少有1位不同,词性相同的词语编码首位相同;五、主语聚类获取:遍历集合C的各词语编码,执行下述规则,获得主语聚类数:规则1:按序对比各个词语的编码,有且只有编码首位相同的词语,执行归为同一主语聚类;规则2:根据规则1,获取并统计不同主语聚类的种类数量,归为集合Z,集合Z为大于0的自然数;六、主语聚类的层次提取:分别比对集合C内各词语的编码吻合长度,执行下述规则,提取并统计各主语聚类层次的词语:规则1:第1级编码与其他任何词均不相同的词语,归集为子集C1,上述步骤四规则1中得到的子集C1与本规则的子集C1为同一子集,所述子集C1为大于0的自然数;规则2:仅有第1级编码相同的词语,归集为子集C2,所述子集C2为大于0的自然数;规则3:仅有第1、2级编码相同的词语,归集为子集C3,所述子集C3为大于等于0的自然数;规则4:仅有第1、2、3级编码相同的词语,归集为子集C4,所述子集C4为大于等于0的自然数;规则5:仅有第1、2、3、4级编码相同的词语,归集为子集C5,前述步骤四规则1中得到的子集C5与本规则的子集C5是同一子集,所述子集C5为大于等于0的自然数;七、主语聚类主题表现力计算,执行下列多元回归函数,所得值为主语聚类的主题表现力值:F(x)=α+β1Z+β2C1+β3C2+β4C3+β5C4+β6C5其中α为常数,βj(j=1,2,…,6)为回归系数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810166125.X/,转载请声明来源钻瓜专利网。