[发明专利]一种基于句法主语聚类的中文篇章主题表现力分析方法有效
申请号: | 201810166125.X | 申请日: | 2018-02-28 |
公开(公告)号: | CN108564106B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 周建设;罗茵;陈炳哲;杨曲;娜仁图雅 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/211 |
代理公司: | 长沙智德知识产权代理事务所(普通合伙) 43207 | 代理人: | 陈铭浩 |
地址: | 100089 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 句法 主语 中文 篇章 主题 表现力 分析 方法 | ||
本发明设计一种基于句法主语聚类的中文篇章主题表现力分析方法,属于自然语言处理应用技术领域。包括以下步骤:首先获取待分析的目标篇章,将每一篇章进行异常过滤后进行小句划分并数据化标记,然后进行句子主语总数提取和有效筛选并均根据预置的同义词词库进行编码式标记,再根据筛选获得的有效主语进行主语聚类,以及筛选获得的各有效主语的编码进行层次划分,从而根据方程得出主题表现力值并完成计算工作。本发明的计算方法,可对篇章中的主语进行清晰有效地分析,并计算得出篇章主题表现力值,可作为篇章主题表现力的有效支撑数据,与篇章最终的评分分数正相关,提高记叙文的中文篇章主题聚合度评价的精准性。
技术领域
本发明涉及自然语言处理应用技术领域,具体涉及一种基于句法主语聚类的中文篇章主题表现力分析方法。
背景技术
在篇章理解中,句法主语一般被视为无标记的话题(石毓智,2001),想要贯彻篇章分析和理解,从已经取得了更加系统而丰富研究成果的句法成分角度来入手,是一个值得开辟的新思路。
在句子层面,主语是被陈述的对象,是已知信息;在篇章层面,主语作为观察视角的源点,由所指称的对象为载体引导新信息的展开;当叙述的关注点转移了,主语必然随之切换,从而引起后续陈述内容的一系列反应。篇章词汇量大,结构复杂多变,由此产生庞杂的信息极大干扰了对篇章主题的理解和把握。如果能把各小句的主语作为一个集中观察的视窗,将提纲挈领了解文中被陈述对象的变化转移过程,从而得以迅速地把握篇章主题。
周建设(2012)指出,面向自然语言处理的人工分析,语言学家的核心工作之一是建设“语法语义网络”。他随后又提出了以主题聚合度为核心概念的主题、主题表现力等系列概念。主题聚合度是指篇章中的语言形式所展示出主题的外延之间的紧密程度。主题聚合度是篇章主题评价的综合指标,通过计算多种主题表现力来共同完成。主题聚合度评价的维度分为篇章级、段落级、句群级、复句级和词语级等等级。主题聚合度的提出,从人类认知角度说,旨在更多了解脑的神经机制运作方式解决人的语言认知困惑;从人工智能角度说,旨在借助机器的技术手段减轻人的言语负担。主题聚合度计算的设计目标,在于用语言智能的手段实现篇章理解和评判的自动化;主题聚合度的计算价值,在于为作文提供科学、准确、快速、规范的评价核心指标,为提高人类语言的能力服务。
主题表现力是实现主题聚合度评价的重要形式化指标之一,是指语言符号载体与主题表现之间的语义关系。主题表现力可以实现为千变万化的语义关系,想要快速准确地识别出篇章的主题表现力效果,必须细化篇章的类型,从较为同类的篇章材料中总结该类篇章的主题表现力的规律,并从不同的篇章类型中不断获得不同的规律。
发明内容
本发明目的是提供一种基于句法主语聚类的中文篇章主题表现力的计算方法,通过分析句法主语的主题表现力,快速准确地量化出记叙文类型的中文篇章主题表现力。
为解决上述技术问题,本发明所采用的技术方案为:
一种基于句法主语聚类的中文篇章主题表现力分析方法,其特征在于,该方法包括以下步骤:
一、语料集获取:获取待分析的目标篇章,并依次判定篇章语言主体为中文和表达类型为记叙文后,以一篇待分析的篇章为一个语料集M;
二、语料集预处理:对所述语料集M的每一个句子依次执行下述规则后,得语料集T:
规则1:过滤纯非中文句子;
规则2:扫描错别字、修正;
规则3:对经规则1和规则2处理后的句子进行小句划分,确定小句数量,并依次标记为T1、T2、T3...、Tn;
四、主语提取:对所述语料集T中所有已标记的小句分别执行主谓句识别,执行下述规则提取主语,归集为主语集S;
规则1:识别小句为主谓句的,采用预置的主谓句主语骨干模型执行主语提取,提取的主语归集为子集S1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810166125.X/2.html,转载请声明来源钻瓜专利网。