[发明专利]一种基于规则和语义的多标签文本分类方法和系统在审
申请号: | 202310272292.3 | 申请日: | 2023-03-16 |
公开(公告)号: | CN116483997A | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 梁果敢;宗云兵;刘传彬;李旭;胡代国;贺作华 | 申请(专利权)人: | 金现代信息产业股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/211;G06F40/253;G06F40/268;G06F40/284 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张庆骞 |
地址: | 250000 山东省济南市高新区新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 规则 语义 标签 文本 分类 方法 系统 | ||
本发明公开了一种基于规则和语义的多标签文本分类方法和系统,涉及自然语言处理技术领域。该方法步骤包括:获取文本数据,对文本数据进行标签标注,根据标签语义构建分类规则;根据标签语义寻找相同的词、短语或词语组合构建分类规则;根据标点符号位置将文本数据进行拆分;通过词性分析去除拆分后文本中的干扰信息,对去除干扰信息后的文本进行分词;根据分类规则对分词后的文本进行词语匹配,得到匹配到的带有分类标签的词语记录;对词语记录中的标签进行评分,根据分数阈值得到文本分类结果。本发明利用语句中词语的词性,分析句子结构,综合词性和句子成分制定规则,使规则清晰、简洁、覆盖面广,提高了文本分类的速度和精度。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于规则和语义的多标签文本分类方法和系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
文本分类是自然语言处理中的一个基本任务。文本分类可以基于文本内容或语法,也可以基于文本的其他特征。对于文本材料风格类似、规律明显的小样本,最简单的方法是基于规则的多标签文本分类,即对每个标签总结常见短句,利用全文匹配方法与之对应。
但发明人发现,完全匹配的方法覆盖面有限,容易漏掉许多样例,而且完全没有考虑语义,容易对有否定修饰的例子错分。一些其他现有的文本分类方法为了保证分类的正确率,过分依赖于数据集的训练结果,如果将分类标签全面覆盖则计算量巨大,不容易实现。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种基于规则和语义的多标签文本分类方法和系统,考虑到了转折、否定等情况对标签分类的影响,规则中使用了屏蔽词,同时规则制定采用关联词加倾向词组合的方式确定标签,对于有强关联的词汇可以直接采用白名单全文匹配的方式。提高了多标签文本分类的准确程度和匹配速度。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明第一方面提供了一种基于规则和语义的多标签文本分类方法,包括以下步骤:
获取文本数据,对文本数据进行标签标注,根据标签语义构建分类规则;其中,根据标签语义构建分类规则的具体步骤为:对已标注的文本数据进行分析确定标签语义,将相同标签的文本数据进行汇总;从相同标签的文本数据中提取特征词;
根据标签语义寻找相同的词、短语或词语组合构建分类规则;
根据标点符号位置将文本数据进行拆分;
通过词性分析去除拆分后文本中的干扰信息,对去除干扰信息后的文本进行分词;
根据分类规则对分词后的文本进行词语匹配,得到匹配到的带有分类标签的词语记录;对词语记录中的标签进行评分,根据分数阈值得到文本分类结果。
进一步的,对已标注的文本数据进行分析确定标签语义包括对每个标签中的文本进行句法结构和词性分析,确定每个词语的词性和所扮演的句子成分。
进一步的,从相同标签的文本数据中提取特征词的具体步骤为:
对文本数据进行分词,每个标签按词频从高到底排序,找到频次靠前的若干词作为候选特征词;不同标签的候选特征词进行比较,排除掉同时在多个标签候选的特征词,记录只在对应标签文本中出现频次高、其它标签中出现频次低的词作为特征词。
更进一步的,特征词提取过程中,部分含义相反的标签特征词提取不排除在两者中出现频次均较多的词,并额外记录出现的否定词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金现代信息产业股份有限公司,未经金现代信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310272292.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于快速转换的呼吸系统
- 下一篇:系统组件处理方法、装置、设备及存储介质