[发明专利]基于规则的领域词典构建方法在审
| 申请号: | 202211698718.3 | 申请日: | 2022-12-28 |
| 公开(公告)号: | CN115796157A | 公开(公告)日: | 2023-03-14 |
| 发明(设计)人: | 张博林;侯国强 | 申请(专利权)人: | 智学慧教(湖北)教育科技有限公司 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/211;G06F40/295 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 430074 湖北省武汉市东湖新技术开发区九峰街道高新大道以南、豹溪路以东P(20*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 规则 领域 词典 构建 方法 | ||
1.基于规则的领域词典构建方法,其特征在于:包括以下工作步骤:
ST1:领域语料预处理;
ST2:领域语料特征词集挖掘;
ST3:领域词语挖掘。
2.根据权利要求1所述的基于规则的领域词典构建方法,其特征在于:所述ST1的领域语料预处理具体包括去除语料噪音,包括空白字符、无效字符;如果存在换行符、回车符,将语料拆分为段落;如果段落中存在句号、冒号、问号,将段落拆分为句子。
3.根据权利要求1所述的基于规则的领域词典构建方法,其特征在于:所述ST2中语料特征词的挖掘规则包括:
(2.1)实体组合规则1:‘[修饰词|词汇用语]?感官特征’;
其中,‘感官特征’为主体,‘[*]?’代表修饰,实体组合规则1可以挖掘到实体标签为‘感官特征’的词语,添加进语料特征词集中;如果该词语有修饰且修饰词的实体标签为‘修饰词’或者‘词汇用语’,则将修饰词和主体组合为一个词语,添加进语料特征词集中;
(2.2)实体组合规则2:‘术语类+?’;
其中,‘术语类’为主体,‘+?’代表单个或多个;实体组合规则2可以挖掘到实体标签为‘术语类’的词语,添加进语料特征词集中;如果存在多个实体标签为‘术语类’的词语相邻,则将它们组合为一个词语,添加进语料特征词集中;
(2.3)词性组合规则1:‘nz’;
其中,‘nz’代表专有名词,如果有词语的词性为‘nz’,添加进语料特征词集中;
(2.4)词性组合规则2:‘[a|n]+?[n|vn]’;
其中,‘[n|vn]’为主体,可以为名词或者动名词;词性组合规则2可以挖掘到词性标签为‘名词’或者‘名动词’的词语,添加进语料特征词集中;如果该词语有修饰且修饰词的词性标签为‘形容词’,则将单个或者多个修饰和主体组合为一个‘整体’,添加进语料特征词集中;如果存在多个‘整体’,则将多个‘整体’组合为一个词语,添加进语料特征词集中;
(2.5)词性与终止符的组合规则1:‘[n|vn|nz]等’;
其中,‘等’为触发词,如果它们之前的词的词性为‘名词’、‘名动词’、‘专有名词’,添加进语料特征词集中;
(2.6)词性与终止符的组合规则2:‘[a|u|n|nz]+?[n|vn|nz][((]’;
其中,‘((’为触发词,通常格式为左括号右边的内容是对左边词语的解释,‘[n|vn|nz]’为主体,‘[a|u|n|nz]+?’代表修饰;词性与终止符的组合规则2可以挖掘到词性为名词、动名词、专有名词的词语,添加进语料特征词集中;如果该词语有修饰且修饰词的词性标签为‘形容词’、‘助词’,则可以和主体组合为一个‘整体’,添加进语料特征词集中;如果存在多个‘整体’,则将多个‘整体’组合为一个词语,添加进语料特征词集中。
4.根据权利要求1所述的基于规则的领域词典构建方法,其特征在于:所述ST2中语料特征词挖掘步骤为:加载Paddlenlp平台提供的预训练模型,包括命名实体识别模型和依存句法分析模型,对预处理过后的句子进行分析,得到分词结果、命名实体识别结果、词性分析结果,通过定义的六个规则挖掘语料特征词,添加进语料特征词集中;挖掘的语料特征词集,只能算是语料相关的特征词,不完全是领域相关的词语,需要对语料特征词集进行筛选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智学慧教(湖北)教育科技有限公司,未经智学慧教(湖北)教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211698718.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种脑瘫患者康复助行器
- 下一篇:柔性分离贴附一体机





