[发明专利]基于语言对称性和拓扑性的对联生成方法及系统在审
申请号: | 202111491276.0 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114298027A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 赵川;贺鹏;吴畏;黄静雯;尹中;周宣志;涂德志;王圆圆;郑雪;唐健;岳鹏;朱洪波;陈永俊;李晓喆;杜玲;卢尧;李晓;彭敦峰;马源;李晟 | 申请(专利权)人: | 成都理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/30;G06K9/62 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 许富强 |
地址: | 610059 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 对称性 拓扑 对联 生成 方法 系统 | ||
本发明涉及一种基于语言对称性和拓扑性的对联生成方法及系统,所述方法首先获取上联,通过ICTCLAS算法对上联进行分词,将分词后的词语代入语料库搜索其编码,若语料库中无该词语,则输出对应字数的*符号,若语料库中有该词语,则选出所有前四位,即前三层编码相同的词语,将其中的与上联词汇字数不符以及有重复字的所有词语去除,将剩下的所有词语与原词进行相似度匹配计算,选取相似度值在0.6~0.8中间的词语作为选定词语输出,若备选词语数量不足1时,则更改部分条件限制,最后将所有匹配出的词语进行组合成为下联输出。
技术领域
本发明涉及一种基于语言对称性和拓扑性的对联生成方法及系统。
背景技术
自然语言理解研究如何使电子计算机理解和应用人类的自然语言,并通过语言生成与人类进行无障碍交际的方法和理论。如今中文自然语言理解使用的仍是乔姆斯基语法体系,这套体系并不完全适用于中文,因此针对中文进行的自然语言理解研究仍有许多未解决的难题,需要进一步进行研究。
语言中存在着各种数学表现,其中包含了对称性和拓扑性。对联作为中文中一种十分普遍的文学形式,其对称性的表现是典型的。对联可以概括出五个对称规律。同时对联中也有拓扑性质的存在,可以将对称性与拓扑性结合来分析理解对联。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于语言对称性和拓扑性的对联生成方法,提供了一种在给出汉语对联上联的情况下,生成下联的方法。
本发明基于语言对称性和拓扑性的对联生成方法,包括:
S1生成语料库;
S2获取对联的上联,基于统计及机器学习的分词方式对上联进行分词;
S3在语料库中搜索从上联中分出的词语编码,判断语料库中是否有相应的词语编码,
若有,则判断与该词匹配的语编码是否大于1个,若大于1个,则对所有义项进行相似度计算,取相似度最大者;若等于1个,则取该编码;若没有,则输出与分出词语对应字数的“*”符号;
S4查找所有编码前X层相同的词语,其中X初始值为3,是否多于或等于一个词,
若是,则删除候选词汇中与原词字数不同和有重复字的词语;
若否,则查找所有编码前X-1层相同的词语,是否多于或等于一个词,重复步骤4;
S5对所有备选词汇进行相似度计算,选取相似度在Y至Y+0.2 之间的词,Y的初始值为0.6;
S6备选词数量与1的关系,
若大于1,则随机选取备选词中的一个词语,输出该词语;
若等于1,则输出该词语;
若小于1,则以Y=Y+0.1,判断Y+0.2≤1,若是,则重复步骤S5;若Y+0.2>1,则随机选取备选词中的一个词语,输出该词语;
S7组合所有词语,输出下联。
进一步地,生成语料库的方法具体包括:把“笠翁对韵”以“同义词词林扩展板”的五层编码方式编入语料库。
进一步地,词语相似度计算过程如下:
首先判断在同义词林中作为叶子节点的两个义项在哪一层分支,即两个义项的编号在哪一层不同;
从第1层开始判断,相同则乘1,否则在分支层乘以相应的系数,然后乘以调节参数其中n是分支层的节点总数,该调节参数的功能是把义项相似度控制在[0,1]之间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都理工大学,未经成都理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111491276.0/2.html,转载请声明来源钻瓜专利网。