[发明专利]一种新词发现方法、系统、终端及介质有效
申请号: | 202110206093.3 | 申请日: | 2021-02-22 |
公开(公告)号: | CN112966501B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 崔东林;周润东 | 申请(专利权)人: | 广州寄锦教育科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35;G06F40/216;G06F40/126;G06F40/242;G06N3/084;G06N3/045 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 赵秀斌 |
地址: | 510620 广东省广州市天河区天河东路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新词 发现 方法 系统 终端 介质 | ||
1.一种新词发现方法,其特征在于,包括如下步骤:
S1:使用Punctuation-Entropy-PMI算法对垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合;
所述S1具体包括:
S101:选择符号集合对垂直文本领域的文档集合进行分割,得到处理后的文
档语料集合;
S102:根据所述文档语料集合构建词缀树和词频统计表,通过最小词频计算
初步候选词集合;
S103:分别使用信息熵和点间互信息计算所述初步候选词集合的支持度
PMI,通过最小支持度和最小PMI筛选初步候选词集合,得到第一阶段的候选新词集合;
S2:对所述第一阶段的候选词集合进行筛选,获得第一文档;
所述S2具体包括:
S201:根据所述第一阶段的候选词集合,从候选词所在的文档寻找所述候选词所在的文本序列;
S202:将所述文本序列中除候选词以外的字符用掩码遮盖,获得第一文档;
S3:将所述第一文档进行预处理,并输入到BERT预训练模型进行文本增强,获得预测序列;
所述S3具体包括:
S301:将所述第一文档按照BERT要求的编码格式进行预处理,其中第一文档的最大长度为512字符,超过512字符做截断,并将剩余的文本序列输入至BERT预训练模型;
S302:通过将BERT预训练模型最后一层的输出层和所述剩余的文本序列长度尺寸的全连接层连接,经过softmax函数求解所述剩余的文本序列中每个掩码位置上出现概率最大的字符作为最终输出,获得预测序列;
S4:标记所述预测序列中的候选词;
S5:根据标记的候选词、所述预测序列以及标记建立BERT分类模型;
S6:输入文本序列以及待判断的候选词至所述BERT分类模型,获得预测标签,并根据设定的阈值判断所述待判断的候选词是否为新词。
2.根据权利要求1所述的新词发现方法,其特征在于,所述S4具
体包括:
S401:通过对所述预测序列中候选词前后按照所述候选词序列的尺寸大小构建滑窗,若所述滑窗内的候选词存在于现有开放词典库中,则所述候选词标记为不合格新词,标记设为0;
S402:当滑窗内的词未出现在现有开放词典库中,所述候选词标记为可能合格新词,标记设为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州寄锦教育科技有限公司,未经广州寄锦教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110206093.3/1.html,转载请声明来源钻瓜专利网。