首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种新词发现方法、系统、终端及介质有效

申请号：	202110206093.3	申请日：	2021-02-22
公开（公告）号：	CN112966501B	公开（公告）日：	2023-04-11
发明（设计）人：	崔东林;周润东	申请（专利权）人：	广州寄锦教育科技有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F16/35;G06F40/216;G06F40/126;G06F40/242;G06N3/084;G06N3/045
代理公司：	北京轻创知识产权代理有限公司 11212	代理人：	赵秀斌
地址：	510620 广东省广州市天河区天河东路***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种新词发现方法系统终端介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种新词发现方法，其特征在于，包括如下步骤：

S1:使用Punctuation-Entropy-PMI算法对垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合;

所述S1具体包括：

S101:选择符号集合对垂直文本领域的文档集合进行分割，得到处理后的文

档语料集合；

S102:根据所述文档语料集合构建词缀树和词频统计表，通过最小词频计算

初步候选词集合；

S103：分别使用信息熵和点间互信息计算所述初步候选词集合的支持度

PMI，通过最小支持度和最小PMI筛选初步候选词集合，得到第一阶段的候选新词集合；

S2:对所述第一阶段的候选词集合进行筛选，获得第一文档；

所述S2具体包括：

S201:根据所述第一阶段的候选词集合，从候选词所在的文档寻找所述候选词所在的文本序列；

S202:将所述文本序列中除候选词以外的字符用掩码遮盖,获得第一文档；

S3:将所述第一文档进行预处理，并输入到BERT预训练模型进行文本增强，获得预测序列；

所述S3具体包括：

S301:将所述第一文档按照BERT要求的编码格式进行预处理，其中第一文档的最大长度为512字符，超过512字符做截断，并将剩余的文本序列输入至BERT预训练模型；

S302:通过将BERT预训练模型最后一层的输出层和所述剩余的文本序列长度尺寸的全连接层连接，经过softmax函数求解所述剩余的文本序列中每个掩码位置上出现概率最大的字符作为最终输出，获得预测序列；

S4:标记所述预测序列中的候选词；

S5:根据标记的候选词、所述预测序列以及标记建立BERT分类模型；

S6:输入文本序列以及待判断的候选词至所述BERT分类模型，获得预测标签，并根据设定的阈值判断所述待判断的候选词是否为新词。

2.根据权利要求1所述的新词发现方法，其特征在于，所述S4具

体包括：

S401:通过对所述预测序列中候选词前后按照所述候选词序列的尺寸大小构建滑窗，若所述滑窗内的候选词存在于现有开放词典库中，则所述候选词标记为不合格新词,标记设为0；

S402:当滑窗内的词未出现在现有开放词典库中，所述候选词标记为可能合格新词，标记设为1。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州寄锦教育科技有限公司，未经广州寄锦教育科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110206093.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种防止学生手机网络成瘾的装置
下一篇：一种靶向CD96的双特异性抗体及其制备方法和用途

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top