[发明专利]基于语义的社交媒体非规范词纠正方法在审
申请号: | 201710829908.7 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107577668A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 费高雷;郑夏;李元磊;胡光岷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 成都宏顺专利代理事务所(普通合伙)51227 | 代理人: | 周永宏 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于语义的社交媒体非规范词纠正方法,针对目前费规范词的检测和识别缺少有效方法的问题,本申请采用了最小编辑距离的方式表征单词的词形,并采用词向量间余弦距离的方式表征单词的语义信息相似度,共同筛选预期正确词来替换非规范词;并结合了一些现有的PyEnchant、PyTypo工具,大幅缩小了需要比较语义相关性的单词范围,以达到提高单词规范化速度的目的。 | ||
搜索关键词: | 基于 语义 社交 媒体 规范 纠正 方法 | ||
【主权项】:
基于语义的社交媒体非规范词纠正方法,其特征在于,包括:S1、语义信息构建,采用GloVe模型获取每个单词的词向量,计算任意两个词向量之间的距离;S2、非规范词识别,通过对推文进行预处理得到完整单词列表;将列表中的每个单词与字典集合中的单词进行比对;若成功匹配则列表中的该单词为规范词;否则为非规范词;S3、对于步骤S2判断得到的非规范词,找出与其词向量距离较小的N各词向量对应的单词;找出这些单词中的规范单词,选择其中与非规范词向量最小的规范单词对其进行替换。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710829908.7/,转载请声明来源钻瓜专利网。