[发明专利]基于词标签的词语标注方法、装置、服务器及存储介质有效
申请号: | 201710581312.X | 申请日: | 2017-07-17 |
公开(公告)号: | CN107480200B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 梁予之;曲强 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/332 |
代理公司: | 深圳智趣知识产权代理事务所(普通合伙) 44486 | 代理人: | 王策 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 词语 标注 方法 装置 服务器 存储 介质 | ||
本发明适用计算机技术领域,提供了一种基于词标签的词语标注方法、装置、服务器及存储介质,该方法包括:在输入的文本文档中查找待标注词语,通过预先训练好的词语分类器,在预设的已知词库中查询与待标注词语相关的已知词,将相关的已知词设置为待标注词语的标签词,以通过标签词对待标注词语进行标注,其中,词语分类器通过有监督的方式训练得到,从而通过有监督的方式训练词语分类器,将已知词作为标签词,实现基于词标签的待标注词语自动标注,有效地提高了待标注词语标注的效率,降低了待标注词语标注的人力消耗,有效地提高了待标注词语标注的准确率和召回率。
技术领域
本发明属于计算机技术领域,尤其涉及一种基于词标签的词语标注方法、装置、服务器及存储介质。
背景技术
在社交媒体发达的今天,从微博、Facebook等网络新媒体中派生出来许多新生词语,这些新生词语越来越多地被运用在我们的实际生活中。在网络新媒体的新生词语诞生之初,人们难以及时地获得这些新生词语的标注,因为在字典或网络百科(如维基百科)中,这些新生词语的词条还没创立,而且人工创立每个新生词语的词条需要做大量繁琐的工作。
目前,对于词语标注的研究多集中于词性标注(Part of speech tagging,POS),即预设好几个类(如人物、地点、机构名称等),然后把目标词划分到其中一类或几类。词性标注的方法比较成熟,准确度也较高。然而,对于网络新媒体待标注词语而言,仅将它们划分到有限的类中,不足以理解它们的意思,特别是许多网络新媒体待标注词语都是与热门事件相关的。
词标签方法已广泛运用在如照片描述、文档描述等领域,但在词语标注中的研究还非常有限。现有用标签词标注词语的方法使用的是非监督算法,该算法基于微博数据,将每个已知词和目标词表示为一组向量,然后计算已知词和目标词的余弦相似度,将相似度高的设定为目标词的词标签。然而,使用非监督算法存在缺乏指导、假设单一、需要人工设定阈值等缺点,影响词语标注系统的准确率和召回率。
发明内容
本发明的目的在于提供一种基于词标签的词语标注方法、装置、服务器及存储介质,旨在解决由于对新生词语进行标注时,现有技术中用来划分新生词语到的分类有限、且划分过程中缺乏指导,导致待标注词语标注效率、准确度不高的问题。
一方面,本发明提供了一种基于词标签的词语标注方法,所述方法包括下述步骤:
在输入的文本文档中查找待标注词语;
通过预先训练好的词语分类器,在预设的已知词库中查询与所述待标注词语相关的已知词,所述词语分类器通过有监督方式训练得到;
将所述相关的已知词设置为所述待标注词语的标签词,以通过所述标签词对所述待标注词语进行标注。
另一方面,本发明提供了一种基于词标签的词语标注装置,所述装置包括:
词语查找单元,用于在输入的文本文档中查找待标注词语;
相关词查询单元,用于通过预先训练好的词语分类器,在预设的已知词库中查询与所述待标注词语相关的已知词,所述词语分类器通过有监督方式训练得到;以及
词语标注单元,用于将所述相关的已知词设置为所述待标注词语的标签词,以通过所述标签词对所述待标注词语进行标注。
另一方面,本发明还提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述基于词标签的词语标注方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于词标签的词语标注方法所述的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710581312.X/2.html,转载请声明来源钻瓜专利网。