[发明专利]文本分词、即时消息处理方法和装置有效

申请号：	201711266278.3	申请日：	2017-12-05
公开（公告）号：	CN108334492B	公开（公告）日：	2021-11-02
发明（设计）人：	林伟;许耀峰;朱青蓥;王锐;阮闪闪	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06N20/00;H04L12/58
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	何平;邓云鹏
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分词即时消息处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种文本分词、即时消息处理方法和装置，该文本分词方法包括：获取待分词的文本；将文本中的字符分别转化为相应的字向量；将字向量输入基于神经网络的机器学习模型，获得字向量所对应字符属于预设的各词中位置标注状态的概率；根据概率，分别确定文本中各字符所属的词中位置标注状态；按照文本中各字符所属的词中位置标注状态对文本进行分词。本申请提供的方案提高了对文本进行分词的准确性。

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本分词、即时消息处理方法和装置、存储介质和计算机设备。

背景技术

随着计算机技术的发展，网络上出现的文本数量与日俱增，比如电子邮件、实时新闻、科技博文等等，因此，对这些文本进行处理以获得所需要的信息的需求日益迫切。

分词作为自然语言处理领域中的基础步骤，在自然语言处理中扮演着重要的角色。目前，文本分词算法一般是采用模板匹配的方式，比如基于文本匹配的分词算法、基于词典的分词算法等等，分词准确性完全依赖于模板，导致分词准确率较低。

发明内容

基于此，有必要针对现有的文本分词算法分词准确率较低的技术问题，提供一种文本分词、即时消息处理方法、装置、存储介质和计算机设备。

一种文本分词方法，包括：

获取待分词的文本；

将所述文本中的字符分别转化为相应的字向量；

将所述字向量输入基于神经网络的机器学习模型，获得所述字向量所对应字符属于预设的各词中位置标注状态的概率；

根据所述概率，分别确定所述文本中各字符所属的词中位置标注状态；