[发明专利]文本数据处理方法和装置有效
申请号: | 201611180235.9 | 申请日: | 2016-12-20 |
公开(公告)号: | CN108205524B | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 高维国 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 许蓓 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 | ||
1.一种文本数据处理方法,其特征在于,包括:
将文本中待识别的短语按字进行切分;
从所述待识别的短语中提取n-gram特征;
根据提取的n-gram特征确定n-gram特征的向量特征,包括:在除uni-gram之外的n-gram特征中,根据n-gram特征中各个字的字向量确定n-gram特征的向量特征;
将提取的n-gram特征进行数量化编码;
根据所述待识别的短语中各个字的字向量确定所述待识别的短语的句子向量特征;
将进行编码后的n-gram特征、n-gram特征的向量特征和所述句子向量特征输入到命名实体识别模型;
根据所述命名实体识别模型的输出结果确定所述待识别的短语是否为目标命名实体,其中,所述目标命名实体为数量词类型的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述根据n-gram特征中各个字的字向量确定n-gram特征的向量特征包括:将提取的n-gram特征中各个字的字向量的均值或者加权平均值作为n-gram特征的向量特征。
3.根据权利要求1所述的方法,其特征在于,还包括:
通过训练数据对所述命名实体识别模型进行训练;
其中,所述训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征和从所述训练样本的短语中提取的n-gram特征的向量特征,或者,所述训练数据包括训练样本中的目标命名实体短语和非目标命名实体的n-gram特征、从所述训练样本的短语中提取的n-gram特征的向量特征和所述训练样本中的短语的句子向量特征。
4.根据权利要求3所述的方法,其特征在于,采用以下方法获取训练样本:
标记训练数据中的目标命名实体;
将训练数据中的目标命名实体中的部分字替换为其他字得到非目标命名实体并进行标记;
将标记后的目标命名实体和非目标命名实体作为训练样本。
5.根据权利要求1所述的方法,其特征在于,采用以下方法获得字的字向量:
获得包含目标命名实体的字向量训练语料;
将所述字向量训练语料按字符进行切分;
将按字进行切分后的字向量训练语料输入到word2vec算法中进行训练;
获得word2vec算法输出的各个字的字向量。
6.根据权利要求1-4中任一项所述的方法,其特征在于,采用以下方法对短语按字进行切分:
将连续的数字切分为一个独立的字。
7.根据权利要求1-4中任一项所述的方法,其特征在于,
所述目标命名实体为表示数量的短语、表示时间的短语、表示机构名称的短语或者表示地点的短语,和/或,
所述命名实体识别模型为提升树模型、卷积神经网络模型或者递归神经网络模型。
8.一种文本数据处理装置,其特征在于,包括:
短语切分模块,用于将文本中待识别的短语按字进行切分;
n-gram特征提取模块,用于从所述待识别的短语中提取n-gram特征;
向量特征生成模块,用于根据提取的n-gram特征确定n-gram特征的向量特征,包括:在除uni-gram之外的n-gram特征中,根据n-gram特征中各个字的字向量确定n-gram特征的向量特征;
编码模块,用于将提取的n-gram特征进行数量化编码;
句子向量特征确定模块,用于根据所述待识别的短语中各个字的字向量确定所述待识别的短语的句子向量特征;
待测数据输入模块,用于将提取的n-gram特征、n-gram特征的向量特征和所述句子向量特征输入到命名实体识别模型;
命名实体识别模块,用于根据所述命名实体识别模型的输出结果确定所述待识别的短语是否为目标命名实体,其中,所述目标命名实体为数量词类型的命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611180235.9/1.html,转载请声明来源钻瓜专利网。