[发明专利]命名实体识别方法及系统有效
申请号: | 201810475383.6 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108717410B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 刘光敏;桂洪冠;纪达麒;陈运文 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 唐海力;李志刚 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 系统 | ||
1.一种命名实体的识别方法,其特征在于,所述方法包括:
输入待识别文本,得到第一字符序列,其中,所述第一字符序列为将目标文字进行拆分后得到的每个字符所组成的序列;
通过训练词向量,得到所述目标文字的第一特征模型,其中,所述第一特征模型用于生成所述每个字符对应的特征数值;包括:通过预设训练数据和预设特征模板进行模型训练,得到第二特征模型;根据经过训练后的词向量对所述第二特征模型进行特征函数扩展,得到所述第一特征模型;通过预设训练数据和预设特征模板进行模型训练,得到第二特征模型;包括:对于输入句子内的每个字符,每个特征模板生成它对于每个状态的特征函数;针对每个特征模板生成的特征函数;根据经过训练后的词向量对所述第二特征模型进行特征函数扩展,得到所述第一特征模型包括利用词向量,扩展出新的特征函数;
将所述第一字符序列中的每个字符按照所述第一特征模型进行标签标注,得到第一标签序列;包括在每个时刻,对该时刻所有特征函数针对每个状态的权重累计求和,同样生成有特征函数与权重的二维表;根据上述二维表,以及上生成的状态转移概率,使用维特比算法获得长度为n的联合状态score最高的状态序列;
根据所述第一标签序列,提取可识别的所述命名实体。
2.根据权利要求1所述的命名实体的识别方法,其特征在于,所述通过训练词向量,得到所述目标文字的第一特征模型还包括:
对所述预设训练数据进行数据格式预处理;
将处理后的训练数据转化为字符序列格式和标签序列格式,并用于模型训练。
3.根据权利要求1所述的命名实体的识别方法,其特征在于,所述将所述第一字符序列中的每个字符按照所述第一特征模型进行标签标注,得到第一标签序列包括:
根据所述第一特征模型和每个所述标签,生成对应的第一特征函数和第一特征函数权重,其中,所述第一特征函数权重用于作为所述第一特征函数对应每个所述标签的权重。
4.根据权利要求3所述的命名实体的识别方法,其特征在于,所述将所述第一字符序列中的每个字符按照所述第一特征模型进行标签标注,得到第一标签序列还包括:
根据所述第一特征模型,得到第一标签转移概率,其中,所述第一标签转移概率为所述标签在与所述第一字符序列建立对应关系时,当前标签转移到下一个标签的概率;
对每个所述第一字符序列对应的所述第一特征函数权重进行累加计算,结合所述第一标签转移概率,得到所述第一标签序列。
5.根据权利要求1所述的命名实体的识别方法,其特征在于,所述通过训练词向量,得到所述目标文字的第一特征模型还包括:
将所述第一字符序列中的每个字符转化为低维实数向量;
通过添加通用语料对所述低维实数向量进行词向量训练,得到经过语义相似度扩展的词向量。
6.一种命名实体的识别装置,其特征在于,包括:
字符获取单元,用于输入待识别文本,得到第一字符序列,其中,所述第一字符序列为将目标文字进行拆分后得到的每个字符所组成的序列;
词向量训练单元,用于通过训练词向量,得到所述目标文字的第一特征模型;其中,所述第一特征模型用于生成所述每个字符对应的特征数值;包括:通过预设训练数据和预设特征模板进行模型训练,得到第二特征模型;根据经过训练后的词向量对所述第二特征模型进行特征函数扩展,得到所述第一特征模型;通过预设训练数据和预设特征模板进行模型训练,得到第二特征模型;包括:对于输入句子内的每个字符,每个特征模板生成它对于每个状态的特征函数;针对每个特征模板生成的特征函数;根据经过训练后的词向量对所述第二特征模型进行特征函数扩展,得到所述第一特征模型包括利用词向量,扩展出新的特征函数;
序列转换单元,用于将所述第一字符序列中的每个字符按照所述第一特征模型进行标签标注,得到第一标签序列;包括在每个时刻,对该时刻所有特征函数针对每个状态的权重累计求和,同样生成有特征函数与权重的二维表;根据上述二维表,以及上生成的状态转移概率,使用维特比算法获得长度为n的联合状态score最高的状态序列;
识别单元,用于根据所述第一标签序列,提取可识别的所述命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810475383.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种序列标注方法及装置
- 下一篇:一种基于大数据的调查问卷设计辅助系统