[发明专利]一种基于LSTM的汉语零指代消解方法在审
申请号: | 201610633621.2 | 申请日: | 2016-08-04 |
公开(公告)号: | CN106294322A | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 赵铁军 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 哈尔滨市松花江专利商标事务所23109 | 代理人: | 杨立超 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于LSTM的汉语零指代消解方法,本发明涉及基于LSTM的汉语零指代消解方法。本发明的目的是为了解决现有方法汉语零指代消解任务的准确率低以及对语义信息理解准确率低的问题。一、对已有的文本数据中每一个词进行处理,采用word2vec工具对处理后的文本数据中每一个词进行训练,得到一个词向量字典;二、选定零指代的先行词候选集;三、如果当前零指代的先行词候选集中的候选短语是零指代真正的先行词,则该训练样本为正例样本,否则为负例样本;四、Dropout层连接逻辑回归层,表示模型输入样本被判定为正例样本的概率值,这个值作为模型的输出。本发明用于自然语言处理领域。 | ||
搜索关键词: | 一种 基于 lstm 汉语 指代 消解 方法 | ||
【主权项】:
一种基于LSTM的汉语零指代消解方法,其特征在于:一种基于LSTM的汉语零指代消解方法,具体是按照以下步骤制备的:步骤一、对已有的文本数据中每一个词进行处理,采用word2vec工具对处理后的文本数据中每一个词进行训练,得到一个词向量字典,其中每一个词都对应着一个词向量;步骤二、使用OntoNotes5.0语料库中的汉语数据,该汉语数据中句子的零指代及其先行词有明确的标注;对已经标记出零指代位置的句子,先用句法分析工具转换成完全句法树的形式,在完全句法树中,对出现在零指代位置之前的所有NP结点选取最大的NP结点和修饰性NP结点作为该零指代的先行词候选集;所述NP为名词短语;步骤三、对出现在零指代位置之后的句子抽取关键词,与每个零指代的先行词候选集中的名词短语组成一个训练样本,如果当前零指代的先行词候选集中的候选短语是零指代真正的先行词,则该训练样本为正例样本,否则为负例样本;步骤四、将正负例样本中所有的词组成一个词字典,给每个词一个id标号,将正负例样本中的所有词用id标号替换,得到词序列,作为模型的输入;输入的词序列连接Embedding层,Embedding层将输入的id标号转换成词向量,采用步骤一得到的词向量字典初始化Embedding层的所有词向量;Embedding层连接双向LSTM网络层,将每个时刻双向LSTM网络层的输出结果拼接起来,送入Dropout层;Dropout层连接逻辑回归层,逻辑回归层输出一个介于0到1之间的数值,表示模型输入样本被判定为正例样本的概率值,这个值作为模型的输出;所述Embedding层为嵌入层;LSTM为长短期记忆模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610633621.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种拉杆式数码相机的显示屏定位机构
- 下一篇:一种拉杆式数码相机的手柄