[发明专利]一种面向初等数学领域的命名识别方法及其系统在审
申请号: | 201710497909.6 | 申请日: | 2017-06-27 |
公开(公告)号: | CN107368466A | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 林辉 | 申请(专利权)人: | 成都准星云学科技有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/27 |
代理公司: | 成都环泰知识产权代理事务所(特殊普通合伙)51242 | 代理人: | 李斌,邹翠 |
地址: | 610000 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 初等 数学 领域 命名 识别 方法 及其 系统 | ||
技术领域
本发明涉及自然语言处理领域,具体涉及一种面向初等数学领域的命名识别方法及其系统。
背景技术
随着人工智能的发展和推理技术的深化,自动推理技术得到了有效的应用,同时相关的理论、技术、方法也得到了很大的发展,自动推理在数学方面的应用也更加的广泛深入。
在利用自动推理推理数学方面的问题时,往往有许多的信息不能有效的识别或者识别效率很低。
初等数学的命名识别是一个自动解题系统中的重要一环,它涉及到前端的自然语言处理,一段数学文本信息,提取出文本中的数学方面的信息是最重要的一环,当前自然语言对于初等数学方面的理解并不准确,因此需要一种有效的系统能够准确地识别初等数学里面的各种数学信息,以及隐含的更深一层次的信息。
发明内容
基于此,针对上述问题,有必要提出一种面向初等数学领域的命名识别方法及其系统,本发明可以有效的提取文本中关于数学方面的信息,识别准确、效率高。
本发明提供一种面向初等数学领域的命名识别方法,其技术方案是:
一种面向初等数学领域的命名识别方法,包括如下步骤:
S1、确定一个待识别的数学文本信息,并进行预处理,将其逐字按列排列;
S2、提取步骤S1中已经进行过分词预处理的文字,标注当前文字在词中的位置;
S3、标注完成当前文字在词中的位置后,对当前的分词进行词性标注;
S4、得到词性标注的结果后,判断标注结果是否正确,如果正确,则标注成功;如果不正确,则重新进入步骤S1,并对其文本信息进行重新训练标注。
针对一段数学文本信息,对其进行分词、标注、将文本中的数学信息提取出来,得到实体之间的关系;如此,才能进行接下来的操作。
在本发明中首先确定一个待识别的数学文本信息,将数学文本信息按字逐行排列,然后进行分词操作,分词操作具体为:给定一个字的序列,找出最可能的标签序列,将数学文本按字逐行展开后,对于每个字进行位置标注,即表示该字在词中的位置,例如:该字在词的词首、词中间抑或是在词尾的位置,相应的表示方法为B(开头),M(中间),E(结尾),S(独立成词);随后进行词性标注,词性是词汇基本的语法属性,通常也称为词类,词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,标注该词的词性,表示该词是动词、名词或是其他的连接词等等;并且进行命名实体识别,即给定一个词的序列,找出最可能的标签序列,识别出文本中对于数学理解具有特定意义的实体,例如:函数、几何、或者数列等等诸多有效的信息;用于命名实体识别的机器学习方法有隐马尔可夫模型和最大熵模型;最后判定标注结果是否正确,如果正确,则可进行其他操作;如果不正确,则进行重新训练标注。
本发明的面向初等数学领域的命名识别方法可以有效的提取文本中关于数学方面的信息,识别准确、效率高。
作为上述方案的进一步优化,所述步骤S2具体包括以下步骤:
提取文字后,对每个文字进行位置标注,如果该文字在词的词首,则标注为B;如果该文字在词的中间,则标注为M;如果该文字在词的末尾,则标注为E;如果该文字独立成词,则标注为S。
词与词之间没有空格之类的标注来显示指示词的边界,因此,自动分词成了文本处理的首要基础性工作,本发明采取基于统计的方法和规则的方法(基于词表)二者相结合,将文本中的数学信息提取出来,使文本信息中文字的位置清晰、完整的呈现出来,提高了识别初等数学里面的各种数学信息的准确度。
作为上述方案的进一步优化,在步骤S2中采用4-tag标注法标注当前文字在词中的位置。进一步提高了分词标注的准确性,其标注方法更可靠、高效。
作为上述方案的更进一步优化,所述步骤S3具体包括以下步骤:
判断待识别的数学文本信息中每个词的语法范畴,确定其词性并加以标注,如果该词是动词,则标注为v;如果该词是名词,则标注为n;如果该词是连接词,则标注为nd;如果该词是字母,则标注为ws;如果该词是符号,则标注为 wp。用于在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,标注该词的词性,表示该词是动词、名词或是其他的连接词等等;不像英文中的命名实体具有明显的大写标志,中文的命名实体的识别更加困难,因此中文的尤其是针对初等数学的词性标注更加复杂,其词性标注详细,便于分辨,提高了对数学信息的识别准确性,同时提高了识别效率。
本发明还提供一种面向初等数学领域的命名识别系统,其技术方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都准星云学科技有限公司,未经成都准星云学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710497909.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于流式文档的截图类笔记处理的系统及方法
- 下一篇:一种视频标注方法