[发明专利]人机交互的分词与语义标示的方法与系统在审
申请号: | 201410080020.4 | 申请日: | 2014-03-06 |
公开(公告)号: | CN104899187A | 公开(公告)日: | 2015-09-09 |
发明(设计)人: | 蔡天琪;陈竹心;王墅;陈泽昊;徐家辉;蔡恒进 | 申请(专利权)人: | 武汉元宝创意科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F3/0481 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市武昌区*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人机交互 分词 语义 标示 方法 系统 | ||
技术领域
本发明涉及自然语言处理技术,特别涉及人机交互的分词与语义标示的方法。
背景技术
作为自然语言的中文有着悠久的历史,古文是没有标点符号的,标点的使用让中文更加易于理解。同样分词在自然语言处理相关的应用中是非常重要的,分词的结果将直接影响到具体应用的效果。
分词技术在近年来受到了人们的广泛关注。所谓分词,就是将文字序列切分成一个一个单独的词。以中文分词技术为例,分词技术的目标就是将例如但不限于一句话切分为一个一个单独的中文词语。
而将文字序列切分为单独的词,是实现机器识别人类语言的第一步,因此分词技术至关重要。经过多年的发展,研究人员已先后开发出多种分词方法,包括例如但不限于基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等等。
分词过程中还存在一定的歧义现象。歧义指的是在分词过程中存在多种切分选择的情况,在分词过程中如果出现歧义,现有技术中难以为消除歧义提供依据。容易得出使得机器理解自然语言,完全的自动化在当前背景下不现实,需要使用交互的方式进行。语义上的不确定性,使得作者与读者的理解有偏差,特别地,在法律文件中,不应存在模糊性。在这种情况下,人机交互的分词与语义标示的方法存在十分必要。
发明内容
本发明提供了人机交互的分词与语义标示的方法,可以对文档进行分词、词频统计、消除二义性和对代词或省略指代等信息进行处理。
该方法首先接收文档输入,默认进行分词处理,用户可以选择确认分词或进行人工干预。
系统收到进行人工分词调整的指示包括增加和删除两种操作。
其中接收到增加分词指示,提示用户选中词语,根据用户的光标,高亮标记出的词语,鼠标再一次松开后,词语标记完成,添加分词符号。
而接收到删除指示,提示用户选中词语,根据用户的光标,删去原分词符号,将原分词与前后文合并。
除了进行分词的调整还收到指示进行人工设置代词或省略的指向。
用户可操作光标定位在接近的计算机设备显示设备上的图形用户界面(GUI)中,系统收到指示进行人工指向提供至少一种指向选项和用户自定义输入框,用户进行输入选择,系统接收用户输入的GUI选择或自定义输入。
在光标再次移动到该词条上时,显示出更新后的指代或省略信息。
对于有二义性的语句,系统提供用户自定义输入框,由用户进行选择输入,系统进行更新保存。
本发现还公布了人机交互的分词与语义标示的系统,系统包括获取输入模块、分词处理模块、指代设置模块及显示模块。
获取输入模块接收文档的输入;分词处理模块对文档进行初步处理,与数据库进行匹配,进行分词;指代设着模块包括对文档指代不明及省略部分提供指代选择与接收用户的选择及输入,还包括接收用户对二义性语句的输入释义;显示模块处理对分词结果的显示。
附图说明
图1是用来呈现人机交互的分词与语义标示的方法的流程图。
图2是人机交互的分词与语义标示的系统对分词结果呈现的示意图。
图3是删除系统分词示意图。
图4是添加系统分词示意图。
图5是用来呈现人机交互的分词与语义标示的系统对指代设置示意图。
图6是用来呈现人机交互的分词与语义标示的系统对指代选择示意图。
图7是用来呈现人机交互的分词与语义标示的系统对指代自定义输入示意图。
图8是用来呈现人机交互的分词与语义标示的系统对语句二义性处理示意图。
图9是用来呈现人机交互的分词与语义标示的系统对语句二义性用户输入示意图。
图10是人机交互的分词与语义标示的系统模块图。
具体实施方式
图1是用来呈现人机交互的分词与语义标示的方法的流程图。
该方法从101开始,首先接收文档输入,102根据用户输入和默认词典进行初始化分词,识别的词语用分词符号进行标记。
之后用户可以选择确认分词或进行人工干预。
如用户不进行人工干预,则通过113步骤达到114结束。如用户进行103手动调整,则可以选择104分词调整或者108指代及二义调整。
系统105接受分词调整包括增加和删除两种操作。
106设置分词符号,如接收到增加分词指示,提示用户选中词语,根据用户的光标,高亮标记出的词语,鼠标再一次松开后,词语标记完成,添加分词符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉元宝创意科技有限公司,未经武汉元宝创意科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410080020.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于自动通译的设备和方法
- 下一篇:一种支持可变分块的矩阵乘加速方法