[发明专利]全范围语义信息综合认知系统及其应用无效
申请号: | 200710030770.0 | 申请日: | 2007-10-09 |
公开(公告)号: | CN101408873A | 公开(公告)日: | 2009-04-15 |
发明(设计)人: | 劳英杰 | 申请(专利权)人: | 劳英杰 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 广州新诺专利商标事务所有限公司 | 代理人: | 刘菁菁 |
地址: | 200031上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 范围 语义 信息 综合 认知 系统 及其 应用 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及应用于计算机系统的人工智能的综合数据编码处理技术领域。
背景技术
以机器认知人类全范围语义信息,一直是个极难解决的问题。机器要被人类利用,必需能以自动方式对于人类全范围语义信息,有准确的理解及认知,才能进行正确的沟通及回应。任何语义信息都存在大量歧义,机器难以排除歧义、判断正确语义信息。人类之间沟通的目的是传达信息,信息内含有特定语义,人类赖以利用的主要是语言及文字,目前已出现了数以千计的语言及文字系统。
但事实上,世界不断的发展,人类所要传达及表示的信息及语义内容也更丰富多彩,这些信息及语义内容最终以各种语言及文字系统反映出来。所以每种语言及文字系统都出现相同情况,即存在大量的同音及近音词,及同义及近义词,产生语义上的混乱及错误;这是机器难于进行认知的原因所在。语义编码的目的,是机器能夠以自动方式认知人类全范围语义信息,信息必需要以一种标准语义符号作为标准来进行综合编码。汉字是人类社会其中一种自然语言的文字表示系统,亦是一种唯一的语义符号表示系统,能对应现时人类任何自然语言及文字系统内的语义;同时,汉字语义符号的独特结构,使机器能夠以固定及极少的数据量,达成高效率的语义搜索、判断及认知。
汉字以外的文字都是拼音文字,拼音文字的特色主要是由数十个字母符号,组合成一个或多个语音,代表某个特定语义。拼音文字的出现,源自语音,语音由字母串组成,表示特定语义信息;但字母符号本身並没有任何语义。汉字是目前仍在使用的最古老的文字,世界上的使用率仅次于英语。汉语是自然语言的一种,汉字发展至现在,拥有丰富的词组体系及简约的表达力。
现代汉字由数干个单一的汉字有机性地复合成两字、三字及四字词语,表达不同语义;单字词的例子是书、樹及光等,两字词组例子有衣服、飞机及教師等,三字词组例子有电视机、飞行员及旅游社等。东方及西方经过三百多年文明的交接及融合,在全球化影响下,汉字词语的语义表述结构基本上能对应任何一种自然语言及文本语义信息。
过往关于文字的编码方法,目的是为了以电子方式记录及貯存文字,所以都是以每个唯一的字母符号进行编码,如ASCII内的256个组合能容纳英语及西欧文字,汉字的中文字型编码有大五码繁体字形、国标码2312简体字形、国标码18030简体字形及现时已能夠涵盖绝大部份世界文字的统一码等。汉字的数量繁多,不同字库有不同字量,国标码2312简体字形是6,700个,大五码繁体字形是13,500个及国标码18030简体字形的18,030个等。这些编码方法都是以记录唯一的字型为原则,以字型数量编码,目前是以多字节的数据量满足编码所需。
最早的文字编码方法,主要是以每个字母或字型编码,方法是分别将字型符号编入128、256及65,536个组合内,以不同长度的字符串表示不同语义。电脑发明于西方世界,应用的是拼音文字。普遍应用的ASCII和ANSI符号编码规则,每个字母或符号为1字节,每字节以8位元的数据长度表示。
由于ASCII只规定了128个最常用的字母符号,随着计算机字符集的增长,逐渐出现了很多种在ASCII上扩充的编码方式。信息领域的急速发展,累积了極大量以记錄为目的的文字数据,分别由不同的字母、数字或文字符号组成,但越大量的数据出现,就越需要强大的硬件运算能力,才能满足在不断扩大的数据内搜索的需要。在任何计算机或电子系统内,字符组合的数量直接影响到文字的检索效率,在浩如煙海的信息世界或庞大的数据库内,数量大的字符组合的排序及比较等效率绝对比数量小的字符组合慢很多倍。
人类应用的文字及语言系统种类繁多,而任何的文字及语言系统都有一相同特性,都存在为数不少的同词异义(Homonyms,Polysemy orHomophomes)及异词同义(Synonym or Hyponyms)。同词异义的定义是,同一单词或词组,或同音词组,在不同的语境中,具有完全不同的语义。这些都是任何语言及文字发展过程中所出现的必然现象。以机器自动认知方式区分这些特性,往往会产生难以解决的歧义问题,特别是要结合语境判断正确的语义,此亦是自动翻译系统难于解决的难题。人类在应用已熟悉的语言及文字系统时,会根据歧义词的上下文语境,判断正确语义。所以,目前的技术只能在有限语言或文字范围内认知,在局部范围内的语言或文字,出现一词多义时不能以自动判断方式来确定符合上下文语境的正确语义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于劳英杰,未经劳英杰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710030770.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数字版权管理系统及方法
- 下一篇:一种调度任务的方法、装置和系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置