转载 地球上最伟大的事业汉字数字化.docx
- 文档编号:26195295
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:14
- 大小:29.16KB
转载 地球上最伟大的事业汉字数字化.docx
《转载 地球上最伟大的事业汉字数字化.docx》由会员分享,可在线阅读,更多相关《转载 地球上最伟大的事业汉字数字化.docx(14页珍藏版)》请在冰豆网上搜索。
转载地球上最伟大的事业汉字数字化
转载地球上最伟大的事业汉字数字化
原文地址:
地球上最伟大的事业--汉字数字化作者:
汉谷输入法各位朋友,大家好!
到这里来的朋友,都是想寻觅发展事业良机的朋友,我说的对吧?
为了给大家提供一个极佳的发展事业良机,下面,我就将一个地球上最伟大的事业介绍给大家。
这个事业就是汉字数字化,它的基础就是汉字数码。
汉字数码是个什么东西?
难道只是用来查查字、打打字,像五笔字型一样,仅仅是个输入法而已?
你们心里一定会泛起这样或者那样的疑问。
实际上,输入法也是很有市场的。
大家知道,手机嵌入的中文输入技术大多是美国公司提供的,我们在购买手机时至少要向美国人交纳10元钱的专利费。
我们中国人输入自己的民族文字,却要向美国人交钱,损失的是不仅是每年七、八个亿的市场利益,更是我们的民族尊严和文字主权。
最近,国家信息产业部召集来自中国移动、中国联通等信息产业界的上百位企业领导和研究机构的专家,专题研究手机中文输入问题,急切呼吁手机汉字输入技术中国制造。
面对巨大的市场需求和国家需要,目前,国内许多公司纷纷投巨资研发手机中文输入技术,许多省、市政府大力支持本地企业开发嵌入式输入技术。
例如,广东省及广州市政府积极扶持国笔集团,建立了中华中文信息研究院,一次就注入了上百万资金。
然而,这些公司开发的嵌入式输入技术,由于没有实质性突破,因而很难打破国外输入技术的垄断地位。
纵观汉字输入法市场,从事研究的人员数以万计,申请了专利的发明数以千计,宣传报道的方案数以百计,推向市场的产品数以十计,真正获得了国家发明专利却寥寥无几。
成千上万的研究者都拥挤在"汉字拉丁化"这条"宽"道上,而在"汉字数字化"这条"窄"道一直是冷冷清清,只是这几年才开始热闹起来。
这些来凑热闹的人,大多是冲着手机输入这块大蛋糕而来的,他们没有想到这是汉字数字化,更没想到汉字数字化将成为地球上最亮丽的风景,亮丽得让人不可思议,让人怀疑那是不是梦幻?
不过,这已经不再是梦幻,而是我们中国人创造的又一个奇迹。
创造这一奇迹的人就是汉字数码发明人钟林先生。
十年前他就开始了汉字数字化研究工作,可以说他是我国研究汉字数字化的第一人。
当人们还热衷于用字母给汉字编码时,他已经意识到字母键盘早晚要让位于数字键盘,包括汉字在内的世界各国文字,都需要数字编码。
到时候,以字母为基础的拼音文字将不再神气,汉字完全有可能借助于数字化而铸就辉煌。
当人们自觉或不自觉地将汉字编码与汉字输入划上等号时,他已经意识到汉字编码是汉字信息处理技术的核心内容,汉字信息的采集、贮存、传递、加工、转换等都离不开汉字编码,汉字编码在汉字信息的检索、点播、加密、识别等方面都将发挥重要的作用。
当人们将中文信息技术研发的重点从汉字处理转向汉语处理时,他已经意识到汉字处理才是中文信息技术的灵魂,许多以汉语方式难以解决的信息自动化处理问题,如汉语的自动分词、自动校对、机器翻译、语音识别等,通过汉字方式就可以轻松地解决,当然,这些都需要借助于汉字编码才能实现。
当人们将自然语言的识别与处理作为人机交互方式研究的突破口时,他已经意识到数字语言才是人与机器交流的最简单、最直接、最有效的方法。
通过数字编码来实现自然语言与数字语言的相互转换,这样一来,电脑操作控制问题、人机对话问题、人工智能问题,这些难题都将迎刃而解。
钟林先生花费了十多年时间,发明了汉字数码系列专利技术,解决了中文信息处理的一系列关键性问题,尤其是解决了人机对话这一人类普遍关注、跨国公司倾全力解决而仍未解决的世界性难题。
目前,他已经获得了两项国家发明专利,成功地开辟了汉字数字化这一崭新的事业。
下面我就从八个方面来描述一下这个事业的光明前景。
第一、创业要有战略眼光
俗话说:
"女怕嫁错郎,男怕入错行。
"选对行业对于一个人成就一番事业,关系太大了!
比尔·盖茨当年创业时只花了100美元注册微软,现在他的身价早已是几百亿美元!
当初盖茨在大家都在搞硬件根本看不起软件的时候,竟然能够发现软件行业这个大市场,抢占先机,成了首富。
所以,要创业首先要有战略眼光,要善于选择最有未来价值的行业。
在确定未来的发展方向和选择将要献身的事业这个问题上,你必须慎之又慎。
在战术上你可以失败一千次,在战略上你决不能失败一次。
人生是否成功,很大程度上取决于选择,如果你连方向都搞错了,你向前走得越快,偏离你的目标就越远,就这么一个简单的道理。
古人云:
"不谋全局,不足以谋一域;不谋万世,不足以谋一时。
"民谚也说:
"吃不穷,穿不穷,不会谋划一世穷。
"虽说我们不要畏惧失败,但是,一个人是经不起折腾的。
现在不被人看好的行业,并不就是将来没有前途的事业。
如果这个事业现在就被很多人看好,社会上有那么多的实力机构,他们早就将这些财富瓜分完毕了,还有你我的份吗?
就像股市到了最狂热、人人都有钱赚的时候,正是股市即将见顶回落的时候,不知又有多少后知后觉者被套住。
股市机会还是允许你随时进入,但实业机会你连准入市场的资格都没有,更不用说参与社会财富的分配了。
所以,我们需要做的就是寻找未来的机会,提前布好局,先坐上轿子,让别人来抬我们好了。
这就需要有眼光,要选那些含金量很高、来抬的人很多的轿子。
这就需要有毅力,千万不要坐上轿子,只是因为一时还没有人来抬,就急急忙忙从轿子上下来,而去寻找有人抬的轿子。
殊不知,凡是有人抬的轿子,上面一定是坐着人的,不可能空着位置等着你的。
在移动电话还被称作"大哥大"的年代,在众人还不知网络是何物的时候,汉字数码发明人就开始了汉字数字化的艰苦研究。
他放弃了优越的工作,放弃了丰厚的待遇,在一无资料可循、二无资金支持,凭着对汉字文化的无限热爱和对数字化事业的执着追求,经受了无数次失败和挫折的考验,克服了许多难以想像的困难,花费了十多年时间,终于使汉字在世界上各种文字中率先实现了数字化,在技术上达到了世界先进水平。
第二、我们的事业是汉字数字化
现在你知道了,我们的事业叫做汉字数字化,而汉字数码则是汉字数字化的核心技术。
现在一提到数字化,大家的感觉一定非常好,因为你会马上联想到互联网络,联想到数码相机,联想到第三代移动通信,联想到数字电视等等,可以说,人类社会正在进入到一个数字化时代。
邓小平同志说过:
"科学技术是第一生产力。
"现在全世界都在发展高科技。
大家都知道,高科技的核心是信息技术,信息技术的核心是信息的数字化。
信息主要体现在文字、声音、图像三大载体上。
在声音和图像数字化领域里,我们国家已经落后了,追赶的难度很大。
但在文字数字化领域,我们中国人完全可以有所作为。
说到这里,懂一点信息技术的人都知道,在计算机内部文字也早就数字化了,汉字就是作为一种图形符号来处理的。
那么,我们在文字数字化领域还能有什么作为呢?
原来,文字语言环境分为三类,第一类人与人之间沟通的人人环境,使用的是像汉语、英语这样的自然语言;第二类是机器与机器沟通的机机环境,使用的二进制语言;第三类是人与机器沟通的人机环境,使用什么语言最好、最有效,这个问题到现在仍然没有解决。
人类一直有个梦想,就是让人我们与机器之间能够无障碍地交流,让我们和计算机之间能够自由地对话。
尽管计算机技术一直以任何其他行业都望尘莫及的速度发展,尽管全世界的科学家们已经做了半个多世纪的努力,但是,让计算机能和人类自由交流这一梦想的真正实现依然十分遥远,其中的根本性原因在于计算机不能理解自然语言的内容。
为什么这么说呢?
要让电脑理解我们人类的语言,电脑就必须像人脑一样聪明。
人脑是什么?
人脑是世界上最复杂、最高级、最有效、储存容量最大的超级计算机。
你知不知道,人脑一生中储存的信息总量有多少?
我告诉你,与全世界所有图书馆的藏书量信息差不多。
你知道人脑的神经网络容量有多大吗?
说出来你可能不会相信,与全世界的通信网络容量差不多。
人脑的工作效率有多高?
毫不夸张地说,就像数千万台电脑在同时工作一样。
你要知道,一个偌大的中国,所拥有的电脑也不过数千万台。
计算机的智能水平不要说与人脑相比,就是和动物相比也有天壤之别。
一只狗在百码之外就可以通过你的步态认出你来,然而电脑却甚至连你就在那儿都不知道。
你生气的时候,几乎任何一只宠物都会察觉气氛不对,但是电脑却一片茫然。
甚至连小狗都知道自己做了错事,而电脑还是懵懂无知。
比计算机聪明千万倍的动物尚且只会简单语言,而要让计算机能够完全理解人类的自然语言,只能是个美好的梦想。
美国、欧洲、日本多家著名跨国公司对自然语音识别技术进行了长达几十年的研究,虽然投入了数百亿美元的资金,到目前为止,都没有一个成熟的产品投入到商业应用领域。
与跨国公司动辄就是几千万美元的研发资金投入相比,汉字数字化是在没有任何资金支持的条件下开始研究的。
我们中国人找到了解决语音识别这一世界性难题的一个再简单不过的方法,这就是对机器用数字说话。
第三、数字化有着严格的界定
事实上,要实现对机器用数字说话,并不是一件容易的事情。
虽然许多年前,世界上就有科学家预言,数字将是人类与机器沟通和交流的最简单、最直接、最有效的方式,但是,在汉字数码发明之前,没有人能够将这一预言变为现实。
这是因为,如果仅仅是用数字来表示自然语言,那是一件非常简单的事情,人人都可以提出自己的表示方法。
关键的问题是,一个数字只能表示一个字词,或者说一个字词只能对应一个数字,如果一个数字表示了两个或两个以上字词的话,电脑是无法准确地认定你的意思的。
要知道,如果电脑不能百分之百地正确地理解人类意思的话,所带来的误操作就是不可避免的,而因误操作所带来的后果可能就是灾难性的。
现在,我可以告诉大家,数字化有着严格的界定。
不是将信息简单地用数字来表示就是数字化。
数字化是指将信息转化为数字来复制、贮存、传递和处理。
为了保证信息不失真和丢失,信息与数字之间必须是一一对应的,是可以相互转换的。
例如,将声音和图像转化为二进制数字贮存在光盘中,放映时再将这些数字转化为各种物理量呈现给人们。
数字电话、数字电视、数码相机在机器内部都实现了图像、声音的物理信号与数字信号的相互转换。
由于数字信号在传递、保存、复制过程中不易失真,从而确保了图像、声音的质量。
从这个意义上讲,电报码、区位码就实现了汉字的数字化,还有邮政编码、物品条形码和其它形形色色的数字代码,也实现了汉字的数字化。
因为它们都是用数字编码来表示汉字符号的,同时,每一个数字编码所对应的汉字符号都是唯一的。
但是,电报码也好、区位码也好,它们仅仅将几千个常用汉字数字化了,并没有将全部汉字数字化,更没有将大量的词语数字化。
最要命的是,电报码、区位码是按照一定顺序给汉字进行数字编码的,汉字的数字编码与汉字的字形、字义、字音之间没有任何联系。
人们使用电报码、区位码只能通过查找和死记的方式,除了训练有素的专业人员外,很难得到普及和推广。
要让汉字数码成为每个人都能够掌握的数字化工具,不仅要求汉字数码做到一个数字只能表示一个汉字或者词语,用专业术语来讲,就是无重码,而且这种表示的方法必须完全规则的,表示的结果必须简洁明了。
第四、数字化带来意想不到的效果
在使用了几十个字母、数字和其它符号以及制定出一系列编码规则的条件下都还玩不转的汉字编码,要用几个数字来实现,而且还要不重码,规则要简单得人人都能轻松地掌握,这简直比登天还要困难。
也许是太难了,没有人敢往这个方面想,更没有人认为能够实现它。
虽说现在的汉字数字编码方案如雨后春笋一样层出不穷,但它们设计者的初衷无不是仅仅为了解决在手机数字键盘上的汉字输入问题,以至于一提起汉字编码,人们自然就认为是汉字输入法,没有人意识到汉字编码在汉字信息处理方面还有许许多多非常重要的应用领域,更没有人会想到,汉字编码原来是我国实现信息化和数字化的最核心技术。
关键问题是汉字编码必须具有唯一性、规律性和简洁性,否则就只能应用于查字和打字,派不上其他用场,更不用说成为信息核心技术了。
现在我们就来看看,将汉字表示成具有唯一性、规律性和简洁性的数码后,究竟会发生什么样的变化?
汉字有上千个音节,同音字、同音词比比皆是,电脑识别起来非常困难。
如果我们能够将成千上万个汉字和词语用十个数字唯一地表示出来,那么,人类只要通过十个数字符号,就能够将上万个汉字承载的信息准确无误地传达给机器;机器只要识别出十个数字声音,就能够完全明白上千个音节都难以表达清楚的人类意思。
人类告诉机器的是一串数字,机器回答人类的是自然语言。
通过这种交互方式,数字在人类与机器之间架起了一座沟通的桥梁。
如果这个设想得以实现,就足以震撼信息世界里以英文为主的一统天下,就足以引发信息技术领域里的一场革命。
在这里,我可以十分自豪地告诉大家,这个设想已经实现了。
汉字数码将数以万计的汉字表示成数字,还要将数以十万计的词语和句子统统地表示成数字,并且没有一个重码,平均两个数字就表示出一个汉字。
你相信这是真的吗?
当我们尝试着将这个消息发布在网上时,没有一个网友相信这是真的,他们都不约而同地说我们烧糊涂了。
这不是在做梦,也不是在吹牛,这是一个客观存在的事实,在座的每一个人都可以见证这个事实。
这个许多人都不敢相信的事实,我们只能称之为奇迹了。
说实话,最初连发明人本人也没预料到会出现如此理想的结果。
一次,我跟一个数学博士谈到这件事,他连声说,很难想象,简直不可思议。
是啊,汉字数码只用了九个数字。
你想想看,一位数字只能表示出九个字词,两位数只能表示出八十一个字词,不用说编码要有规则了,就是挨着编码,而且不留任何空隙,即使是四位数顶多也只能表示出六千多个汉字,连新华字典上的汉字都表示不完!
第五、数字化超越微软视窗操作系统
提起美国微软公司,人们自然就会想到它是世界软件业的巨无霸,其富可敌国的强大实力,无人可以与之抗衡。
一谈到中国的软件企业,最有趣的话题无非是哪家软件企业可能成为中国的微软,哪个软件精英可能成为中国的盖茨,很少有人敢说要超越微软,即使宣称挑战微软,也只是说说而已,因为我们没有那个技术实力可以与微软相抗衡,更不用说微软十分超强的商业能力了。
今天,在中国的西部,居然有人宣称要挑战微软视窗,这已不是说说而已,而且是像模像样的,还拿得出核心技术作为杀手锏,实在是胆大包天,或者说是不知天高地厚。
不过,引人关注的是,这个来自四川的"大熊猫"能够与来自美国的"恐龙"过招吗?
当然,建立在汉字数码基础之上的数字化操作方式才刚刚诞生,还是个襁褓中的婴儿,凭目前的实力,显然无法与微软视窗操作系统过招。
正如像微软视窗操作系统最初因为太糟糕了而被业界嘲讽一样,数字化操作系统从成长壮大到被人们所接受,也是需要经受住时间考验的。
但是,新生事物具有强大的生命力,这是任何力量都扼杀不了的。
有人会说,数字化操作方式最多只是个可实施的方案,连个像样的演示模型都没有,怎么能够与庞大的视窗操作系统相提并论呢?
从表面上看,微软视窗系统庞大而且功能强大。
但是,只要我们深入到微软视窗系统的技术核心,你就会发现,微软视窗操作系统的原理其实是很简单。
它的图标无非就是一个个浮动的控制按钮,只不过我们不是用手、而是用鼠标来按下这些控制按钮。
它将若干个图标放在一个控制面板上,与将若干个控制按钮做在机器的一个控制板上,并没有实质上的区别。
要说有区别的话,就是机器的控制板上只容纳得下少数几个控制按钮,而微软的视窗可以容纳得下很多控制面板,每个控制面板又能够容纳得下更多控制按钮。
这样,装有视窗系统的电脑就能做许多许多的事情,成了万能的机器,视窗系统也就成了无所不包的"大杂烩"。
经过多年的不断改进和完善,微软视窗使电脑屏幕上显示的内容漂亮多了,窗口、菜单、工具条等都有了美丽的外观。
这种图形用户界面向人们提供了一个良好的视觉空间环境,不仅减轻了操作者的记忆负担,而且允许操作者一次开几个窗口、同时做几件事情。
计算机终于发展成为一种工作场所,从此微软视窗操作系统风靡了全球。
然而,任何事物都不是十全十美的,微软视窗也不例外。
只要我们冷静地分析一下,就会发现微软视窗存在着许多软肋,我们且不去说这个庞大系统带给人们等待、死机、病毒等等麻烦,至少在以下两个方面,微软视窗存在着致命弱点:
首先,由于是图形界面,它离不开用于显示图形的显示器,离不开用于操作图形的鼠标键盘,因此,当它被移植到其它数字化产品时,就会遇到巨大的障碍。
就连手机这样有屏幕的数字化产品,那块小小的屏幕已经难以容纳下微软的图形界面,更不用说大量的数字化产品根本就没有屏幕,没有键盘,更没有鼠标。
其次,图形界面难以做到完全声控。
虽然微软视窗也设置了语音控制功能,但是,由于自然语音识别技术的不成熟,它的语音控制功能只能是个附属品,甚至是个摆设,并不能真正地实现语音控制这种人类最习惯、最自由、最直接的交互方式,人们还必须借助手、而不是用口来进行交流。
在这个界面上实现"君子动手不动口",仍然是个美丽的梦想。
第六、席卷全球的又一次狂潮
比尔·盖茨曾经说过:
"工业界应对语音识别技术领域的重大突破作好充分准备,那将是席卷全球的又一次狂潮。
"我非常高兴地告诉大家,盖茨预言的这次狂潮即将来临,而且这次狂潮将首先出现在中华大地上,中国将成为数字化革命新的策源地。
如果你已经学会了汉字数码,我可以告诉你一个规则,你也不妨利用这个规则作个实验,将微软视窗操作系统的汉化命令统统只用四个数字来表示,看看编码效果怎么样。
你还可以对各种家用电器、办公设备的操作控制命令用四个数字来表示,再看看编码效果怎么样。
我相信,你会惊讶地发现,很少有重码出现,即使偶尔有重码出现,由于汉语词汇无比的丰富,你可以选择另一个同义词汇来代替,这样就能让这些数字组成的命令都是唯一的。
你知道你这个小小的举动所具有的划时代意义吗?
你是在展现一个历史上从未有过的、令人类耳目一新的人机交互界面。
这是一种更加自然、简单、方便的人机交互界面,我们称之为数字语音界面。
汉字数码将汉语汉字转化为机器能够完全识别的数字语音,再将这些数字语音按照一定规则组合成机器能够完全理解的数字语音命令。
让每个中国人都学会用普通话念准十个数字,或者让电脑去适应各地方言对十个数字的念法,都不是什么困难的事情。
由于汉语的发音响亮清晰,十个数字的声音差别又很大,所以即使在有噪声的环境中,电脑也能很容易地准确识别它们。
普通话有四百多个音节,每个音节又有四种声调之分,电脑识别起来非常困难。
为了提高识别正确率,人们必须拿着麦克风讲话,或者把脸贴近电脑讲话。
汉语语音识别没能让人们的双手空出来做别的事情,也没能让人们在一臂远的距离之外使用电脑。
人们本来对人机对话抱有极大的兴趣和热情,但是,目前这种非自然、非谈话的状态以及语音识别的频繁出错,往往让任何一个使用者丧失信心。
只是在数字语音技术广泛应用之后,你在使用电脑时才不必正襟危坐、不必全神贯注。
你可以在走来走去的过程中使用电脑,即使你转过身去背对着电脑做些别的事情,或者走到看不见电脑的地方,只要你说的数字语言还能够传到电脑的"耳朵"里,你照样可以对电脑发号施令。
第七、信息处理一揽子解决方案
毫不夸张地说,数字语音技术是继计算机技术、网络技术之后又一项可以改变人类生活方式的重大信息技术,数字交互技术可以应用于任何需要人机交互的产品和服务领域。
你认真地想一想,利用汉字数码方法将汉字信息转化数字信息后,还会发生什么意想不到的效果?
首先,我们使用汉字数码将汉字文件转化为数码文件,这个转换结果是唯一的,所以数码文件就是汉字文件的另一种形式。
由于数码文件的信息形态本身是数字化的,用不着转化为汉字内码。
而在此之前,由于计算机不能直接处理汉字文件,必须在计算机内部通过编码将这些汉字转化为数字,这些数字编码就是汉字内码。
这样一来,汉字数码就可以代替汉字内码进行汉字信息的传输、存储等处理了。
你可能要问,用汉字数码代替汉字内码有什么好处呢?
我认为,至少有以下五大好处:
一是统一了全球的汉字编码。
现在全球的汉字内码并没有统一,中国大陆是一套,中国台湾是另一套,其它华人地区还有十几套。
因此,我们从网上看到的台湾地区的网页都是些乱七八糟的符号,当然,台湾人民看到我们的网页也是这个样子。
如果在全球华人中间普及了汉字数码,在不改变现有汉字内码的格局下,汉字编码的统一问题也就得到解决了。
二是消除了网上的汉字乱码问题。
回想一下你上网的情形,是不是经常会出现这样的情况,即使访问国内网站,明明是打开了网页,网页上也是一片空白,或者就是些堆乱七八糟、莫名其妙的符号,当你在阅读朋友的电子邮件时也会出现这种情况。
这就是由于汉字乱码造成的。
为什么会出现汉字乱码呢?
这是因为汉字内码与字母内码互不相容。
字母内码是单字节的,而汉字内码则是双字节的。
由于计算机不能有效地处理汉字和其它文字的混合转换问题,因而经常出现乱码或者白版现象。
而采用汉字数码代替汉字内码后,乱码现象将完全消失。
这是由于数字与字母都是单字节的,它们之间不存在互不相容的问题。
三是提高了汉字信息的传递速度,增加汉字信息的存储容量。
我们都知道,在计算机内部,一个字节可以表示出一个数字或者一个字母,四个字节才能表示一个汉字,而汉字数码平均两个数字就可以表示出一个汉字,这就是说,只需要两个字节就可以表示出一个汉字,从这个角度来看,同样内容的汉字信息,汉字数码所占的存储空间只有汉字内码的一半。
这是什么意思呢?
就是说,原来需要存储在两张光盘上的汉字信息,现在只需要一张光盘就够了,或者说,原来传递一个小时的汉字信息,现在只需要半个小时了。
最重要的是,汉字信息处理效率也将因此提高一倍!
四是实现了对汉字信息的加密。
由于数码文件是一堆数字,我们就可以对这堆数字实施数学运算,使其变成一堆破译难度巨大的乱数,这些乱数既可以存贮在计算机硬盘和光盘中,也可以通过网络公开传递,在防火墙、加密狗等信息隔离措施失效的情况下,仍然能够保证国家机密、军事秘密、商业秘密和个人隐私的安全。
当然,汉字内码也可以做到这一点。
但是,由于汉字内码存在乱码现象,对汉字内码实施数学运算并不能保证汉字信息存储和传递的安全性,反而会增加安全隐患。
同时,由于人们掌握不了汉字内码,就不能使用汉字内码进行人工加密,不能随时改变加密方法,而只能借助于计算机软件的加密功能,要知道,计算机软件的加密功能是比较容易被破译的。
五是解决了汉语分词的难题。
在座各位都学过英语,一定知道英语的书写方式与汉语是不同的。
在书写过程中,英语的词语之间是空格分开的,而汉语的词语之间就没有这个空格。
我们在阅读汉语时,凭所积累的知识和经验,就能够轻松地将这些词语分开,来理解这些词语组合成句子所表达的意思。
但是,计算机没有这些知识和经验,它无法将这些汉字准确无误地分割成一个个词语。
这样一来,计算机在处理汉语信息时就遇到了巨大的困难。
比如机器翻译,如果连词语都分不对,翻译出来的东西是个什么样子的,就可想而知了。
再比如,上网查资料时,在输入查询的内容后,经常会出现大量我们并不需要的内容,令我们哭笑不得。
一个小小的分词问题,不知难倒了多少专家权威,更是阻碍了我国汉语信息处理的技术进步。
在外国文字都用词语来处理信息的时代,唯独我国文字还基本停留在字处理阶段,其间的差距是显而易见的。
汉字数码非常巧妙地解决了这个问题。
我们在使用汉字数码输入汉字时,每输完一个词语,就需要按一下数字"0"键。
这个数字"0"是什么?
这个数字就是汉语词语之间的分隔符号,相当于英语词语之间的空格。
毫无疑问,使用数字来表示词语之间的界限,较之使用空格来说,在技术上又是个很大的进步。
你想到过吗?
庞然大物般的汉字竟有如此魔力,它摇身一变,居然变成了轻飘飘的十个数字。
计算机处理起这十个数字来得心应手,比起处理几十个字母来速度快多了。
谁也想不到,曾经是效率最低的中文信息处理,一下子就变成了效率最高的了,汉字也从"丑小鸭"一下子就变成了"白天鹅"。
如果你感兴趣的话,不妨也对汉字数码作些变换,说不定又能够解决哪个中文信息处理的重大问题或者疑难问题,从而为我国的信息化建设作出贡献。
第八、这是具有世界水平的核心技术
当代高新科技的核心是信息技术,信息技术的核心是数字化,在各类信息的数字化之中,文字数字化起着统领作用,而汉字是世界上最多人口使用的文字,所以,汉字数字化就成了核心之核心
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 转载 地球上最伟大的事业 汉字数字化 地球 伟大 事业 汉字 数字化