数字时代用户界面演讲实录.docx
- 文档编号:6956761
- 上传时间:2023-01-13
- 格式:DOCX
- 页数:11
- 大小:29.43KB
数字时代用户界面演讲实录.docx
《数字时代用户界面演讲实录.docx》由会员分享,可在线阅读,更多相关《数字时代用户界面演讲实录.docx(11页珍藏版)》请在冰豆网上搜索。
数字时代用户界面演讲实录
数字时代用户界面-演讲实录
数字时代用户界面-李开复
主讲人简介
李开复,美国微软公司副总裁,是语音识别技术方面的专家。
1961年出生于中国台湾,1972年随母亲迁往美国。
毕业于哥伦比亚大学,后毕业于全球最有名的计算机研究大学——卡内基梅隆大学,获得博士学位。
80年代末加盟苹果公司,曾连续三年得到权威刊物的最佳科技奖。
1997年担任微软亚洲研究院院长。
2000年调入微软总部担任副总裁。
内容简介
从1985年,PC的应用是从DOS到Windows。
在以后的十年之内,有了Windows,有了Internet的发展,带来了多视窗的、链接的图形功能,这些就是在用户界面上的一大革命。
现在我们用的图形用户界面就是所见即所得,看到它就能用它,是靠鼠标等基础之上做的用户界面。
可是当我们进入了网络时代,应用软件就会有越来越丰富的内容。
随着我们工作的增多,放在屏幕上,让我们看到所有可以做的功能,已经不适应如今高节奏的工作状况,这个时候所见即所得的图形用户界面就会碰到一个瓶颈,而依靠语音技术的发展产生的自然用户界面将帮助我们解决这一难题。
将来,我们的电脑不仅仅是一个工具,而是一个得力的助手,你可以和你的手中的电脑讲话,而电脑也会理解你的意图帮你完成各项工作。
语音可以说是惟一共通的表达的方法,无论你有没有鼠标,有没有键盘,只要有语音就可以。
未来的用户界面究竟将会怎样?
敬请关注由语音技术为您全新打造的《数字时代的用户界面》。
全文
谢谢各位同学大家好!
回到北京真振奋,尤其看到这么多中国的年轻朋友。
今天我很高兴有机会来介绍一下在DigitalDecade(数字十年),在用户界面上会有一些什么样的机会?
我们都知道,从1985年PC的开始,它的用户界面是一个很简单的DosCommandInterface(Dos命令用户界面),我们要靠人去强迫地记得怎么和计算机来做一个沟通。
那么在后来的十年之内有了Windows、有了Internet的发展,带来了Menus(菜单),多视窗的Internet带来了Hyperlink(超链接)链接的图形的功能,这些就是所谓的图形用户界面。
这是在用户界面方面的一大革命,图形用户界面就是所见及所得,Whatyouseeiswhatyouget,它是靠了BitmapDisplay(位图显示),靠了鼠标,靠了Internet的一些标准,在这基础之上做的用户界面。
它的原理就是,我们能用眼睛看到的一些用户界面的Element(内容),我们看到了它,我们就能够去用它,我用了它就会执行工作,这样一个理念之下,它是非常好用的。
因为对于人们来说我能看见我就能用它是非常直观的,尤其是一些很常用到的功能。
比如说Windows的ToolBar(Windows工具栏),我常常用它,它就老在我的机器上出现,我就可以直接地去使用它,所以这是它的好处。
所以Frequentaction常用的动作在图形用户界面特别好用,因为它就在你面前,你一按事情就发生了。
但是当我们进入网络时代,进入WebService(Web服务)时代,未来的应用软件会有更丰富的内容,这个时候所见即所得就不够好了。
因为我们能做的功能太多了,不是一个可以放在屏幕上,让我们可以看到所有可以做的功能,所以这个时候图形用户界面就会碰到一个瓶颈。
我们继续往后发展,未来的DigitalDecade(数字十年),有三个很大的趋势:
第一个是XML带来的一种格式,第二个是WebService(Web服务),让我们能够把整个Internet当做一个操作计算的环境,让我们编程能够从手表一直到服务器上都可以使用,第三是Smartdevices(智能设备),很聪明的设备,从手表、电视、电话一直到每一样能接电的东西,它都是一个计算的工具,都是一个可以使用软件平台的工具,都是一个可以上网的工具。
这就是为什么我们在DigitalDecade(数字十年)这么振奋的理由。
但是进入了DigitalDecade(数字十年),在网上有无限的有格式的有架构的这个XML的数据,在网上有无数的网络服务,你可以在网上订花、买书,可以在网上两个公司做彼此的交流,订货你可以在网上做无比的事情,任何你想做的事情都可以把它当做一个WebService(Web服务),WebService(Web服务)可以彼此来沟通,那么WebService(Web服务)也需要和人来沟通。
所以在这么丰富的WebService(Web服务),这么丰富的XML的环境之下,我们需要一个新的用户界面,因为我们不可能把所有可能的想要做的工作,所有有可能的WebService(Web服务),所有的XML的格式,都用图形用户界面显示在你面前。
因为电脑和网的功能变成无限的,所以你不可能在有限的屏幕上,显示所有可以做的工作。
所以图形用户界面将达到一个瓶颈。
另外SmartDevices,智能化的设备,不是每一个设备都有屏幕的,电话没有屏幕。
我们怎么用图形用户界面,电话没有键盘没有鼠标,我们如何去用图形用户界面?
所以又是一个理由。
图形用户界面将达到一个瓶颈,我们认为未来用户界面的发展,应该是从自然语言语音。
比如说墨水或者让电脑更像一个Tablet,一张纸,甚至有一天更像一个Personalassistant得力的助手。
我们常说的就是在D
igitalDecade(数字十年),我们希望将来的电脑能够并不只是一个工具,而是一个得力的助手。
这就是所谓的Naturaluserinterface(自然用户界面),Naturaluserinterface(自然用户界面),如果说Graphicaluserinterface(图形用户界面)是Whatyouseeiswhatyouget,Naturaluserinterface(自然用户界面)就是DowhatImean,我想要做什么,我就告诉你,你就帮我做了,那么它是基于technology(技术),我们刚刚提到的有很多Device(设备),Naturaluserinterface(自然用户界面)要能在各种设备上运行,有XML,所以Naturaluserinterface(自然用户界面)要能够利用有格式化的东西,有架构的东西,有序的东西,WebService(Web服务)所以它要能够在WebService(Web服务)或者是类似的。
NET这样的环境,在多平台的从电话从手表一直到服务器上面能够执行。
好我们需要这样的一个用户界面,我们希望它能够是DoWhatIMean(按照我的意愿去执行),那DoWhatIMean是怎么代表的呢?
当我们想做一件事情的时候,无论是我要送一束花给我太太或者是我想知道怎么把一些地址打印成为一些AddressLabel(地址栏),才可以寄信。
或者是我想知道在Word里面,有一个表格,我想把它一分为二,这些事情怎么去做呢?
这些事情它们在我们人的脑海里是怎么出现的,它是靠自然语言出现的。
我们人来描述每一件我们想做的事情,我们的意愿都是用人的语言,是用一串字来代表的。
所以这一串字,如果我们能够把冒到我们脑海的这串字直接告诉电脑让它去执行,这个应该是最直观的,最自然的最容易使用的一个用户界面。
这样的一个用户界面是自然的,因为人的语言是多年来人类发展的,可以说是人类的工程,是我们人类多面演变之后达到的一个人类沟通的一个特别好的工具,这就是语言。
这个语言是很自然的,因为我们都会语言,所以我们不需要学习,所以我们可以在更多的设备上,让更多没有接触过电脑的用户在这个SmartDevice(智能设备)上使用这个自然用户界面。
第二,Scalable(可扩展性),语音可以说是惟一一个用户界面的方法,它可以在各种不同的SmartDevice(智能设备)上使用,因为无论你有多大Screen(屏幕),无论你有没有键盘,有没有鼠标,语音都可以使用。
它不局限于需要一个荧幕或者是一个键盘,或者是一个鼠标。
那最后呢,它的表达力Expressiveness非常的丰富,我们可以用语音讲一句话或者用语言代表一句话,我们可以说现在我不接电话,直到我演讲为止,或者我说现在我不接电话,直到我演讲为止,除非是比尔·盖茨打来,这样的一句话。
用图形用户界面绝对不可能表达,所以我们需要语言的丰富的语言才能够表达这样的意愿。
自然用户界面有这么一句话,GordonE.Moore(戈登-摩尔)曾经说,他是一个有革命性的一个能力,他让你能够自然地和电脑讲话。
那么电脑呢,会理解你说的是什么意思,在你的一个Context(内容)之中知道你说什么意思,GordonE.Moore(戈登-摩尔)大家都知道,是英特尔(Intel)的创始人之一。
也是有名的摩尔定律的创始人,伟大的计算机方面的很有贡献的创始人——GordonE.Moore(戈登-摩尔)。
他说过这样的一句话,是在2002年接受美国总统奖章的时候说的,那我举一句话是什么意思呢?
因为可能有人会怀疑,是不是语音的技术,是不是语言的技术能够足够地成熟,能够足够地达到真的是DoWhatIMean(按照我的意愿去执行)这种地步,能不能达到?
我们都知道Moore’sLaw(摩尔定律)告诉我们每18个月,计算机的速度会变快,会翻一番,会变快一倍。
那语音方面呢?
语言的理解呢?
这个就是在GordonE·Moore(戈登-摩尔)参加美国总统奖章授予的时候,他说的一个新的定律,叫做超级摩尔定律。
超级摩尔定律就是告诉我们的是不但计算越来越快,越来越便宜,而且技术越来越好,语音的技术我们可以去衡量。
它的犯错率,今天语音识别的技术的犯错率,和人的犯错率大家可以看到,大约还有一个数量级的差别。
但是如果我们把历史拨回去十年或二十年,我们发现每一年我们都可以完全地期望语音识别比前一年更好10%,也就是说去年它如果犯100个错,今年就只犯90个错,明年就会只犯81个错。
照这样数量的下降呢,肯定有一天,自然语言的识别自然语音的理解,会达到人的能力,人的语音识别的精准度。
语音识别当然比较复杂一点,不是说计算机快了,就自然而然的就好了,而这是一个组合,更快的计算机,更好的算法,加上更多的数据,促成了语音这个行业每年都有可以预期的10%的进步。
所以我们可以确定地说在十年到二十年之内,计算机的语音识别会达到人的能力,这是非常振奋的一件事情,也就是说,我们只要继续努力的工作,自然用户界面一定有来到的一天,这只是语音,当然还有很多技术,也是基本上在这个原理上每年比前一年做得更好。
现在我想讲的是在自然语言方面的处理,将有什么样的一个计划。
我们的想法是这样的,我们当然有一天希望我们当然希望明天
就能够到电脑上和它自然语言沟通,但是有很多很多的问题,一方面是技术,还要靠每年的进步,不是今天的技术,就能达到这种科幻小说上面的能力,这要经过十年或二十年的努力才能达到。
第二个问题是人们并不习惯和它的电脑讲话,所以我们就算把这个能力做进去了,也不见得是能够被这个社会马上所接受的。
第三,我们微软公司做平台的工作,我们深深地理解,平台不能够促使用户们的接受一个技术,需要应用软件才能够促使它的接受。
所以,今天我们必须要让未来的语言语音进入了未来的应用软件,然后在平台上给它最好的支持,这样才有一天有希望能够做到。
所以这就是为什么我们说Practical计划(实际的计划),我们不是梦想明天就可以跟电脑讲话,而且跟人沟通一样的自然,我们是一步一步地来,那这一步一步怎么来呢?
我们第一挑选最自然,最合理的一个启发点。
语音我们就用电话来做,不要用PC来做,因为大家不愿意和电脑讲话,但是每个人都会对电话讲话。
如果说我能够用语音的方法接电话,我就能够帮一个航线,帮中国航空公司,帮中国民航,它能够接电话告诉你你的航班几点抵达,甚至帮你订票。
我可以帮一个股票经济商,帮你购买你需要买的股票,或者甚至问你要不要买某一个股票,也就是说,语音在电话上就像一个人和你对话一样,但是是机器在做的事情,但是因为电话是一个我们很自然愿意讲话的工具,人们就会更容易地接受它。
第二,我们不只是用讲话的,我们可以用打字的。
我们有键盘,那在什么情况之下人们会用打字的方法输入自然语言在一个电脑里面呢?
这有两个地方一个是Search(搜索),不管是网上的搜索引擎还是在电脑上面搜索您想要的档案,这都是搜索。
或者是Help,帮助,这也挺有意思的。
因为我们想要做一点事情,我在Word里我想知道怎么把一个表格一分为二?
这句话现在是要人经过把这句话转换成图形用户界面来做它,但是人可能不知道怎么转换,但是当你不知道的时候,你就会打开Help(帮助),然后就问它,把这几个字打进去问它。
所以这两个是非常合理地把自然语言处理的方法放进Windows平台里面,能够更好地支持搜索,能够更好地支持对用户的帮助。
我们非常实际地务实地一步一步来,在这两个SpeechforTelephoneandTypingwithSearchingHelp的方向呢,我们一步一步地来,把用户界面一步做得比另一步更好。
但是我们的第一步,如果用户用完以后,并不觉得有自然用户界面,或自然语言处理的功能,我们并不沮丧,只要他认为说这个Search(搜索)越做越好,我们就挺开心的。
我们再一步一步地往下做下去,另外我们并不是一个认为自然用户界面将取代图形用户界面。
虽然在电话上你没有图形,那当然是可以取代的,但是在PC上面其实更合理的是应该用自然语言的方法,自然用户界面的方法,来辅助已存的图形用户界面,因为人们还是更习惯地用图形用户界面,他们不希望看到一个革命性的彻底的一个新的功能,或者一个新的用户界面。
第三,这个基础我们是用.NET来做的,所以这一整套系统我们是重新开发的。
我回到美国总部之后呢,我们就在.NET的基础上用VisualStudio(可视化控件)来帮助我们的Developer(开发人员),能够把已存的应用软件加入语音的功能,加入自然用户界面的功能。
我们在.NETFramework(.NET架构)上开发这一整套系统,我们利用XMLWebService(XMLWeb服务)能够让不同的系统能够彼此沟通。
所以.NET对我们的用户界面是非常需要的一个低层的支持和技术,因为.Net可以在多种的设备上使用,所以我们也认为经过.NET我们可以在电话、电视机、汽车、电器上都可以使用我们的自然的用户界面。
所以我们怎么走这条路呢。
第一在Telephony上,就像我们刚才所说的,TextSpeech(语音合成)、SpeechRecognition(语音识别)、Dialogue(对话)也就是说人机对话的沟通,在PC上我们要做搜索,要做帮助。
再下一步Q&A(问与答),我有任何的一个问题我问你,你给我你的答案,这个问题可能是说我明天开会在什么地方,也可能是问一个比如说百科全书的问题,比尔盖茨财富到底有多少?
我们能不能有一天做出这样的Q&A(问与答)的系统,这是一步一步来的,从左是时间的开始,到右边是未来的方向,那么刚开始你可以看到语音跟文字是分开的,但将来我会经过多通道用户界面,在任何的机器上它都可以支持语音手写体或者是打字输入,也可以从这些已有的这些功能,左边的这些功能做到Delegation,Delegation就是委托式的用户界面,也就是说我们用户我希望告诉我的PC,不是一步一步怎么做一件事情,而是最后我要得到什么样的结果,而我聪明的PC会帮我计划一步一步地完成它。
还有Federation(联盟),就是说,我要求我的PC做一件事情,它不会做,但是它知道别的PC,或者别的WebService(Web服务)可以做,它可以经过我委托它,它再委托别人去帮我做这件事情。
再下一步CollectiveAgent(集中式代理),这个Agent(代理)用户界面就是说不是我做用户来启动每一件事情,而是计算机可以主动地说,发生了什么什么事
,你要不要怎么怎么做。
比如说微软的股票超过四十块了,要不要卖,这个不见得是我人去主动地要求的,而是我很早地要求我得力的计算机助手帮我留意着微软的股票超到某一个程度,就要买或者要卖。
当然把这个做好还需要Planning,也就是计划方面的工作。
我们举一些例子,用语音怎么做呢?
打电话买一百股微软,好买了,这就是语音的一个对话。
Dialogue(对话)我可以说买微软的股票,它会说要买多少股,我说一百股,这就是一个对话,我讲一句它讲一句,我讲一句,轮流的.从语音的角度来看呢,我们认为SmartDevice(智能设备)跟语音是有非常大的关系的,因为今天我们可以把所有的设备分成这两个轴,从y的轴我们看到的是基本上是说它的Screen,它的显示器有多好.从x轴来说呢,我们说它的输入,比如说键盘或者鼠标有多好.当然PC是在右上方的,因为它有很大的Screen(屏幕),又有Keyboard(键盘),又有Mouse(鼠标),电话是最差的,因为它又没有Screen(屏幕)又没有Keyboard(键盘)。
其实呢,还有很多其他的设备,这些设备包括TabletPC,PDA(个人数字助理),ScreenPhone(可视电话),汽车或者TV,这些市场今天都比较小,但是很重要的是在下八年,到2016年的时候我们会看到的是ScreenPhone(可视电话)和PDA(个人数字助理)会越来越大。
更多的汽车也会变成有计算的功能,也可以上网。
更多的电视也会有计算的功能,也可以上网,而TabletPC会成为更主流的技术。
也就是说,有更多的平台,有更多设备的平台,上面是急需语音的一个输入的一个方法。
我们在左下方,也就是说Screen(屏幕)非常糟的情况之下,那么语音呢,就可以不要理会它的Screen(屏幕),我们直接语音对语音地(来)做一个对话。
当你有一个小小的Screen(屏幕)的时候,我们也许可以用(语音)的输入,而用图形的输出。
所谓的MultiModel(多模式),或者CommmndandControl(命令和控制),当我们Screen(屏幕)够大的时候,这个时候我就可以做听写了,因为听写需要做修改,修改的工作需要一个比较大的一个显示。
所以上面的这些机器呢,比如说TabletPC和语音的听写,是一个很好的结合,所以这几个是语音的很好的机会,那么下面我将做几个语音方面的演示。
第一个演示,我现在要打电话到美国,这是我们微软公司用SALT技术在用.NET技术和SALT技术做出来的一套系统,这套系统呢,我们将在中国的VisualStudio(可视化控件)的比赛让中国的学生甚至比美国的学生更先能够有机会用到这方面的技术。
在这个演示里面,你们会听到的是有一个很聪明的电脑代理,他会跟我有一段对话,那么我要他做一件事,它会做一件事,这套系统呢,是用VisualStudio(可视化控件)开发出来的,然后微软提供了很DialogueModule(对话模块),也就是说,开发者他编一个语音的系统。
--410155543
--您好,需要帮助吗?
--请帮我处理一下学院基金.
--给我申请表.
--您需要我把信以邮寄的方式还是Email的方式给您?
--Email.
--我已经把信发到您的Email里了.您需要我们找个业务代表帮助您填申请表吗?
--是的,谢谢.
--谢谢,我们马上就会与您联系.您有一封来自银行方面的告警信,您需要我们把它传给您吗?
--好的.
--请稍等.
--艾伦,您好!
您有三笔帐单未付.首先是电费$43.5,长途话费$62.25,
DSL$31.52,您愿意付帐单吗?
--付电费和长途话费.
--电费和长途话费将在两天内交清,您还需要别的服务吗?
--不用,谢谢.
--请说“是”或“不是”或提出要求。
您还需要别的服务吗?
--不是。
这就是我们的演示。
在这个演示里你听到的是,我打电话到我的股票经纪商,那么我要求他,我希望理解怎么样去存钱,为了我的小孩的未来的教育,然后他就问了我很多话,最后决定把一些信息寄到我的EmailAddress里边。
这个时候正好我的银行的有很多新的帐单要付,他就把我转换到另外一个部门。
这个时候就有一位女士的声音出来,和我做了一个交谈,我决定把一些帐单付清了,另外一些帐单呢,还没有付清,这是这样的一个未来可以做到的一个交流的过程。
我们预期这个产品应该在今年可以做完,所以在明年我们就可以看到很多的应用,让人们能更快地把一个已有的.NETApplication(.NET应用),加上语音。
这个应用本来是在PC上在Web上应用的,它突然就可以帮你接电话了。
好,下面我要做的是一个另外的语音方面的演示。
我们刚刚所说的语音呢,它有语音合成,还有语音识别。
现在我要演示的是微软亚洲研究院的一个工作,大家都知道在亚洲研究院,语音是一个重点研究的项目。
现在我要演示的呢,是一个语音合成。
这套语音合成系统它最特殊的地方是,第一它非常的自然,第二它能够中文和英文混着说,而且是用同一个语音来说。
让我们听听这个声音离人的声音还有多大的距离。
2003年2月27日,新一代软件技术展望大会在京召开,微软CEO兼CSA比尔盖茨先生将亲临现场与中国大学生面对面,盖茨先生将为微软亚
洲研究院主办的微软杯XMLWebService(XMLWeb服务)学生软件开发大赛获奖团队颁奖,并做题目为DigitalDecade(数字十年)的主题演讲。
好,谢谢。
这个技术我们非常的自豪,我估计它的中文已经超过了我的中文的能力了,不过我的英文还比它好一点。
再下面我们所要看到的是我们在总部最近拍的一个Video(录像)。
也就是说,我们把一些技术,我们已做好的技术,在一些日常的环境上让大家更能理解语音它不是一个很玄的技术,是真的每天任何的一个人都有可能用到的。
--欢迎致电(自动化处方服务).请说您的名字。
--简·赛门。
--请输入或说出您的个人标识号或者密码。
--Connecticut
--欢迎,赛门夫人.您需要重新填写还是修改您的处方?
--修改。
--您共有两个处方,您希望修改哪一个?
--Claro
--您的Claro处方将在一个小时内准备好。
--太好了。
--您今天还需要别的什么服务吗?
--是的。
给我丈夫的手机打电话让他过来取处方。
--正在通知他.
--3月15日(周五)下午16:
15,811直达航班离开,3月19日(周二)下午13:
30831直达航班返回。
您需要我现在就预定航班吗?
--对,预定航班.
--谢谢,我们将把您的电话转到旅游高级会员业务部门以便让您确认。
--您好。
我的名字是迈克。
您前往拉斯维加斯的航班已经按照您的意思预定好了。
因为您是我们的高级会员,我们将给您一个特殊的折扣价,及包括晚餐和演出在内的娱乐服务,需要我更详尽地为您解释吗?
--呼叫我的秘书。
--欢迎到来,您说您的密码。
--123。
--欢迎您,泰乐萨。
需要帮助吗?
--为我的部门安排一次会议。
--请告诉参加会议的名单。
--有RackSherman(人名),ChristineConstant(人名)和MaryLouise(人名).
--请告诉会议的主题.
--我们与约翰逊公司的合同.
--请告诉会议的地点
--在我办公室里
--请告诉会议的时间
--本周四下午2:
00,会议将持续一个小时。
--Christine(人名)在会议日程上有冲突.
--无论如何请给他一个邀请,并告诉他这是紧急会议。
回头再与我确认是否所有的参加者都能参加会议。
--还有什么别的我可以为您效劳吗?
--请查一下我的收件箱.
--您有四封信,其中有一封是急件.
--念给我听.
--泰乐萨先生.
--您好,这里是您的自动秘书,所有要求参加会议的人员都接受了邀请.
--太好了
--让我们求助于网络.
--Bridge大街16号发生火灾
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 时代 用户界面 演讲 实录