们会更多地调动脸部的肌肉,并伴有更夸张的手势。电脑可以通过感应我们的表情,接收到繁复而且并行的信号,因此令我们的口语和文字讯息都更加丰富。使电脑能够辨认人的脸部和表情,这是一个令人生畏的技术挑战。尽管如此,在某些情况下,这一点还是完全可以实现的。在你和电脑一对一的情况下,电脑只需要知道操作电脑的人是不是你,确定坐在它面前的不是地球上任何其他人就够了。此外,把人从背景中分离出来也十分容易。很可能在不久的将来,电脑就能看到你。1990年至1991年,海湾战争爆发之时,许多商务旅行都被禁止,因此电信会议大量增加。此后,越来越多的个人电脑都配置了价格低廉的电信会议设备。电信会议的硬件包括一个架设在显示器上方中央的电视摄像头,以及能编码、解码和实时地把影像全部或部分地显示在电脑屏幕上的硬件和软件。个人电脑将会越来越充分地为影像通信做好充分准备,当初电信会议系统的设计者们并没有想到要把摄像头用在个人电脑上,让我们享受到面对面的电脑通信。但是,这又何妨呢?人鼠之间我们媒体实验室的尼尔.葛森菲尔德做过一个很有趣的研究:比较只要花几分钟便可学会、价值30美元的鼠标,和要花一辈子才能精通、价值3 美元的大提琴弓。他对照了16种运弓技巧和单击鼠标、双击鼠标和拖曳鼠标的动作。大提琴的弓是为音乐巨匠设计的,而鼠标则是给你我这种人设计的。就图形输入而言,鼠标是简单而又累赘的媒介。使用鼠标有4个步骤:1)摸索寻找鼠标;2)晃动鼠标以找到光标;3)把光标移动到你希望的位置;4)单击或双击鼠标按钮。苹果“强力笔记本”电脑的创新设计至少把这些步骤简化为3个,并且采用了一个“静止鼠标”(最近又改成了“跟踪板”),可以随手指移动,因此使打字时所受的干扰减少到最低程度。画图的时候,鼠标和跟踪球就一筹莫展了。不信你试着用跟踪球来签签名看。在这种时候,用“数据板”是个好得多的办法,也就是用像圆珠笔一样的笔尖,在一个平滑的表面上操作。配置了绘图数据板的电脑并不多,而那些配置了数据板的电脑又仿佛患了精神分裂症一般,不知道该怎样安置数据板和键盘的位置才合适,因为两者最好都直接摆在显示器下方的中央位置。解决冲突的方式通常都是把键盘放在显示器下方,因为大多数人(连我也在内)根本不碰图案。结果,数据板和鼠标都被摆在旁边,我们必须学会某种不大自然的手、眼协调方式。你一边在下面操作数据板或鼠标,一边用眼睛盯住屏幕;也就是说,我们是靠碰触来作画的。光笔与数据扳鼠标是道格拉斯.恩格巴特在1964年发明的。当初他设计鼠标是为了指点文件,而不是作画。但是这个发明却流传下来,而且今天随处可见。美国国家艺术基金会主席简.亚历山大最近开玩笑说,只有男人才会想到把它叫做鼠标。在她说这番话一年以前,伊凡.苏泽兰完善了直接用光笔在屏幕上作画的概念(50年代,其防空系统曾使用过一些粗糙的光笔)。苏泽兰的方法是:跟踪由5个光点构成的十字形光标。要停止绘图,只要抖一下手腕,退出跟踪就可以了。这是个精巧、但不太精确的终止画线的方式。今天,光笔事实上已经踪影全无。因为把手举在屏幕前是一回事(且不说当血液顺着手掌不停地往下流时,要长时间保持这个姿势已经十分辛苦了),而拿着一管和电脑拴在一起的、两盎斯重的笔,更会令手掌和手臂异常疲劳。有些光笔的直径达半英寸,用的时候感觉就好像夹着雪前写明信片一样。在数据板上画起图来则格外舒服,而且只要多费点心思设计,笔尖也能产生出如艺术家画笔一样的质感和丰富效果。到目前为止,数据板通常让人感觉好像是用圆珠笔在一块平滑而坚硬的板上作画,因此必须在桌面上靠近你和显示器的地方,为这块板找个安身之处。既然我们的桌上已经堆满了东西,如果要让数据板流行起来,唯一的办法是家具制造商把数据板直接做进桌面里,这样一来,就没有单独的数据板了,只有桌子本身。你的眼睛会说话设想一下一面读着电脑屏幕上的文字,一面问:那是什么意思?她是谁?我怎么到了那个地方?问题中的“那”、“她”和“那个地方”是由当时你眼睛注视的方向决定的。这些问题牵涉到你的眼睛和文件的接触点。我们通常都不把眼睛当作输出装置,但我们却总是以眼睛来输出信息。人类能够觉察彼此目光的方向,并且进行视线的交流,这种本领当真神奇不已。想象一下,站在20英尺以外的一个人有时候直视你的眼睛,有时目光却从你肩膀的上方穿过,注视着远方。使此人目光注视的方向和你的视线只有不到一度的差距,你也能立刻感觉到其中的差异。这究竟是怎么回事呢?你当然不是用三角学的方法算出来的,换句话说,并不是计算另外一个人的视线是否与你的视线相交。不,其中另有溪跷。你的眼睛和那人的眼睛之间一定传递了一个讯息,但我们还不清楚个中奥妙。跟踪眼球的运动总之,我们总是用眼睛来指示物体,当有人问你,某某人到哪里去了,你的回答可能只是注视着敞开的房门。当你说明要带什么东西时,可能会盯着一个旅行箱,而不是另一个。这种视线的指示,加上头部的动作,可以是非常有力的沟通渠道。今天,已经有一些技术可以跟踪眼睛的运动。我最早看到的一种技术,是戴在头上的眼球跟踪器(eyetracker)。当你读文件内容时,跟踪器会把屏幕上的文字从英文变成法文。当你的中心视线不断地从一个字移到另一个字的时候,你看到的每个字都是法文,于是整个屏幕看起来是百分之百的法文。但是,眼球没有被跟踪的旁观者看到的屏幕,却大约99%都是英文(也就是说,除了戴着跟踪器的那个人正在看的字是法文外,其他的字都是英文)。更现代的眼球跟踪系统则采用远距离电视摄像头,因此用户不需要戴任何装置。能显像的电信会议配置尤其适合进行眼球跟踪,因为用户往往隔着相对固定的距离坐在屏幕前面,而且你通常都会注视着和你进行远端通信的那个人的眼睛(电脑会知道眼睛的位置)。电脑越清楚你的位置、姿势和眼睛的特点,就越容易掌握你注视的方向。具有讽刺意味的是,这种利用眼睛作为输入装置的异乎寻常的媒介可能最先应用在一个平淡无奇的结构中,即坐在电脑桌前的人身上。当然,如果你把眼睛(看)和另外一种输入工具——嘴巴(说)同时使用,效果会更好。 北极星书库|| m/ 5、咱们能不能聊聊弦外之音对于大多数人而言,打字并不是一种理想的界面。假如我们能和电脑说话,那么即使是最坚定的反机器分子,大概也会以更大的热情来使用电脑。但是,目前的电脑仍然又聋又哑。这究竟是为什么呢?电脑在语音识别方面一直没有多大的进展,主要原因不在于缺乏技术,而在于缺乏眼光。每当我在语音识别的成果展示会或产品广告中,看到人们拿着麦克风说话时,我都很奇怪:难道他们真的忘了,说话最大的价值之一就在于能让双手空出来做别的事情吗?当我看到人们把脸贴近屏幕讲话时,我也很奇怪:难道他们忘了,能够遥控是使用声音的原因之一吗?而当我听到人们要求设计出能够识别出各个独立用户的语音系统时,我问自己:他们是不是忘了,我们是在和个人电脑说话,而不是在和公用电脑说话?为什么似乎每个人解决问题的着眼点都落在错误的方面呢?原因很简单。直到最近,我们一直被两个带有误导性的观念所驱使。第一个观念是受到老式电话通信系统的影响,希望任何人在任何地方都能拿起话筒对电脑发号施令,而不需要和接线员对话,而且不管说话的人怎样南腔北调都无关紧要。另外一个挥之不去的想法来自于办公自动化——我们希望有一种会说话的打字机,我们对着它一口气不停他说,它能一字不差地把我们的口述转化成文字记录下来。由于大家一直只把注意力放在这两个方面,使我们拖延多年,始终无法实现一些更容易实现的(同时也是有用的)目标,即让电脑在高度个人化而且互动的环境中,识别并了解对话内容。我们也忽略了说话在文字以外的价值。举例来说,今天的电脑需要人全神贯注。你通常都必须正襟危坐,同时把注意力放在互动的过程和互动的内容上。在走来走去时使用电脑,或在有多组对话时让它参与其中的一组,简直是不可能的。语音识别可以改变这一切。能够在一臂远的距离之外使用电脑,是非常重要的事情。想象一下,假如你和别人说话的时候,他、她的鼻子尖老是凑到你的脸上,那是什么感觉!我们通常都隔着一定的距离与别人讲话,偶尔还会转过身去同时做些别的事情。甚至有时已经走到别的地方而互相看不见了,还在说着话。这种情况屡见不鲜。我希望有一部在“听力范围”之内的电脑,它必须能把说话的声音和周围的杂音(例如空调或飞机在头顶上飞过的声音)区分开来。讲话胜于文字的另一个原因是,它可以有其他附带方式来传递信息。家里有小孩或养了宠物的人都知道,怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如,不管主人如何吹牛,说他、她宠爱的小狗如何如何,小狗似乎只对语调有反应,它内在的分析复杂词汇的能力基本为零。说出来的话除了字面的意思之外,同时传递了大量的信息。讲话的时候,我们使用完全一样的字眼,可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、或精疲力竭等等不同的情绪。在电脑语音识别的研究中,大家都忽略了这些细微的差异,更糟的是,把它们视为暇疵,而不是特点。然而,正是这些特质,使说话成为比打字更丰富的输入媒介。让电脑“听话”假如你的外语能力还不错,但是还不到应对自如的地步,你会发现,要听懂饱受杂音干扰的新闻广播实在很困难。相反,对于一个能把外语说得极为流利的人而言,这些杂音充其量只是扰人罢了。识别语言和理解语言,二者密不可分。目前,电脑无法像你我一样,先对某件事的意义建立共识,进而理解事物的意义。虽然未来的电脑无疑会具有更多智能,目前我们仍不得不先设法解决机器的语音识别能力问题,而把机器的理解力问题搁置一边。一旦把这两项任务予以分化,路该怎么走就很清楚了,我们必须把口语中的单字,变成电脑可读的命令(command)。语音识别问题有三个变数:词汇量、机器对说话者的依赖程度以及字的关联性,所谓字的关联性,是指机器能在多大程度上依照人们日常讲话中的自然强弱节奏把单字含混在一起。我们可以把语音识别的这三个方面想象成三维立体轴。在词汇轴上,需要识别的字越少,对电脑而言就越容易。假如系统事先就知道说话的人是谁,问题就更简单了。如果说话的人能一个字一个字分开发音,电脑就听得更明白,识别起来也就更容易。在这三条轴的起始点,我们可以找到少得不能再少、完全依赖于说话者语音的词汇,念出这些词汇的时候,字与字之间必须有明——显——的——停——顿。当我们顺着任何一条轴移动的时候,也就是说,增加电脑所能识别的词汇,让系统能够服务于任何说话者,或是容许字与字相连的程度越来越高,在这种情况下,每前进一步,都会使问题变得越来越困难。当到达三条轴的远端时,我们期望电脑能够识别任何人说的任何字,以及“印(任)何程度”的含混字。人们通常都认为,我们必须在两条或三条轴上都达到最远端时,语音识别系统才能对人类有用。这完全不对。让我们一个一个来考虑。谈到词汇多寡的时候,我们可能会问:多少才算多呢,500、5000还是5 个字?但这个问题其实应该是:在任何时候,电脑存储器中究竟需要多少它可以识别的单字?这个问题提示我们把词汇根据上下文分成组,这样在需要的时候就可以把大群词组放进存储器中。当我要求我的电脑接听电话时,它会把信息输入我的电子电话本。当我计划到什么地方旅行时,它则把地名输入到上面。假如你把词汇量看成在任何情况下都需要的一组字——称为“字窗”(wordwindows)一那么电脑只需要从一个小得多的字音库中拣字就可以了,这一字音库只要有500个字左右就够了,不需要5 个那么多。人们所以假设需要有能够识别各个独立讲话人的语音识别系统,是由于这种功能是过去电话公司的一项要求,电话公司的中央电脑必须能听懂每个人的话,提供一种“通用服务”。今天,电脑的普及率更高,而且更加个人化。我们在网络的外围——通过个人电脑、话筒,或经由一小块智能卡(smartcard)的协助,能够完成更多的语音识别。如果我想在电话亭里和一部航空公司的电脑谈话,我可以先接通我的家用电脑或拿出我的袖珍型电脑,让它先替我把声音转换成机器看得懂的信号,然后,再和航空公司的电脑联络。第三个问题是字音的模糊性问题。和电脑说话的时候,我们不希望像一个观光客对外国小孩说话一样,夸张地吐出每个单字,而且每念一个字,都停顿一下。因此这个轴最具挑战性。但是我们也可以把问题稍稍简化,也就是把语言看成许多字一起发出的声音,而不是许多单个字的声音。事实上,处理这种连成一片的字音,很可能正是你的电脑走向个人化的必经过程和必须接受的训练的一部分。当我们把讲话看成一种互动的和对话的媒介时,我们离语音识别中最容易的那部分已经没有多远了。字典里找不到的字讲话这种媒体常常充斥着字典里找不到的字音。言谈不仅比白纸黑字更多姿多彩,而且对话中的特点,例如形体语言这样的非文字语言的运用,往往能使对话浮现额外的意义。1978年,我们在麻省理工学院采用了一套先进的、依赖于说话者发音的、能够识别连续语音的语音识别系统。但是就像当时和现在的许多同类系统一样,当说话者的声音中带有哪怕些微的紧张时,系统就会失误。当研究生向我们的赞助者演示这套系统时,我们希望它表现得完美元缺。结果,由于过度焦虑,作演示的研究生声音绷得紧紧的,系统也就完全失灵。几年以后,另外一个学生想到一个绝妙的主意:找出用户说话时会在什么地方停顿,并且设走电脑程序,让电脑在适当的时候发出“啊哈”的声音;这样,当一个人和机器说话的时候,机器每隔一会几就会发出“啊哈——”、“啊——哈”或“啊哈”。这些声音产生了极大的安抚效果(就好像机器在鼓励使用者继续对话),使用者变得比较放松,而系统的表现也突飞猛进。这个观念体现了两点重要的意义:第一,并非所有的发音都需要有字面上的意义,在沟通中才有价值;第二,有些声音纯粹只是对话中的礼仪。当你接电话的时候,没有以适当的间隔对来话人说“嗯”,来话人会变得很紧张,而且最终会探问:“喂,你在听吗?”“啊哈”或“嗯”的意思不是“是”、“否”或“也许”它基本上是在传达一个比特的信息:“我在这里”。并行的表达想象一下这样的情景:你和一群人围坐在一张桌子旁,同桌的人除了你以外都说法语。你只在中学粗粗修过一年蹩脚的法语、突然有个人转过头来对你说:“还要来点几酒吗?”你完全听懂了。接着,这个人把话锋一转,谈起法国的政治来了。除非你能说流利的法语,否则就跟听外星人讲话一样(而且即便你法文流利,也不一定能懂)。你可能会想:“还要来点儿酒吗?”是小孩都听得懂的简单法文,而政治就需要更精深的语言技巧了。不错,但这并不是两段对话的重要区别所在。当有人间你要不要添一点酒的时候,他可能正伸长了手臂去拿酒瓶,眼睛也正注视着你的空酒杯。也就是说,你正在解码的信息并不只是声音而已,而是并行而累赘的多重信息。而且,所有的主体和客体都处于同一时空。这种种条件同时作用的结果才使你能听懂他的意思。我要重申,累赘是件好事。并行信道(手势、眼神和谈话)的使用是人类沟通的核心。人类自然而然地倾向于使用并行的表达方式。假如你只会讲一点点意大利语,和意大利人通电话将会非常辛苦。但当你住进一家意大利旅馆,发现房间里没有香皂时,你不会拿起电话,而会直接下楼,走到前台值班员那里,拿出你在语言速成学校学会的所有看家本领,让他拿香皂给你,你甚至一边说一边还会做几个洗澡的动作。身在异地时,我们会用尽一切办法,来传达我们的意图,并且解读所有相关信号,力求索解出哪怕一丁点意思。电脑正是身处这样的异地——人类的土地上。让电脑开口要电脑说话,有两种方式:重放先前录下的声音,或合成字母、音节或(最可能的是)音素的声音。两种方式各有利弊。让电脑说话和音乐的制作一样,你可以把声音存储下来(就像CD一样),然后重播,也可以采用合成的方式,根据曲调,重制音乐(就像音乐家一样)。重述先前存储的说话内容,也就回到了听起来最“自然”的口、耳沟通方式,尤其是当我们存储的是一个完整的讯息时,就更显得如此。由于这个原因,大多数的电话留言都是以这种方式录制的。当你试图把录好的片段声音或个别单字拼凑起来的时候,结果就比较不如人意了,因为整体的韵律不见了。过去,人们不大愿意用预录的谈话来作人机界面,因为这样会消耗电脑大多的存储容量。今天,它已经不太成问题了。真正的问题也正是最明显的问题。你必须提前把话录下来,才能运用预录的谈话。假如你期望电脑说话的时候,不要把名字弄错,那么你就得先把那些名字存储起来。存储好的声音不能适用于随机的讲话。由于这个原因,人们使用了第二种方式——合成。语音合成器会根据一些规则,把一串文字的内容逐字念出来(就跟你念这句话时没什么两样)。每一种语言都有所不同,因而合成的难易度也不尽相同。英语是最难合成的语言之一,因为我们以一种奇怪而且似乎不合逻辑的方式来书写英文。其他一些语言,例如土耳其语,就容易多了。事实上,要合成土耳其语非常容易,因为基马尔在1929年把土耳其语从使用阿拉伯字母改为使用拉丁字母,这样转换的结果,使声音和字母之间形成了一一对应,每个字母都发音:没有不发音的字母或令人困惑的复合元音;因此,在单字的层次上,土耳其语简直令电脑语音合成器的美梦成真。即使机器能够发出每一个和任何一个单字的音,还有别的问题。把合成的字音集合起来,在词组或句子的层次上,加上整体的节奏和语气,是非常困难的事情。然而这样做非常重要,不仅能让电脑说的话好听,而且还能根据说话的内容和意图表现出不同的色彩、表情和语调。否则,电脑发出来的声音就好像醉酒的瑞典人在喃喃自语一样单调得让人倒胃口。我们现在开始看到(听到)有些系统正把语音合成和声音存储两种方式结合在一起,随着数字化越来越普遍,最终的解决方案将是两者合一。小型化的趋势在下一个千年里,我们会发现我们和机器说的话,与我们和人类说的话一样多,或甚至比跟人类说的话还要多。和没有生命的物体说话时,人们最感困扰的似乎是自我意识问题。我们跟狗和金丝雀讲话的时候,觉得非常自在,但是和门把手或灯柱说话,就会觉得怪怪的(除非你烂醉如泥)。难道我和烤箱说话的时候会不觉得傻乎乎吗?大概跟对着电话应答机讲话半斤八两吧。小型化(miniaturization)的趋势将使今天的语音输入比过去更遍及于每一个角落。电脑正变得越来越小,昨天还占据了整个房间的电脑设备,今天已出现在你的桌面上,明天你更可以把袖珍型电脑戴在手腕上。许多桌上型电脑用户都不能充分认识过去10年来电脑体积的缩小幅度,原因是电脑体积的变化包含不同的方面,例如键盘的尺寸仍然尽可能保持不变,而显示器反而变大了。因此,今天桌上型电脑的整体大小仍和15年前的苹果型机不相上下。如果你已有很长时间未曾使用调制解调器,调制解调器大小的变化更足以说明真正的变化有多大。不到15年以前,一个速率1200波特的调制解调器(价格约1000美元)几乎像一个侧躺的烤箱一样大。当时,速率9600波特的调制解调器就像一个放在架子上的大铁笼子一样。然而到了今天,你可以在一块智能卡上找到速率为19200波特的调制解调器。即使已经把调制解调器做成倍用卡般大小,我们仍然有许多空间没有好好利用,现在的设计有相当部分纯粹是为了外型的缘故(为了填满插口,或是大得让我们能握住,而不会随便弄丢)。我们所以没有把像调制解调器这样的东西装在“大头针头”上,主要不是技术上的原因,而是因为我们很容易把大头针随手乱放,再找起来很困难。一旦挣脱了手指张开幅度的束缚(手指张开的幅度决定了一个舒适合用的键盘的形状和大小),电脑的大小就会更多地受到衣兜、钱夹、手表、圆珠笔和其他类似物品的体积的影响。在这种种形式中,信用卡很接近我们想要的最小尺寸,显示器很小,因此图形用户界面变得没有多少意义了。笔形的系统很可能被视为笨拙的过渡期工具,既太大,又太小。按钮式的设计也不理想。看看你的电视机和录像机遥控器,你就会明白按钮的局限所在:按钮式装置完全是为手指纤细、眼力极佳的年轻人设计的。由于以上种种原因,小型化的趋势必然会推动语音制造和语音识别技术的提高,并促使语音识别成为附在小型物体上的电脑的占支配地位的人机界面。实际的语音识别系统不需要一定装在袖扣和表链中。小型装备可以通过通信而提供帮助。关键在于,小型化了以后,就必须靠声音驱动。打电话,传心曲很多年以前,霍尔马克卡片公司(Hallmarkcards)开发部的主任告诉我,他们公司主要的竞争对手是AT&T。“打电话,传心曲”的广告词说的是,透过声音,传达感情。声音的渠道不仅传递了信号,同时也传递了所有伴之而来的理解、深思、同情或宽容。我们会说,某人“听上去”很诚实,这个论点“听起来”不怎么可靠,或某件事“听起来”不像那么回事。声音中潜藏了能唤起感觉的信息。同“打电话、传心曲”一样,我们会发现我们也将能通过声音把我们的希望传达给机器。有些人会表现得像教官一样未教导他们的电脑,另一些人则会用理性的声音。说话和授权密不可分。你会不会对七个小矮人发号施令呢?有可能的。20年后,你可能对着桌上一群八英寸高的全息式助理说话。这种预想一点也不牵强。可以肯定的是,声音将会成为你和你的界面代理人之间最主要的沟通渠道。 北极星书库|| m/ 6、少就是多老练的英国管家1980年12月,魏思纳和我在鹿内信隆(《产经新闻》、富士电视台前会长)可爱的乡间别墅作客。别墅位于日本的箱根地区,离富士山不远。我们深信,参与媒体实验室的创建将使鹿内先生的报纸和电视传媒王国获益良多,因此他会乐于资助媒体实验室的创办。我们更进而相信,鹿内先生个人对现代艺术的兴趣,将和我们试图融合科技与艺术表现、把新发明与对新媒体的创造性应用结合在一起的梦想不谋而合。晚餐前,我们一边散步,一边欣赏鹿内先生著名的户外艺术收藏,这里在白天是箱根露天美术馆。当我们与鹿内夫妇一起共进晚餐时,鹿内先生的私人男秘书也在一旁陪同。鹿内先生对英文一窍不通,他的秘书却能说一口漂亮的英语,在我们的沟通中担任重要的角色。魏思纳先打开话头,说他对卡尔德的作品很有兴趣,然后介绍了麻省理工学院和他自己与这位大艺术家的渊源。秘书听完整个故事后,再从头到尾用日文翻译一遍,鹿内先生仔细聆听。最后,鹿内先生沉吟片刻,然后抬起头来,看着我们,好像幕府将军一样发出“喔——”的声音。秘书于是翻译道:“鹿内先生说,他也很欣赏卡尔德的作品,他最近买到的作品是在……”且慢,鹿内先生说过这些话吗?整个晚餐中,这样的情形一再出现。魏思纳先说几句话,秘书把它全部译成日文,鹿内先生的回答差不多都是千篇一律的“喔喔——”,但秘书却有办法译出一大堆解释来。那天晚上,我告诉我自己,假如我要制造一部个人电脑,它一定要跟鹿内先生的秘书一样能干。它必须具有能细致入微地了解我和我身边环境的功能,能够自动引申或压缩信号,因此大多数场合,我反而成为多余的了。关于人机界面,我所能想到的最好的比喻就是老练的英国管家。这位“代理人”能接电话,识别来话人,在适当的时候才来打扰你,甚至能替你编造善意的谎言。这位代理人在掌握时间上是一把好手,善于把时机拿捏得恰到好处,而且懂得尊重你的癖好。认识这位管家的人比一位全然的生客多占了许多便宜。这真是不错。爱因斯坦都帮不上忙能够享受到这种人性化代理人服务的人寥寥无几。我们平日更常见到的一种类似角色是办公室的秘书。假如秘书很了解你和你的工作,他就能非常有效地充当你的代表。假如有一大秘书生病了,临时工介绍所即使把爱因斯坦派来,也会于事无补。因为重要的不在于智商,而在于彼此之间有没有共识,以及当秘书运用这种共识时,能不能为你的最佳利益着想。一直到最近,使电脑具备这样的功能仍是遥不可及的梦想,因此许多人并没有把这个概念当成一回事。但是,情势瞬息万变。现在,有不少人认为这样的“界面代理人”是可行的构想。因此,过去问者寥寥的“智能型代理人”构想现在摇身一变,成为电脑界面设计领域最时髦的研究课题。很显然,人们希望委托电脑来执行更多的功能,不想事事都亲自操作。我们的构想是设计一个知识丰富的界面代理,它不仅了解事物(某件事情的流程、某个感兴趣的领域、某种做事的方式),而且了解你和事物的关系(你的品味、倾向,以及你有哪些熟人)。也就是说,这部电脑应该有双重特长,就像厨师、园丁和司机会运用他们的技能来迎合你在食物、园艺和驾驶方面的品昧和需求一样。当你把这些工作交由别人执行时,并不表明你不喜欢烹饪、园艺或开车,而是表明你可以选择在你想做的时候做这些事情,并且,这是因为你想做,而不是不得不做。我们和电脑之间的关系亦是如此。我实在没有兴趣在上网之后先进入一个系统,再通过一堆通信协议,才能找到你的互联网络地址(address)。我只想把讯息传递给你。同样地,我不希望只为了确认没有错过什么重要信息,就被迫阅读几千个电子公告牌。我希望让我的界面代理为我代劳。会有许多数字化管家,他们有些住在网上,有些就在你身边,还存在于组织的中央系统和外围设备中(无论组织是大是小)。我跟别人讲过,我有二台心爱的智能型寻呼机。它能用完美无缺的英语句子适时地给我传递重要的信息,简直聪明极了。我的办法是,只让一个人拥有寻呼机的号码,所有的信息都通过他来传递,只有他才知道我在哪里、哪些事情比较重要,以及我认识哪些人(和他们的代理人)。智慧来自系统的数据转发器(headend)而不是外围,也不在寻呼机身上。但是,接收端也应该具有智慧。最近,一个大公司的首席执行官和他的助理来访。这位助理带着老板的寻呼机,他会在最适当的时机,提醒老板一些急事。这位助理这种老练的、懂得把握时机和慎谋善断的本事,将来都会设计到寻呼机的功能中。《我的日报》想象一下,假若电子报纸能以比特的形式传送到你的家中,假设这些比特都传送到一个神奇的、像纸一样薄的、有弹性的、防水的、无线的、轻巧明亮的显示器上,要想为这份报纸设计界面,可能需要借助人类多年在制作标题、设计版面上的经验、印刷上的突破、图像处理上的经验及其他许多技术,来帮助读者浏览阅读。做得好的话,它可能会成为一种伟大的新闻媒体;做得不好的话,就会惨不忍睹。我们可以从另外一个角度来看一份报纸,那就是把它看成一个新闻的界面。数字化的生活将改变新闻选择的经济模式,你不必再阅读别人心目中的新闻和别人认为值得占据版面的消息,你的兴趣将扮演更重要的角色。过去因为顾虑大众需求而弃之不用、排不上版面的文章,现在都能够为你所用。想想看,未来的界面代理人可以阅读地球上每一种报纸、每一家通讯社的消息,掌握所有广播电视的内容,然后把资料组合成个人化的摘要。这种报纸每天只制作一个独一无二的版本。事实上,我们在周一早上读报的方式和周日下午截然不同。在工作日里,早上7点钟测览报纸只是过滤信息,从传送给成千上万人的共同比特中,撷取符合个人需要的部分。大多数人对整版整版的报纸,会看也不看一眼就丢进垃圾桶,对剩下的一些版面稍作浏览,真正细看的部分寥寥无几。假如有家报业公司愿意让所有采编人员都照你的吩咐来编一份报纸,又会是什么情景呢?这份报纸将综合了要闻和一些“不那么重要”的消息,这些消息可能和你认识的人或你明天要见的人有关,或是关于你即将要去和刚刚离开的地方,也可能报道你熟悉的公司。在这种情况下,假如你确信《波士顿环球报》能提供正好符合你需要的信息,你可能愿意出比100页的《波士顿环球报》高得多的价钱,来买一份只有10页、但专门为你编辑的《波士顿环球报》。你会消耗掉其中每一个比特。你可以称它为《我的日报》(TheDailyMe)。但是,到了星期天下午,我们希望以比较平和的心情来看报纸,了解一些我们从来不知道自己会感兴趣的事情,玩玩填字的游戏,看看好笑的漫画,顺便找找大减价的广告。这可以称为《我们的日报》(TheDailyus)。在一个阴雨绵绵的星期天午后,你最不希望看到的,就是有个紧张兮兮的界面代理拼命想帮你去掉看似不相干的信息。这并不是非黑即白的两种截然相反的状态。我们往往在这两极之间游走,我们会根据手头有多少时间、这是一天中的哪个时刻,以及我们的心情,希望获得较少或更多的个人化信息。设想一个报道新闻的电脑显示器上面有个旋钮,你可以像调节音量一样,调整新闻内容个人化的高低程度。你可以有许多不同的控制钮,包括一个可以左右滑动的钮,让你在阅读有关公共事务的报道时,可以调整报道的政治立场(偏左或偏右)。如此一来,这些控制钮就改变了你观看新闻的视窗,视窗的大小及其表现新闻的风格都将发生变化。在遥远的将来,界面代理将阅读、聆听、观看每则新闻的全貌。而在不久的将来,这种过滤的过程将借助于信息标题(也就是关于比特的比特)来完成。值得信赖的数字化亲戚在美国,《电视导报周刊》(TVGuide)的利润居然超过所有四家电视网利润的总和。它所代表的意义是,关于信息的信息,其价值可以高于信息本身。当我们考虑新的信息发送方式时,我们的思维总是拘泥于“随意例览信息”和“来回转换频道”这样的观念,这些观念现在行不通了。当我们有1000个频道的时候,假如你从一个台跳到另一个台,每个台只停留3秒钟,你就几乎要花1个钟头的时间,才能把所有频道从头到尾扫一遍。还没等你判断出哪个节目最有趣,节目早就播完了。当我想出去看场电影时,我不是靠读影评来选片,而是问我弟媳的意见。我们都有像这样的亲戚朋友,他们对电影很内行,同时也很了解我们。我们现在需要的就是一位数字化的亲戚。事实上,这种体现为人帮人的“代理人”观念,常把专业知识与对你的了解揉合在一起。好的旅行代理人会将其对饭店、餐厅的了解和对你的了解结合起来(线索通常来自于你对其他饭店和餐厅的观感)。房地产代理人会从一系列或多或少能够满足你口味的房子中,推测出你喜欢的家居模式。现在,来想象一下电话应答代理人、新闻代理人或电子邮件管理人吧!他们的共同点都是能够模仿你做事的方式。这不只是填一份调查问卷或对你有一个固定把握那么简单。界面代理人也必须像人类的朋友和助理一样,不断学习和成长。这也是说起来容易,做起来难的事情。直到最近,我们才稍稍了解,应该如何让脑模型学习有关人的事情。当我谈到界面代理人时,经常有人问我:“你指的是人工智能吗?”答案是“没错”。但是这个问题中夹杂着些微的怀疑,主要是因为过去人工智能给人们许多虚无的希望和过高的承诺。此外,很多人对机器能够拥有智慧这样的观念,仍然深感不安。大家公认阿伦.图宁(A1anTuring)在他1950年发表的论文《计算机器与智能》中首次认真地提出机器智能这个概念。后来,马文.明斯基等先驱继续在纯粹人工智能的研究上进行深入的探讨。他们向自己提出许多问题,诸如如何识别文本、了解情绪、欣赏幽默,以及从一组隐喻推出另一组隐喻。比如在0,T,T,F,F这一连串英文字母之后,根据内在逻辑,应该接哪些字母?1975年左右,当计算资源开始有能力解决直觉问题,并且表现出智能行为时,人工智能的研究却滑向低谷。当时的科学家选择研究机器人技术(例如证券交易和民航订位系统)这样的容易做到、而且有市场的应用技术,因此更深奥而根本的人工智能与学习问题,反而无人问津。明斯基很快指出,即便今天的电脑已经能异常出色地掌握班机订位状况(一件差不