大数据时代-大数据时代（精华版）-2

大数据时代（精华版）-2

首先，我们的直接愿望就是了解因果关系。即使无因果关系存在，我们也还是会假定其存在。研究证明，这只是我们的认知方式，与每个人的文化背景、生长环境与教育水平是无关的。当我们看到两件事情接连发生的时候，我们会习惯『性』地从因果关系的角度来看待它们。看看下面的三句话：“弗雷德的父母迟到了；供应商快到了；弗雷德生气了。”我们读到这里时，可能立马就会想到弗雷德生气并不是因为供应商快到了，而是他父母迟到的缘故。实际上，我们也不知道到底是什么情况。即便如此，我们还是不禁认为这些假设的因果关系是成立的。普林斯顿大学心理学专家，同时也是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼（daniel kahneman）就是用这个例子证明了人有两种思维模式。第一种是不费力的快速思维，通过这种思维方式几秒钟就能得到出结果；另一种是比较费力的慢『性』思维，对于特定的问题，就是需要考虑到位。快速思维模式使人们用因果联系来看待周围的一切，即使这种关系并不存在。这是我们对已有的知识和信仰的执著。在古代，这种快速思维模式是很有用的，它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是，通常这种因果关系都是并不存在的。卡尼曼指出，平时生活中，由于惰『性』，我们很少慢条斯理地思考问题。所以快速思维模式就占据了上风。因此，我们会经常臆想出一些因果关系，最终导致了对世界的错误理解。父母经常告诉孩子，天冷时不戴帽子和手套就会感冒。然而，事实上，感冒和穿戴之间却没有直接的联系。有时，我们在某个餐馆用餐生病了的话，我们就会自然而然地觉得这是餐馆食物的问题，以后可能就不再去这家餐馆了。事实上，我们肚子痛也许是因为其他的传染途径，比如和患者握过手之类的。然而，我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系，因此，这经常导致我们做出错误的决定。与常识相反，经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多时候，这种认知捷径只是给了我们一种自己已经理解的错觉，但实际上，我们因此完全陷入了理解误区之中。就像采样是我们无法处理数据时的捷径一样，这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。在小数据时代，很难证明由直觉而来的因果联系是错误的。现在，情况不一样了。将来，大数据之间的相关关系，将经常会用来证明直觉的因果联系是错误的。最终也能表明，统计关系也不蕴含多少真实的因果关系。总之，我们的快速思维模式将会遭受各种各样的现实考验。令人欣喜的是，为了更好地了解世界，我们会因此更加努力地思考。但是，即使是我们用来发现因果关系的第二种思维方式——慢『性』思维，也将因为大数据之间的相关关系迎来大的改变。日常生活中，我们习惯『性』地用因果关系来考虑事情，所以会认为，因果联系是浅显易寻的。但事实却并非如此。与相关关系不一样，即使用数学这种比较直接的方式，因果联系也很难被轻易证明。我们也不能用标准的等式将因果关系表达清楚。因此，即使我们慢慢思考，想要发现因果关系也是很困难的。因为我们已经习惯了信息的匮乏，故此亦习惯了在少量数据的基础上进行推理思考，即使大部分时候很多因素都会削弱特定的因果关系。就拿狂犬疫苗这个例子来说，1885年7月6日，法国化学家路易·巴斯德（louis pasteur）接诊了一个9岁的小孩约瑟夫·梅斯特（joseph meister），他被带有狂犬病毒的狗咬了。那时，巴斯德刚刚研发出狂犬疫苗，也实验验证过效果了。梅斯特的父母恳求巴斯德给他们的儿子注『射』一针。巴斯德做了，梅斯特活了下来。发布会上，巴斯德因为把一个小男孩从死神手中救出而大受褒奖。但真的是因为他吗？事实证明，人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效，这也只适用于七分之一的案例中。无论如何，就算没有狂犬疫苗，这个小男孩活下来的概率还是有85%。在这个例子中，大家都认为是注『射』疫苗救了梅斯特一命。但这里却有两个因果关系值得商榷。第一个是疫苗和狂犬病毒之间的因果关系，第二个就是被带有狂犬病毒的狗咬和患狂犬病之间的因果关系。即便是说疫苗能够医好狂犬病，第二个因果关系也只适用于极少数情况。不过，科学家已经克服了用实验来证明因果关系的难题。实验是通过是否有诱因这两种情况，分别来观察所产生的结果是不是和真实情况相符，如果相符就说明确实存在因果关系。这个衡量假说的验证情况控制得越严格，你就会发现因果关系越有可能是真实存在的。因此，与相关关系一样，因果关系被完全证实的可能『性』几乎是没有的，我们只能说，某两者之间很有可能存在因果关系。但两者之间又有不同，证明因果关系的实验要么不切实际，要么违背社会伦理道德。比方说，我们怎么从5亿词条中找出和流感传播最相关的呢？我们难道真能为了找出被咬和患病之间的因果关系而置成百上千的病人的生命于不顾吗？因为实验会要求把部分病人当成未被咬的“控制组”成员来对待，但是就算给这些病人打了疫苗，我们又能保证万无一失吗？而且就算这些实验可以『操』作，『操』作成本也非常的昂贵。不像因果关系，证明相关关系的实验耗资少，费时也少。与之相比，分析相关关系，我们既有数学方法，也有统计学方法，同时，数学工具也能帮助我们准确地找出相关关系。相关关系分析本身意义重大，同时它也为研究因果关系奠定了基础。通过找出可能相关的事物，我们可以在此基础上进行进一步的因果关系分析，如果存在因果关系的话，我们再进一步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系中找出一些重要的变量，这些变量可以用到验证因果关系的实验中去。可是，我们必须非常认真。相关关系很有用，不仅仅是因为它能为我们提供新的视角，而且提供的视角都很清晰。而我们一旦把因果关系考虑进来，这些视角就有可能被蒙蔽掉。例如，kaggle，一家为所有人提供数据挖掘竞赛平台的公司，举办了关于二手车的质量竞赛。二手车经销商将二手车数据提供给参加比赛的统计学家，统计学家们用这些数据建立一个算法系统来预测经销商拍卖的哪些车有可能出现问题。相关关系分析表明，橙『色』的车有质量问题的可能『性』只有其他车的一半。当我们读到这里的时候，不禁也会思考其中的原因。难道是因为橙『色』车的车主更爱车，所以车被保护得更好吗？或是这种颜『色』的车子在制造方面更精良些吗？还是因为橙『色』车更显眼、出车祸的概率更小，所以转手的时候，各方面的『性』能保持得更好？马上，我们就陷入了各种各样谜一样的假设中。若要找出相关关系，我们可以用数学方法，但如果是因果关系的话，这却是行不通的。所以，我们没必要一定要找出相关关系背后的原因，当我们知道了“是什么”的时候，“为什么”其实没那么重要了，否则就会催生一些滑稽的想法。比如说上面提到的例子里，我们是不是应该建议车主把车漆成橙『色』呢？毕竟，这样就说明车子的质量更过硬啊！考虑到这些，如果把以确凿数据为基础的相关关系和通过快速思维构想出的因果关系相比的话，前者就更具有说服力。但在越来越多的情况下，快速清晰的相关关系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中体现为通过严格控制的实验来验证的因果关系，而这必然是非常耗时耗力的。近年来，科学家一直在试图减少这些实验的花费，比如说，通过巧妙地结合相似的调查，做成“类似实验”。这样一来，因果关系的调查成本就降低了，但还是很难与相关关系体现的优越『性』相抗衡。还有，正如我们之前提到的，在专家进行因果关系的调查时，相关关系分析本来就会起到帮助的作用。因果关系还是有用的，但是它将不再被看成是意义来源的基础。在大数据时代，即使很多情况下，我们依然指望用因果关系来说明我们所发现的相互关系，但是，我们知道因果关系只是一种特殊的相关关系。相反，大数据推动了相关关系分析。相关关系分析通常情况下能取代因果关系起作用，即使不可取代的情况下，它也能知道因果关系起作用。曼哈顿沙井盖（即下水道的修检口）的爆炸就是一个很好的例子。大数据，改变人类探索世界的方法在小数据时代，我们会假想世界是怎样运作的，然后通过收集和分析数据来验证这种假想。在不久的将来，我们会在大数据的指导下探索世界，不再受限于各种假想。我们的研究始于数据，也因为数据我们发现了以前不曾发现的联系。假想通常来自自然理论或社会科学，它们也是帮助我们解释和预测周遭世界的基础。随着由假想时代到数据时代的过渡，我们也很可能认为我们不再需要理论了。2008年，《连线》杂志主编克里斯·安德森（chris anderson）就指出：“数据爆炸使得科学的研究方法都落伍了。”后来，他又在《拍字节时代》（the petabute age）的封面故事中讲到，大量的数据从某种程度上意味着“理论的终结”。安德森也表示，用一系列的因果关系来验证各种猜想的传统研究范式已经不实用了，如今它已经被无需理论指导的纯粹的相关关系研究所取代。为了支撑自己的观点，安德森阐述了量子物理学已变成一门纯理论学科的原因，就是因为实验服装、耗费多且不可行。他潜在的观点就是，量子物理学的理论已经脱离实际。他提到了谷歌的搜索引擎和基因排序工程，指出：“现在已经是一个有海量数据的时代，应用数学已经取代了其他的所有学科工具。而且只要数据足够，就能说明问题。如果你有一拍字节的数据，只要掌握了这些数据之间的相关关系，一切就都迎刃而解了。”这篇文章引发了激烈的争论，虽然安德森本人很快就意识到自己的言辞过于激烈了，但是他的观点确实值得深思。安德森的核心思想是，直到目前为止，我们一直都是把理论应用到实践中来分析和理解世界，而如今处在大数据时代，我们不再需要理论了，只要关注数据就足够了。这就意味着所有的普遍规则都不重要了，比方说世界的运作，人类的行为，顾客买什么，东西什么时候会坏等。如今，重要的就是数据分析，它可以揭示一切问题。大数据是在理论的基础上形成的。比方说，大数据分析就用到了统计和数学理论，有时候也会用到计算机科学理论。是的，这不是关于像地心引力这样特定现象的产生原因的理论，但是无论如果这依然是理论。而且如我们所见，建立在这些理论上的大数据分析模式是实现大数据预测能力的重要因素。事实上，就是因为不受限于传统的思维模式和特定领域里隐含的固有偏见，大数据才能为我们提供如此多新的深刻洞见。首先就是关于我们怎么收集数据。我们会不会仅仅看数据收集的方便程度来决定呢？或者看数据收集的成本？我们做这些决定的时候就被理论所影响着，而就如达纳·博尹德（danah boyd）和凯特·克劳福德（kate crawford）说的，我们的选择一定程度上决定了结果。毕竟，谷歌是用检索词来预测流感而不是鞋码。同样，我们在分析数据的时候，也依赖于理论来选择我们使用的工具。最后，我们解读研究结果的时候同样会使用理论。大数据时代绝对不是一个理论消亡的时代，相反地，理论贯穿于大数据分析的方方面面。作为第一提出问题的人，安德森应该获得掌声——尽管他的答案不怎么样！大数据绝不会叫嚣“理论已死”，但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆，很多旧有的制度将面临挑战。大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡，而是通往未来的必然改变。但是在我们到达目的地之前，我们有必要了解怎样才能到达。高科技行业里的很多人认为是依靠新的工具，从高速芯片到高效软件等。当然，这可以理解为因为他们自己是工具创造者。这些问题固然重要，但不是我们需要考虑的问题。大数据趁势的深层原因，就是海量数据的存在以及越来越多的事物是以数据形式存在的，这也是我们下一章要谈论的内容。第二部分大数据时代的商业变革 04 数据化：一切皆可“量化”量化一切，数据化的核心记录信息的能力是原始社会和先进社会的分界线之一。早期文明最古老的抽象工具就是基础的计算以及长度和重量的计量。公元前3000年，信息记录在印度河流域、埃及和美索不达米亚平原地区就有了很大的发展，而日常的计量方法也大有改善。美索不达米亚平原上书写的发展促使了一种记录生产和交易的精确方法的产生，这让早期文明能够计量并记载事实情况，并且为日后所用。计量和记录一起促成了数据的诞生，它们是数据化最早的根基。计量和记录能够再现人类活动。比如通过记录建筑物的建筑方式和原材料，我们就能再建同样的建筑，或进行实验『性』的『操』作，比如通过改变一些方式保存其他部分而建造出新的建筑物，然后再记录这些新建筑物。交易情况一旦得到记录，我们就可以知道一块地丰收时稻谷的产量是多少、需要上缴多少『政府』税收。计量和记录为预测和计划奠定了基础，虽然这建立在假定明年的收成和今年一样的基础上。有了记录，交易双方才会知道他们赊账的情况，而如果没有这些凭证的支持，欠债的一方则完全可以不用还钱。几百年来，计量从长度和重量不断扩展到了面积、体积和时间。公元前的最后一个千年，西方的计量方法已经基本准备就绪，但是还是有着比较严重的缺陷。早期文明的计量方法不太适合计算，哪怕是比较简单的计算。比如罗马数字的计算系统就不适合数字计算，因为它没有一个以10为底的记数制或者说是十进制，所以大数目的乘除就算是专家都不知道该怎么算，而简单的乘除对一般人来说也不容易。大约公元1世纪的时候，印度发明了一种自己的数字系统。它传播到了波斯，并在那里得到改善，而后传入阿拉伯国家，得到了极大的改进。这也就是今天使用的阿拉伯数字的前身。十字军东征给当地人民带来了彻头彻尾的灾难，但同时也把西欧文明带到了地中海东部，而其中最重要的引入就是阿拉伯数字。公元1000年，教皇西尔维斯特二世开始倡导使用阿拉伯数字。12世纪，介绍阿拉伯数字的书籍被翻译成拉丁文，传播到了整个欧洲地区。这也就开启了算术的腾飞。早在阿拉伯数字传播到欧洲之前，计数板的使用就已经改善了算术。计数板就是在光滑的托盘上放上代币来表示数量，人们通过移动代币到某个区域进行加减。但是，这种计数板有着严重的缺陷，即过大和过小的计算无法同时进行。最主要的缺陷还在于，这些计数板上的数字变化很快，不小心的碰撞或者是摆错一位都会导致完全错误的结果。而且，即便计数板勉强可以进行计算，它也不适合用来记录。因为一旦需要将数字记录在计数板以外的地方，就必须把计数板上的数字转化成罗马数字，这可就费时费力了。算术赋予了数据新的意义，因为它现在不但可以被记录还可以被分析和再利用。阿拉伯数字从12世纪开始在欧洲出现，而直到16世纪晚期才被广泛采用。到16世纪的时候，数学家们大肆鼓吹他们使用阿拉伯数字计算能比使用计数板快6倍。但最终让阿拉伯数字广为采用的还是复式记账法的出现，它也是数据化的一种工具。公元前3000年，会计手稿就出现了。但是，记账法在接下来的几百年里发展缓慢，基本上一直保持在记录某地的某个特定交易的阶段。记账人和他的雇主最关心的就是判断某个账户或者自己所从事的行业是否赚钱，而这正是当时的记账手法无法轻易做到的事情。到了14世纪，随着意大利的会计们开始使用两个账本记录交易明细，这种尴尬的境地开始发生改变。这种记账法的优势在于，人们只需要将借贷相加，就可进行制表并得知每个账户的盈亏情况。如此，数据骤然发声了，虽然仅限于读出盈亏情况。如今，复式记账法通常被看成是会计业和金融业不断发展的成果。事实上，在数据利用的推进过程中，它也是一个里程碑似的存在。它的出现实现了相关账户信息的“分门别类”记录。它建立在一系列记录数据的规则之上，也是最早的信息记录标准化的例子，使得会计们能够读懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记账线索，这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想，这也是今天的技术人才们应该学习的。如果一个账本看着不对劲，我们可以查询另一个相对应的账本。但是，和阿拉伯数字一样，复式记账法也没有立即取得成功。直到200年之后，一个数学家和一个商业家族才让它大受欢迎，他们也改变了数据化的历史。这个数学家就是方济各会的修士路萨·帕西奥利（luca pacioli）。1494年，他出版了一本为普通读者和商人所写的数学教材。这本书大获成功，成为盛行一时的数学教科书。这是第一本全书都使用阿拉伯数字的书籍，因此也促进了阿拉伯数字在欧洲的传播。当然，这本书最大的贡献在于它对复式记账法的详尽论述。接下来的几十年间，这个论述复式记账法的部分被分别译成了6种语言，并且成为几个世纪的通用范本。而所谓的一个商业家族，就是指美第齐家族——威尼斯商人和艺术资助人。16世纪，这个家族能成为欧洲最有影响力的银行家族，很大一部分要归功于他们使用的一种高级数据记录方法——复式记账法。帕西奥利的著作和美第齐家族的成功奠定了复式记账法成为标准数据记录法的基础，也奠定了阿拉伯数字在此之后不可取代的地位。伴随着数据记录的发展，人类探索世界的想法一直在膨胀，我们渴望能更精准地记录时间、距离、地点、体积和重量，等等。到了19世纪，随着科学家们发明了新工具来测量和记录电流、气压、温度、声频之类的自然科学现象，科学已经离不开定量化了。那是一个一切事物都需要被测量、划分和记录的时代，人们理解自然的热情甚至高涨到通过分析测量人的颅骨来试图分析人的心智能力。好在，对颅相学这类伪科学的热情最终淡去了，但是人类对于量化一切的热情却始终没有减退。新工具和开放的思维促进了测量事物和记录数据的繁荣，而现代数据化就诞生于这片沃土之中。数据化的基础已经奠定完好，只是在模拟时代这依然是费时费力的。有时候似乎需要无穷无尽的热情和耐心，或者说，起码也要有奉献一生的准备，比如16世纪的第谷·布拉赫（tycho brahe）就夜夜细心观察天体运动。数据化在模拟时代成功的例子并不多，因为这需要很好的运气——一大串的偶然巧妙地结合在一起。中校莫里就很幸运，他因伤坐进了办公室，但是却在那里发现了珍贵的航海日志，可不是每个人都能这么幸运的。然而，数据化的实现有一点必不可少，那就是要从潜在的数据中挖掘出巨大的价值，然后揭示出新的深刻洞见。计算机的出现带来了数字测量和存储设备，这样就大大提高了数据化的效率。计算机也使得通过数学分析挖掘出数据更大的价值变成了可能。简而言之，数字化带来了数据化，但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据，和数据化有本质的不同。世间万物的数据化只要一点想象，万千事物就能转化为数据形式，并一直带给我们惊喜。ibm获得的“触感技术先导”专利与东京的越水重臣教授对『臀』部的研究工作具有相同理念。知识产权律师称那是一块触感灵敏的地板，就像一个巨大的智能手机屏幕。其潜在的用途十分广泛。它能分辨出放置其上的物品。它的基本用途就是适时地开灯和开门。然而更重要的是，它能通过一个人的体重、站姿和走路方式确认他的身份。它还能知道某人在摔倒之后是否一直没有站起来。有了它，零售商可以知道商店的人流量。当地板数据化了的时候，它能滋生无穷无尽的用途。其实没有听上去那么荒谬。“自我量化”是一项由一群健身『迷』、医学疯子以及技术狂人发起的运动，通过测量身体的每一个部位和生活中的每一件事来让生活更美好——或者至少用量化的方式来获得新知。目前，自我量化运动规模还很小，但正在日益壮大。随着智能手机和计算机技术的普及，对个人最重要的生活行为进行数据处理从未如现在这般容易。许多创业公司通过测量人们夜间的脑电波来试图找出他们的睡眠模式。zeo公司则早已制作出了世界上最大的睡眠活动数据库，揭示了男『性』与女『性』睡眠时快速眼动量的差异。asthmapolis公司将一个感应器绑定到哮喘病人佩戴的呼吸器上，通过gps定位，再汇总收集起来的位置数据，可以判断环境因素（如接近特定的农作物）对哮喘的影响。fitbit和jawbone公司让人们测量他们的体力活动和睡眠。basis公司用腕带来监测佩戴者的生命体征，包括其心率和皮肤电传导率，以此测试他们所承受的压力。2009年，苹果公司就申请了一项专利，通过音频耳塞收集关于血『液』氧合、心率和体温的数据。获取数据正变得比以往任何时候都简单而不受限制。数据化能帮助我们获取到更多关于人体运作方式的信息。挪威耶维克大学的研究人员和derawi biometrics公司联合为智能手机开发了一款应用程序，可以分析人走路时的步伐并将其作为手机解锁的安全系统。同时，佐治亚理工学院的罗伯特·德拉诺（robert delano）和布莱恩·派尔思（brian parise）开发了一款叫做itrem的应用程序，用手机内置的测震仪监测人身体的颤动，以应对帕金森和其他神经系统疾病。这个程序给医生和病人都带来了好处；它让患者避免了在医院做昂贵的体检，也让医学专家们能远程监控人们的疾病以及治疗效果。据东京的调查人员说，用智能手机测量震动虽然没有三轴测震仪这种专门的医疗器械那么精确，但也只差了一点，所以完全可以放心使用。这再一次证明，一点点的不精确比完全精确更有效。在大多数情况下，我们会采集信息并将之存储为数据形式再加以利用。几乎所有领域，任何事情都能这样处理。greengoose是一家创业公司，他们销售能放置在物品上的微型运动感应器，用它监测物品的使用次数。比如把它放置在一捆牙线、一个酒水壶或者一盒猫食上，就能数据化牙齿清洁、植物护理以及宠物喂养的信息。很多人对“物联网”有着宗教般的狂热，试图在一切生活中的事物中都植入芯片、传感器和通信模块。这个词听起来好像和互联网亲如姐妹，其实不过是一种典型的数据化手段罢了。我们正在进行一个重大的基础设施项目，它在某种程度上与我们过去所做的都不一样，无论是罗马的水渠还是启蒙运动时期的百科全书。它如此的新颖，而我们又深处其中；同时，又因为它是无形的，不像水渠中能触『摸』到的水，所以我们并未意识到它的存在，这个它，就是无处不在的数据化。像其他的基础设施那样，它会给社会带来根本『性』的变革。水渠让城市的发展成为可能，印刷机推进了启蒙运动，报纸为民族国家的兴起奠定了基础。但这些基础设施都侧重于流动——关于水、关于知识。电话和互联网也是如此。相比较而言，数据化代表着人类认识的一个根本『性』转变。有了大数据的帮助，我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件，我们会意识到本质上世界是由信息构成的。整整一个多世纪以来，物理学家们一直宣称情况应该是这样的——并非原子而是信息才是一切的本源。不可否认，这也许听上去无法理解。然而通过数据化，在很多情况下我们就能全面采集和计算有形物质和无形物质的存在，并对其进行处理。将世界看作信息，看作可以理解的数据的海洋，为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。迟早有一天，数据化的影响会使水渠和报纸的影响微乎其微，同时，通过赋予人类数据化世间万物的工具，它也对印刷机和互联网的地位提出了挑战。可是目前，它最主要的用途还是在商业领域。大数据正被用来创造新型价值，这也是下一章的主题。第二部分大数据时代的商业变革 05 价值：“取之不尽，用之不竭”的数据创新给数据估值无论是向公众开放还是将其锁在公司的保险库中，数据的价值都难以衡量。来看看2012年5月18日星期五发生的事吧。这一天，28岁的facebook创始人马克·扎克伯格（mark zuckerberg）在位于美国加利福尼亚州门洛帕克市的公司总部，象征『性』地敲响了纳斯达克的开盘钟。这家宣称全球约每十人中就有一人是其用户的全球最大社交网络公司，开启了其作为上市公司的征程。和很多新科技股的第一个上市交易日一样，公司股价立即上涨了11%，翻倍增长甚至已经近在眼前。然而就在这一天，怪事发生了。facebook的股价开始下跌，期间纳斯达克的电脑因出现技术故障曾暂停交易，但仍然于事无补，情况甚至更加恶化。感到异常的股票承销商在摩根士丹利的带领下，不得不支撑股价，最终以略高于发行价收盘。上市的前一晚，银行对facebook的定价是每股38美元，总估值1040亿美元（也就是说，大约是波音公司、通用汽车和戴尔电脑的市值之和）。那么事实上facebook价值多少呢？在2011年供投资者评估公司的审核账目中，facebook公布的资产为66亿美元，包括计算机硬件、专利和其他实物价值。那么facebook公司数据库中存储的大量信息，其账面价值是多少呢？零。它根本没有被计入其中，尽管除了数据，facebook几乎一文不值。这令人匪夷所思。加特纳市场研究公司（gartner）的副总裁道格·莱尼（doug laney）研究了facebook在ipo前一段时间内的数据，估算出facebook在2009年至2011年间收集了2.1万亿条“获利信息”，比如用户的“喜好”、发布的信息和评论等。与其ipo估值相比，这意味着每条信息（将其视为一个离散数据点）都有约4美分的价值。也就是说，每一个facebook用户的价值约为100美元，因为他们是facebook所收集信息的提供者。那么，如何解释facebook根据会计准则计算出的价值（约63亿美元）和最初的市场估值（1040亿美元）之间会产生如此巨大的差距呢？目前还没有很好的方法能解释这一点。然而人们普遍开始认为，通过查看公司“账面价值”（大部分是有形资产的价值）来确定企业价值的方法，已经不能充分反映公司的真正价值。事实上，账面价值与“市场价值”（即公司被买断是在股票市场上所获的价值）之间的差距在这几十年中一直在不断地扩大。美国参议院甚至在2000年举行了关于将现行财务报告模式现代化的听证会。现行财务报告模式始于20世纪30年代，当时信息类的企业几乎不存在。现行财务报表模式与现状的差异不仅会影响公司的资产负债表，如果不能正确评估企业的价值，还可能会给企业带来经营风险和市场波动。公司账面价值和市场价值之间的差额被记为“无形资产”。20世纪80年代中期，无形资产在美国上市公司市值中约占40%，而在2002年，这一数字已经增长为75%。无形资产早期仅包含品牌、人才和战略这些应计入正规金融会计制度的非有形资产部分。但渐渐地，公司所持有和使用的数据也渐渐纳入了无形资产的范畴。最终，这意味着目前还找不到一个有效的方法来计算数据的价值。facebook开盘当天，其正规金融资产与其未记录的无形资产之间相差了近1000亿美元，差距几乎是20倍！太可笑了。但是，随着企业找到资产负债表上记录数据资产价值的方法，这样的差距有一天也必将消除。人们正在朝着这个方向前进。在美国最大的无线运营商之一工作的一位高级管理人员透『露』说，数据持有人在认识到数据的巨大价值之后会研究是否在正式的会计条款中将其作为企业的资产。但是，一旦公司的律师得知此事，便会加以阻止。因为把数据计入账面价值可能会使该公司承担法律责任，律师们并不认为这是一个好主意。同时，投资者也开始注意到数据的潜在价值。拥有数据或能够轻松收集数据的公司，其股价会上涨；而其他不太幸运的公司，就只能眼看着自己的市值缩水。因为这种状况，数据并不要求其价值正式显示在资产负债表中。尽管做起来有困难，市场和投资者还是会给这些无形资产估价，所以facebook的股价在最初的几个月中一直摇摆不定。但是随着会计窘境和责任问题得到缓解，几乎可以肯定数据的价值将显示在企业的资产负债上，成为一个新的资产类别。那么，如何给数据估值呢？诚然，计算价值不再是将其基本用途简单地加总。但是如果数据的大部分价值都是潜在的，需要从未知的二次利用提取，那么人们目前尚不清楚应该如何估算它。这个难度类似于在20世纪70年代布莱克-舒尔斯期权定价理论出现前金融衍生品的定价。它也类似于为专利估值，因为随着各种拍卖、交流、私人销售、许可和大量诉讼的出现，一个知识市场正在逐渐兴起。如果不出意外，给数据的潜在价值贴上价格标签会给金融部门带来无限商机。一个办法是从数据持有人在价值提取上所采取的不同策略入手，最常见的一种可能『性』就是将数据授权给第三方。在大数据时代，数据持有人倾向于从被提取的数据价值中抽取一定比例作为报酬支付，而不是敲定一个固定的数额。这有点类似于出版商从书籍、音乐或电影的获利中抽取一定比例，作为支付给作者和表演者的特许权使用费；也类似于生物技术行业的知识产权交易，许可人要求从基于他们技术成果的所有后续发明中抽取一定比例的技术使用费。这样一来，各方都会努力使数据再利用的价值达到最大。然而，由于被许可人可能无法提取数据全部的潜在价值，因此数据持有人可能还会同时向其他方授权使用其数据，两边下注以避免损失。因而，“数据滥交”可能会成为一种常态。一些试图给数据定价的市场如雨后春笋般出现。2008年在冰岛成立的datamarket向人们提供其他机构（如联合国、世界银行和欧盟统计局等）的免费数据集，靠倒卖商业供应商（如市场研究公司）的数据来获利。另一家新创办的公司infochimps，其总部设在得克萨斯州奥斯汀市，希望成为一个信息中间人，供第三方以免费或付费的方式共享他们的数据。就像易趣给人们提供了一个出售家中搁置不用的物品的平台一样，这些科技创业公司想为任何手中拥有数据的人提供一个出售数据的平台。例如，鼓励公司授权别人使用自己手中的数据，不然别人也可以从网上免费收集到这些数据。谷歌的前员工吉尔·埃尔巴兹（gil elbaz）创办的factual收集数据，然后制成数据库供需要者使用。微软也带着它的windows azure datamarket登上了历史舞台。它的目标是专注高质量的数据和监督所提供的产品，其方式和苹果公司监督其应用程序商店中的产品类似。微软假设，一位销售主管在准备excel表格时可能还需要做一份公司内部数据和来自经济顾问的gdp增长预测的交叉表，那么她只要点击想要购买的数据，后者将瞬间出现在她的电脑屏幕上。到目前为止，没有人知道估值模型将发挥出怎样的作用。但可以肯定的是，经济正在渐渐开始围绕数据形成，很多新玩家可以从中受益，而一些资深玩家则可能会找到令人惊讶的新生机。用硅谷技术专家和科技出版社员工蒂姆·奥莱利（tim o’reilly）的话来说就是，“数据是一个平台”，因为数据是新产品和新商业模式的基石。第二部分大数据时代的商业变革 06 角色定位：数据、技术与思维的三足鼎立大数据，决定企业竞争力大数据成为许多公司竞争力的来源，从而使整个行业结构都改变了。当然，每个公司的情况各有不同。大公司和小公司最有可能成为赢家，而大部分中等规模的公司则可能无法在这次行业调整中尝到甜头。虽然像亚马逊和谷歌一样的行业领头羊会一直保持领先地位，但是和工业时代不一样，它们的企业竞争力并不是体现在庞大的生产规模上。已经拥有的技术设备固然很重要，但那也不是它们的核心竞争力，毕竟如今已经能够快速而廉价地进行大量的数据存储和处理了。公司可以根据实际需要调整它们的计算机技术力量，这样就把固定投入变成了可变投入，同时也削弱了大公司的技术储备规模的优势。大规模向小数据时代的赢家以及那些线下大公司（如沃尔玛、联邦快递、宝洁公司、雀巢公司、波音公司）提出了挑战，后者必须意识到大数据的威力然后有策略地收集和使用数据。同时，科技创业公司和新兴产业中的老牌企业也准备收集大量的数据。在过去十年里，航空发动机制造商劳斯莱斯通过分析产品使用过程中收集到的数据，实现了商业模式的转型。坐落在英格兰德比郡的劳斯莱斯运营中心一直在监控者全球范围内超过3700架飞机的引擎运行情况，为的就是能在故障发生之前发现问题。数据帮助劳斯莱斯把简单的制造转变成了有附加价值的商业行为：劳斯莱斯出售发动机，同时通过按时计费的方式提供有偿监控服务（一旦出现问题，还进一步提供维修和更换服务）。如今，民用航空发动机部门大约70%的年收入都是来自其提供服务所赚得的费用。大数据也为小公司带来了机遇，用埃里克教授的话说就是，聪明而灵活的小公司能享受到非固有资产规模带来的好处。这也就是说，它们可能没有很多的固定资产但是存在感非常强，也可以低成本地传播它们的创新成果。重要的是，因为最好的大规模数据服务都是以创新思维为基础的，所以它们不一定需要大量的原始资本投入。数据可以授权但是不能被占有，数据分析能在云处理平台上快速而低成本地运行，而授权费用则应从数据带来的利益中抽取一小部分。大大小小的公司都能从大数据中获利，这个情况很有可能并不只是适用使用数据的公司，也适用于掌握数据的公司。大数据拥有者想尽办法想增加它们的数据存储量，因为这样能以极小的成本带来更大的利润。首先，它们已经具备了存储和处理数据的基础。其次，数据库的融合能带来特有的价值。最后，数据拥有者如果只需要从一人手中购得数据，那将更加省时省力。不过实际情况要远远复杂得多，可能还会有一群处在另一方的数据拥有者（个人）诞生。因为随着数据价值观的显现，很多人会想以数据拥有者的身份大展身手，他们收集的数据往往是和自身相关的，比如他们的购物习惯，观影习惯，也许还有医疗数据等。这使得消费者拥有了比以前更大的权利。消费者可以自行决定把这些数据中的多少授权给哪些公司。当然，不是每个人都只在乎把他的数据卖个高价，很多人愿意免费提供这些数据来换取更好的服务，比如想得到亚马逊更准确的图书推荐。但是对于很大一部分对数据敏感的消费者来说，营销和出售他们的个人信息就像写博客，发twitter信息和在维基百科搜索一样自然。然而，这一切的发生不只是消费者意识和喜好的转变所能促成的。现在，无论是消费者授权他们的信息还是公司从个人手中购得信息都还过于昂贵和复杂。这很可能会催生出一些中间商，它们从众多消费者手中购得信息，然后卖给公司。如果成本够低，而消费者又足够信任这样的中间商，那么个人数据市场就有可能诞生，这样个人就成功成为了数据拥有者。美国麻省理工学院媒体实验室的个人数据分析专家桑迪·彭特兰与人一起创办的id3公司已经在致力于让这种模式变为现实。只有当这些中间商诞生并开始运营，而数据使用者也开始使用这些数据的时候，消费者才能真正成为数据掌握者。如今，消费者在等待足够的设备和适当的数据中间商的出现，在这之前，他们希望自己披『露』的信息越少越好。总之，一旦条件成熟，消费者就能从真正意义上成为数据掌握者了。不过，大数据对中等规模的公司帮助并不大。波士顿咨询公司的资深技术和商业顾问菲利普·埃文斯（philip evans）说，超大型的公司占据了数据优势，比小公司更有规模。但是在大数据时代，一个公司没必要非要达到某种规模才能支付它的生产设备所需投入。大数据公司发现它们可以是一个灵活的小公司并且会很成功（或者会被大数据巨头并购）。大数据也会撼动国家竞争力。当制造业已经大幅转向发展中国家，而大家都争相发展创新行业的时候，工业化国家因为掌握了数据以及大数据技术，所以仍然在全球竞争中占有优势。不幸的是，这个优势很难持续。就像互联网和计算机技术一样，随着世界上的其他国家和地区都开始采用这些技术，西方世界在大数据技术上的领先地位将慢慢消失。对于发达国家的大公司来说，好消息就是大数据会加剧优胜劣汰。所以一旦一个公司掌握了大数据，它不但可能超过它的对手，还有可能遥遥领先。不过，就算有那么多好处，我们依然有担忧的理由。因为随着大数据能够越来越精细的预测世界的事情以及我们所处的位置，我们可能还没有准备好接受它对我们的隐私和决策过程带来的影响。我们的认知和制度都还不习惯这样一个数据充裕的时代，因为它们都建立在数据稀缺的基础之上。下一个章节，我们将探讨大数据所带来的不良影响。第三部分大数据时代的管理变革 07 风险：让数据主宰一切的隐忧我们的隐私被二次利用了我们倾向于从数字数据的增长和奥威尔写《1984》时所处“监视炼狱”的角度去理解大数据给个人隐私带来的威胁。但是事实上，不是所有的数据都包含了个人信息。其实，不管是传感器从炼油厂采集的数据、来自工厂的机器数据、机场的气象数据，还是沙井盖爆炸数据都不包含个人信息。英国石油公司和纽约爱迪生联合电力公司不需要（也不想要）个人信息，就能分析挖掘出他们所需要的数据价值。事实上，这方面的数据分析并不威胁个人隐私。当然，目前所采集的大部分数据都包含有个人信息，而且存在着各种各样的诱因，让我们想尽办法去采集更多、存储更久、利用更彻底，甚至有的数据表面上并不是个人数据，但是经由大数据处理之后就可以追溯到个人了。比方说，如今在美国和欧洲部署的一些智能电表每6秒钟采集一个实时读数，这样一天所得到的数据比过去传统电表收集到的所有数据还要多。因为每个电子设备通电时都会有自己独特的“负荷特征”，比如热水器不同于电脑，而它们与led大麻生长灯又不一样，所以能源使用情况就能暴『露』诸如一个人的日常习惯、医疗条件和非法行为这样的个人信息。（led大麻生长灯，是一种植物补光灯，也是植物生长灯的一种，依照植物生长需要太阳光的规律，代替阳光给植物提供更好的生长发育环境——编者注）然而，我们要探讨的主要是大数据是否改变了这种威胁的『性』质，而不是是否加剧了这种威胁。如果仅仅是加剧了这种威胁，那么我们现在采用的保护隐私的法律法规依然是有效的，我们只需要付出加倍的努力来确保有效『性』就可以。然而，倘若威胁的『性』质已经改变了，我们就需要寻求新的解决方案。不幸的是，我们的担忧一语中的。大数据的价值不再单纯来源于它的基本用途，而更多源于它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想：数据收集者必须告知个人，他们收集了哪些数据、作何用途，也必须在收集工作开始之前征得个人的同意。虽然这不是进行合法数据收集的唯一方式，“告知与许可”已经是世界各地执行隐私政策的共识『性』基础（虽然实际上很多的隐私声明都没有达到效果，但那是另一回事）。更重要的是，大数据时代，很多数据在收集的时候并无意用作其他用途，而最终却产生了很多创新『性』的用途。所以，公司无法告知个人尚未想到的用途，而个人亦无法同意这种尚是未知的用途。但是只要没有得到许可，任何包含个人信息的大数据分析都需要向个人征得同意。因此，如果谷歌要使用检索词预测流感的话，必须征得数亿用户的同意，这简直无法想象。就算没有技术障碍，又有哪个公司能负担得起这样的人力物力支出呢？同样，一开始的时候就要用户同意所有可能的用途，也是不可行的。因为这样一来，“告知与许可”就完全没有意义了。大数据时代，告知与许可这个经过了考验并且可信赖的基石，要么太狭隘，限制了大数据潜在价值的挖掘，要么就太空泛而无法真正地保护个人隐私。同时，想在大数据时代中用技术方法来保护隐私也是天方夜谭。如果所有人的信息本来都已经在数据库里，那么有意识地避免某些信息就是此地无银三百两。我们把谷歌街景作为一个例子来看，谷歌的图像采集车在很多国家采集了道路和房屋的图像（以及很多备受争议的数据）。但是，德国媒体和民众强烈地抗议了谷歌的行为，因为民众认为这些图片会帮助黑帮窃贼选择有利可图的目标。有的业主不希望他的房屋或花园出现在这些图片上，顶着巨大的压力，谷歌同意将他们的房屋或花园的影像模糊化。但是这种模糊化却起到了反作用，因为你可以在街景上看到这种有意识的模糊化，对盗贼来说，这又是一个此地无银三百两的例子。另一条技术途径在大部分情况下也不可行，那就是匿名化。匿名化指的是让所有能揭示个人情况的信息都不出现在数据集里，比方说名字、生日、住址、信用卡号或者社会保险号等。这样一来，这些数据就可以在被分析和共享的同时，不会威胁到任何人的隐私。在小数据时代这样确实可行，但是随着数据量和种类的增多，大数据促进了数据内容的交叉检验。2006年8月，美国在线（aol）公布了大量的旧搜索查询数据，本意是希望研究人员能够从中得出有趣的见解。这个数据库是由从3月1日到5月31日之间的65.7万用户的2000万搜索查询记录组成的，整个数据库进行过精心的匿名化——用户名称和地址等个人信息都使用特殊的数字符号进行了代替。这样，研究人员可以把同一个人的所有搜索查询记录联系在一起来分析，而并不包含任何个人信息。尽管如此，《纽约时报》还是在几天之内通过把“60岁的单身男『性』”、“有益健康的茶叶”、“利尔本的园丁”等搜索记录综合分析考虑后，发现数据库中的4417749号代表的是佐治亚州利尔本的一个62岁寡『妇』塞尔玛·阿诺德（thelma arnold）。当记者找到她家的时候，这个老人惊叹道：“天呐！我真没想到一直有人在监视我的私人生活。”这引起了公愤，最终美国在线的首席技术官和另外两名员工都被开除了。事隔仅仅两个月之后，也就是2006年10月，dvd租赁商奈飞公司做了一件差不多的事，就是宣布启动“netflix prize”算法竞赛。该公司公布了大约来自50万用户的一亿条租赁记录，并且公开悬赏100万美金，举办一个软件设计大赛来提高他们的电影推荐系统的准确度，胜利的条件是把准确度提高10%。同样，奈飞公司也对数据进行了精心的匿名化处理。然而还是被一个用户认出来了，一个化名“无名氏”的未出柜的同『性』恋母亲起诉了奈飞公司，她来自保守的美国中西部。通过把奈飞公司的数据与其他公共数据信息对比分析，得克萨斯大学的研究人员很快发现，匿名用户进行的收视率排名与互联网电影数据库（imdb）上实名用户所排的是匹配的。在美国在线的案例中，我们被我们所搜索的内容出卖了。而奈飞公司的情况则是因为不同来源数据的结合暴『露』了我们的身份。这两种情况的出现，都是因为公司没有意识到匿名化对大数据的无效『性』。而出现这种无效『性』则是由两个因素引起的，一是我们收集到的数据越来越多，二是我们会结合越来越多不同来源的数据。科罗拉多大学的法学教授保罗·欧姆（paul ohm），同时也是研究反匿名化危害的专家，认为针对大数据的反匿名化，现在还没有很好的办法。毕竟，只要有足够的数据，那么无论如何都做不到完全的匿名化。更糟的是，最近的研究表明，不只是传统数据容易受到反匿名化的影响，人们的社交关系图，也就是人们的相互联系也将同受其害。与25年之前的民主德国相比，现在我们所受的监控没有减少，反而变得越来越容易、严密以及低成本。采集个人数据的工具就隐藏在我们日常生活所必备的工具当中，比如网页和智能手机应用程序。我们知道大多数的汽车中都装了一个“黑盒子”——用来监测安全气囊激活的情况，而如今，一旦出现具有争议的交通案件，这个黑盒子所采集的数据就可以在法庭上充当证据。当然，如果企业采集数据只是来提高绩效，我们就不用像被stasi窃听那样而感到那么害怕。毕竟企业再强大，也不如国家强制力。不过，即使它们不具备国家强制力，想到各种各样的公司在我们不知情的情况下采集了我们日常生活方方面面的数据，并且进行了数据共享以及一些我们未知的运用，这还是很恐怖的。对大数据大加利用的不只是私营企业，『政府』也不甘落后。据《华盛顿邮报》2010年的研究表明，美国国家安全局每天拦截并存储的电子邮件、电话和其他通信记录多达17亿条。前美国安全局官员威廉·宾尼（william binney）估计『政府』采集的美国及他国公民的通信互动记录有20万亿次之多，其中包括谁和谁通过话、发过电子邮件、进行过电汇等信息。为了弄明白这所有的数据，美国建立了庞大的数据中心，其中美国国家安全局就耗资12亿美元在犹他州的威廉姆斯堡建立了一个。如今，不再只是负责反恐的秘密机关需要采集更多的数据，所有的『政府』部门都需要，所以，数据采集扩展到了金融交易、医疗记录和facebook状态更新等各个领域，数据量之巨可想而知。『政府』其实处理不了这么多数据，那为什么要费力采集呢？这是因为在大数据时代，监控的方式已经改变了。过去，调查员为了尽可能多地知道嫌疑人的信息，需要把鳄鱼夹夹到电话线上。当时最重要的是能深入调查某个人，而现在情况不一样了，比如谷歌和facebook的理念则是人就是社会关系、网上互动和内容搜索的加和。所以，为了全面调查一个人，调查员需要得到关于这个人的最广泛的信息，不仅是他们认识的人，还包括这些人又认识哪些人等。过去的技术条件没法做到这样的分析，但是今非昔比了。不过，虽然企业和『政府』拥有的这种采集个人信息的能力，让我们感到很困扰，但也还是没有大数据所引起的另一个新问题让我们更恐慌，那就是用预测来判断我们。挣脱大数据的困境大数据为监测我们的生活提供了便利，同时也让保护隐私的法律手段失去了应有的效力。面对大数据，保护隐私的核心技术不再适用了。同样，通过大数据的预测，对我们的未来想法而非实际行为采取惩罚措施，也让我们惶恐不安，因为这否认了自由意志并伤害了人类尊严。同时，那些尝到大数据益处的人，可能会把大数据运用到它不适用的领域，而且可能会过分膨胀对大数据分析结果的信赖。随着大数据预测的改进，我们会越来越想从大数据中掘金，最终导致一种盲目崇拜，毕竟它是如此的无所不能。这就是我们必须从麦克纳马拉的故事中引以为戒的。必须杜绝对数据的过分依赖，以防我们重蹈伊卡洛斯的覆辙。他就是因为过分相信自己的飞行技术，最终误用了数据而落入了海中。下一章，我们将探讨如何让数据为我们所用，而不让我们成为数据的奴隶。第三部分大数据时代的管理变革 08 掌控：责任与自由并举的信息管理一场管理规范的变革我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时，这些变革也会带动社会需要维护的核心价值观的转变。我们以印刷机的发明导致的信息洪流为例。1450年前后，古登堡发明了活字印刷机，在这之前，思想的传播受到了极大的限制。一方面，书籍大多被封禁在修道院的图书馆里，依照天主教精心制定的规定，被僧侣严格看守着，为的是确保并维护其统治地位。在教堂之外，少数几所大学也收藏了一些书籍，大概几百本的样子；15世纪初，剑桥大学图书馆大概有122本大部头。另一方面，读写水平欠缺也是当时信息传播受限的一个重要因素。古登堡的印刷机让书籍和手册的大量刊印成为可能。马丁·路德（martin luther）把拉丁语版本的《圣经》翻译成日常使用的德文，让越来越多的人可以不通过牧师而直接聆听上帝的声音，德语版的《圣经》是当时卖得最好的书，这也让他更确信《圣经》可以印刷、分发给成千上万的人。就这样，信息传播越来越广泛。这种巨变也使得创立新规范来管理活字印刷术所引发的信息爆炸的条件变得成熟。审查和许可条例被创立，用来规范和管理出版物。著作权法的制定为创作者带来了进行创作的法律和经济动力。随后，保护公民言论自由被写入了宪法。一如既往，权利伴随着责任产生了。当低俗的报纸践踏人们隐私权或诽谤其名誉时，法律规范就会出现以保护人们的隐私权并允许他们对文字诽谤提出上诉。可是，变革并不止于规范。这种管理规范上的改变也体现了当时更深层次的价值观转变。在古登堡时期，人类第一次意识到了文字的力量；最终，也意识到了信息广泛传播的重要『性』。几个世纪过去了，我们选择获取更多的信息而非更少，并且借助限制信息滥用的规范而不是最初的审查来防止其泛滥。随着世界开始迈向大数据时代，社会也将经历类似的地壳运动。在改变我们许多基本的生活和思考方式的同时，大数据早已在推动我们去重新考虑最基本的准则，包括怎样鼓励其增长以及遏制其潜在威胁。然而，不同于印刷革命，我们没有几个世纪的时间去慢慢适应，我们也许只有几年时间。大数据时代，对原有规范的修修补补已经满足不了需要，也不足以抑制大数据带来的风险——我们需要全新的制度规范，而不是修改原有规范的适用范围。想要保护个人隐私就需要个人数据处理器对其政策和行为承担更多的责任。同时，我们必须重新定义公正的概念，以确保人类的行为自由（也相应地为这些行为承担责任）。新机构和专家们需要设计复杂的程序对大数据进行解读，挖掘出其潜在的价值和结论。他们也要向那些可能受害于大数据结论的人——因之被剥夺了工作、接受医疗或贷款权利的人，提供支持。对已有的规范进行修修补补已经不够了，我们需要推陈出新。第三部分大数据时代的管理变革结语：正在发生的未来大数据时代，名副其实的“信息社会”大数据在实用层面的影响很广泛，解决了大量的日常问题。大数据更是利害攸关的，它将重塑我们的生活、工作和思维方式。在某些方面，我们面临着一个僵局，比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。我们脚下的地面正在移动。过去确定无疑的事情正在受到质疑。大数据需要人们重新讨论决策、命运和正义的『性』质。我们的世界观正受到相关『性』优势的挑战。拥有知识意味着掌握过去，现在则更意味着能够预测未来。当我们准备开发电子商务、寓生活于互联网、进入计算机时代或者拿起算盘时，这些事情比那些代表他们的问题更加重要。我们寻找原因的想法可能被高估了，很多情况下，弄清楚“是什么”比找寻“为什么”更加重要，因为前者表面事实才是我们生活和思维的基础。这些问题可能没有答案。或许，它们是关于人在宇宙中的位置以及能否在喧嚣混『乱』、不可理喻的世界中寻找到意义这一永恒争论的一部分。最终，大数据标志着“信息社会”终于名副其实。我们收集的所有数字信息现在都可以用新的方式加以利用。我们可以尝试新的事物并开启新的价值形式。但是，这需要一种新的思维方式，并将挑战我们的社会机构，甚至挑战我们的认同感。可以肯定的是，数据量将继续增长，处理这一切的能力也是如此。但是，现在大多数人都认为大数据是一个技术问题，应侧重于硬件或软件，而我们认为应当更多地考虑当数据说话时会发生什么。除了纠结于数据的准确『性』、正确『性』、纯洁度和严格度之外，我们也应该容许一些不精确的存在。数据不可能是完全对或完全错的。当数据的规模以数量级增加时，这些混『乱』也就算不上问题了。事实上，它甚至可以是有好处的，因为当我们只想使用一小部分时，无须捕捉这么多的知识细节。又因为我们可以用更快更便宜的方式找到数据的相关『性』，并且效果往往更好，而不必努力去寻找因果关系。当然在某些情况下，我们仍然需要精心策划的数据来做因果关系研究和控制实验，如测试『药』物的副作用或设计关键的飞机部件。但是在日常情况下，知道“是什么”就已经足够了，不必非要弄清楚“为什么”。大数据的相关『性』将人们指向了比探讨因果关系更有前景的领域。这些相关『性』能让我们节省机票钱和预测流感爆发，并知道在一个资源有限的世界中应该检查哪些沙井盖和过度拥挤的建筑物。它可以帮助健康保险公司不做体检就能决定保险覆盖面，并降低提醒病人服『药』的成本。通过大数据的相关『性』，语言可以得到翻译，汽车可以在预测的基础上自行驾驶。沃尔玛可以了解飓风前应在门店准备哪种口味的蛋挞。当然，如果能从中得到因果关系更好。问题是，因果关系往往更难找到，通常我们认为找到了的时候，都是在自欺欺人。我们之所以能做所有这些事，新工具只是个很小的因素，无论是更快的处理器、更多的存储器，还是更智能的软件和算法。这些固然重要，但是更为根本的原因是我们拥有了更多的数据，继而世界上更多的事物被数据化了。诚然，人类量化世界的雄心陷于计算机革命，但是数字工具将数据化提升到了新的高度。不仅移动电话能够跟踪到我们呼叫的人和我们所在的位置，而且同样的数据也能用于断定我们是否生病了。不久之后，它或许还能够辨别我们是否恋爱了。能置身于信息流中央并且能收集数据的公司通常会繁荣兴旺。有效利用大数据需要专业技术和丰富的想象力，即一个能够容纳大数据的心态，但价值的核心归功于数据本身。有时，重要的资产并不仅仅是能清楚看到的信息，更是从人们与信息交互中收集到的数据废气，聪明的公司可以用它来改善现有的服务，或推出全新的服务。大数据同时也给我们带来了巨大的风险。它使得目前用以保护隐私的法律手段和核心技术失去了效果。过去个人身份信息包含的名字、社会安全号码、税收记录等，其构成简单明了。因此隐私保护相对比较简单，只要确保不使用这些信息即可。而今天，即使是最无害的数据，只要被数据收集器采集到足够的量，也会暴『露』出个人身份。匿名化或者是单纯隐藏已不再适用。不仅如此，现在要是对某人进行监督，必定会侵犯到较之以往范围更广的个人隐私内容。因为『政府』在管理上不仅要求个人信息尽可能完善，还记录了其所有的社会关系、交往和交流信息。无论大数据如何威胁到隐私保护，最让人们头疼的都是行为倾向问题。大数据预测的准确『性』越来越高，它能预测行为的发生，在人们犯错之前，提前惩处。因为预测的结果几乎不可反驳，人们也就无法为自己开脱。但这种基于预测得出的惩罚不仅违背自由意志的原则，同时也否定了人们会突然改变选择的可能『性』（无论可能『性』有多小）。当我们给一个人判定责任（并给予惩罚）时，必须牢记人类意志的神圣不可侵犯『性』。人类的未来必须保留部分空间，允许我们按照自己的愿望进行塑造。否则，大数据将会扭曲人类最本质的东西，即理『性』思维和自由选择。应对大数据的汹涌来袭，我们没有万无一失的方法，必须建立规范自身的新准则。随着社会越来越熟悉大数据的特征和缺陷，我们可以改变一系列的惯『性』来帮助社会应对这种冲击。我们需要把进行隐私保护的责任从个人转移到数据使用者身上，也就是说，数据使用者应该以负责任的态度使用数据。在一个预测的时代里，人类的自由意志神圣而不可侵犯，这一点不可轻视。我们不仅需要承认个人进行道德选择的能力，还要强调个人应为自我行为承担责任。社会则必须采取新的保护措施：接受一种新的职业人，也就是数据算法师，对大数据进行深度分析。如此，因为大数据而变得可预测的世界，才不会陷入一个用一种未知取代另一种未知的困境中，不会变成一个黑匣子。大数据将成为理解和解决当今许多紧迫的全球问题所不可或缺的重要工具。例如要应对气候变化问题时，需要对污染相关数据进行分析，得出最佳方案，来指导努力方向，找出缓解问题的方法。全球范围内遍布的大量传感设备，包括智能手机内部的传感器，使我们能够以更高的细节水平模拟环境。而世界贫困人口迫切需要提高医疗保健服务，降低医疗费用，这很大程度上可以靠自动化来实现。当下许多似乎需要人类判断才能进行的事情，其实完全可以交由电脑来做，比如癌细胞活检、传染病爆发前期的模拟预测等。大数据也被用于发展经济和理解如何预防冲突。基于手机动向数据显示，非洲许多贫民窟地区经济活动十分活跃。大数据还揭示了最可能引发种族关系紧张的社区以及解决难民危机的方式。只有当科技应用至生活的方方面面时，大数据的适用范围才能进一步扩大。大数据能帮助我们更好地进行已有的工作，并处理全新的事务。但它绝不是魔术棒，不会带来世界和平，无法根绝贫穷问题，更不能创造出另一个毕加索。大数据不能造婴儿，虽然它确实可以救助早产儿。不要多久，我们将在生活的各个方面使用到大数据，如果不用的话还可能会引起些许焦虑，这种情况就像普通体检查不出问题时，会希望有医生帮我们预约x光进行检查。当大数据成为日常生活的一部分后，它将会极大地改变我们对未来的看法。大约五百年前，欧洲在逐渐发展为更加自由、科学、文明的世界的进程中，欧洲人经历了对时间认知的重大转变。在此之前，时间被认为是循环的，生命也是轮转的。每天或每年与过去的日子如出一辙，甚至连生命的终结也与起点相似，因为濒死的成人会显示出孩子的特征。认知转变后，时间变作线『性』的，成了一条岁月演变过程，过程中世界因人变化，生命的轨迹也受到相应的影响。如果说这以前的历史中，过去、当下、未来的概念是完全交织在一起的，那么通过塑造当下，人类现在便有了过去可以回顾，有了未来可以展望。虽然我们可以塑造当下，但未来却从过去的“完全可预测”转变为一块开放又原始、广阔而空白的帆布，所有人都可以在上面依据自己的价值，努力裁剪塑形。“现代”的一个定义『性』特征便是人类感到自己是命运的主人，这使我们与生活在宿命论桎梏中的先辈们截然不同。但是大数据预测却又使我们的生命帆布不再那么开放、原始和纯净。对于善于运用科技解读未来的人来说，我们的未来不再是只字未书的画布，而是似乎已经着上了淡淡的墨痕。未来的可预知『性』似乎缩小了塑造命运的空间。潜在的可能『性』在概念的圣坛上被解剖。与此同时，大数据又意味着我们将永远受困于过去的行为，这些行为在预知我们下一步的预测过程中与我们作对，即我们永远无法逃避已发生的事。莎士比亚曾写道：“凡是过去，皆为序曲。”大数据通过运算将这句话铭刻，无论结果好坏——无论这句话是否会浇熄我们迎接下一个日出的热情，是否会打击我们留名于世的渴望。其实，事实很多可能是相反的。知道行为在未来如何谢幕，我们便可以采取补救措施，避免问题发生并改善结局。我们能在期末考试之前早早发现有退步趋势的学生。我们能检测出微小的癌变，赶在疾病完全爆发前根治。我们能看到青春期意外妊娠的可能『性』，或是预测到某种犯罪生涯，然后尽力干预，避免出现可能的悲剧结局。例如拥挤的纽约住宅着火的时候，如果能事先知道并从几间最可能是火源的公寓着手，将会免除一场致命的火灾。没有什么是上天注定的，因为我们总能就手中的信息制定出相应的对策。大数据预测结果也并非铁定，而只是提供了一种可能『性』，也就是说，只要我们愿意，结局可以改写。我们可以判断出迎接未来的最佳方式，摇身变作未来的主人，正如莫里在海与风的广阔世界中乘风破浪一般。在过程中我们无须理解宇宙的奥秘或是去证明神的存在，因为大数据已经帮我们做好了。