文/ 吴甘沙

 

2012年被称作中国的大数据元年,有两本书功不可没。前有涂子沛的《大数据》(从美国政府的数据信仰、政策和实践娓娓道来,让中国政坛和知识精英接受了一次思维洗礼),后有舍恩伯格的《大数据时代》(此书是系统论述大数据理念的奠基之作)。如果说前者着力于启蒙——大数据可以做什么,那么后者则注重解惑——大数据该怎么做。

大数据的引爆点在2011年,对大数据的认知也随即经历了一个拨云见雾的过程,先是体量(Volume)大,到类型杂(Variety),再到数据产生、消费以至洞察力生成的快速化(Velocity),最后是数据的大意义和大价值(Value)。一时间,所有媒体和专著都大谈4个V;在Gartner的Hype Cycle上,大数据强势进入了“过热期(Inflated Expectation)”。这时候,舍恩伯格开始冷静地思考大数据在深层次的变革力量:它究竟将以何种力量来改变我们的思维方式、商业创新和管理实践?在书中,他运用一个思想家的宏大视野,给出了答案。 “形而上者谓之道”,思想的觉悟是为明道。作为程序员,无法回避“形而下”的“器”或“术”,大数据时代需要程序员有什么样的视野、素养和技术?我想借本文谈四个方面:世界观、方法论、数据管控和商业模式。 大数据开启的新世界,需要我们改变原有的世界观。首先要改变“数据是稀缺资源”的认识,这种认识直接导致“数据小农”心态。数据小农拣着测、挑着存、采着样来处理,总是幻想能从最少的数据压榨出最多的信息。书中高声疾呼:要数据全集,不要采样。这不仅需要数据 处理思维的范式切换,更需要呼唤数据意识的觉醒:每一个个体、企业和政府,请自觉、客观、全面地去测量世界。微信把监控数据的采集纳入基础框架,监控项目细化再细化,由工具取代人为决定布置监控点正是深谙此道。 另一个重要改变是数据的重新定位。数据曾经是累赘,测量需要人力物力,传输和存储费钱费力,数据一处理完或保存期结束就立即扔掉。而大数据经济把数据当作基本生产要素,数据是原材料,更是资产,数据里提炼出来的信息、知识和智慧能够产生巨大的价值。像书中所揭示的,数据废气(Data Exhaust)可以化废为宝,数据不是用完就是被舍弃,它的再 利用价值也许你现在不清楚,但在未来的某一刻,它会迸发出来。例如物流公司的数据原来只服务于运营需要(例如内部车队的优化调度),但一经再利用,物流公司就华丽转身为金融公司,数据用以评估客户的信用,提供无抵押贷款,或者拿运送途中的货品作为抵押提供贷款;物流公司甚至可以转变为金融信息服务公司来判断各个细分经济领域的运行和走势。更重要的是,数据无论是作为原材料,还是作为衍生产品(信息、知识和智慧),都具有交易价值,让数据孤岛或烟囱里“腐烂”的数据流动起来,是产生再利用价值的最好办法,也是数据生态系统成长的前提。阿里巴巴数据交换平台以自己长期积累的数据资产作为“诱饵”,来吸引数据的汇聚,已经走出了第一步。 世界观决定了方法论。除了改变了思维方式,还需要方法论的升级,这也是工程师最关心的“形而下”。书中深入阐发了两个既有观点。一个是彼得·诺维格的“大数据基础上的简单算法优于小数据的复杂算法”,在强化数据全集概念的同时,进一步强调多源、混杂数据对最终精确性的贡献。另一个观点是克里斯·安德森的“大数据意味着理论的终结”,理论的归纳推演所代表的因果关系,被数据中内生的关联关系所取代;从执着于用“快思考”回答“为什么”到不设前提去挖掘各种“是什么”,价值发现一定会无限趋近于数据所有内生价值之和。这些观点对信息融合和数据分析方法学的发展无疑具有指导意义。对于工程师来说,关联分析早已是数据挖掘的一部分,那么,大数据前提下新的挑战是什么?当然,因果关系并非彻底无用,只是它耗时耗力,书中表达了“非不愿也,实不能也”的无奈。从学术层面看,回答“为什么”是人类理解世界运行的原动力,也是数据分析的应有之意,这势必将成为大数据的下一个重要的研究课题。 对于大数据的属性,舍恩伯格花了很多笔墨讲述全集和(不)精确性,而在实时性上较少论及(虽然提到了数据的折旧速率)。智能零售的数据分析需要多源分析来保证个性化推荐的精确性,更需要实时性(影响顾客决策的最佳时机是在其浏览、把玩商品的时候)。书中反复阐述数据的选择价值,而数据在属性上的多样性也彰显出架构的选择价值。大数据的大体量、精确性和实时性三者只能得其二:Hadoop不是万金油,它可以兼顾大数据量和精确性,但不能保证实时性;Storm可以保证实时性和小数据窗口的精确性,却不能处理数据全集;针对只读历史数据的Dremel和基于多维、多分辨率采样的BlinkDB,可以在海量数据上实现准实时的查询,但必须损失一定的精确性。这凸显了架构师在设计大数据架构时定位和取舍的重要性。 数据管控是舍恩伯格最擅长的,在书中他花了近1/3的篇幅讲述大数据的管理变革。结合我在数据安全上的认识,目前亟需解决的是数据拥有权、隐私权和使用知情权。除了隐私权,另外两个概念都比较新。数据拥有权强调数据生产主体对数据的拥有权利,影视产品的版权就是一种数据拥有权。随着个人、企业和政府更深地融入数据经济,数据拥有权成为了覆盖人类生活和工作的每一个角落的基本权利,必须像其他私有财产一样受到保护。我们的数字足迹、每一条微博、手机时时刻刻的信号和位置,都可能产生价值,都可以主张拥有权。国外沸沸扬扬的数据遗产争端,正是这一问题的体现。使用知情权是对拥有权的保障。如果拥有者可以随时随地了解自己有几分拷贝数据、这些数据在哪里、谁在使用、产生了多少价值、作为拥有者自己能分到多少价值,无疑将革命性地推动数据交易和价值发现。法律法规将对这些权利进行界定,对权利如何许可、使用、告知进行规定,但诚如书中所言,大数据时代对多如牛毛的数据进行告知和许可无疑是不具备可操作性的。法律法规不能解决的必须通过技术去解决,这是工程师的机会。书中创造了一个新名词:“大数据程序员”。相比传统程序员,大数据程序员是技术、政策和管理的跨界人才。 最后就是商业模式。数据的体量、速度、混杂性,这三个V只是定义了大数据,但能让大数据可持续发展的却是最后一个V:价值。搞清楚价值在哪里,有助于工程师去关心最重要的问题,甚至在“技而优则商”时少走弯路。数据具有原生价值和衍生价值。前者来自数据的采集和服务,后者源自分析。在这个“满地皆沙,满地皆金”的时代,有心者可以对数据进行采集、收集、清洗、可视化和发布,做数据交易市场,实现数据民主化和数据的反复利用。这里涉及到数据定价的问题,也需要保障拥有权、隐私权和使用知情权。 较之原生价值,数据分析产生的衍生价值往往更大。数据科学家是这一领域的弄潮儿,预计在2018年,光美国的人才缺口就达到14万到19万,因此程序员迫切需要升级知识结构以迎接这一机遇。随着数据分析的社会化趋势愈加明朗,数据交易市场中买卖数据的同时,也允许数据分析服务商与数据拥有者/使用者之间交易分析能力。书中提到的ReCaptcha甚至利用了大众的认知盈余来实现对数据的社会化分析。数据民主化和分析社会化,以及数据采集(物联网)和计算(云计算)基础设施的普及,整个大数据产业也将进入草根创新的狂欢(就像移动互联网和应用商店给程序员带来的巨大机遇)。从事大数据产业的轻公司将无处不在。Prismatic只有4名员工,凭借互联网数据爬虫和社交网络开发平台的数据,依托Amazon的云计算平台,实现了大数据的精益创业。 大数据不会是一个独立的生态系统和产业。它必定与其他产业交融,展现出“大数据为体、云计算为术、移动互联网和物联网为用”的局面。对于程序员而言,必须改变“数据是稀缺资源”的认识,形成自觉、客观、全面的数字化和数量化世界的实践。基于数据极大丰富的前提发展新的分析思维和技术,在保障数据拥有权、隐私权和使用知情权的同时,推动数据资产、数据产品和社会化分析服务的交易,从而分享数据货币化的成果。以上是一个程序员读《大数据时代》的感悟。 本文选自《程序员》杂志2013年2期,未经允许不得转载。如需转载请联系 market@csdn.net 《程序员》2013年杂志订阅送好礼活动火热进行中
Logo

20年前,《新程序员》创刊时,我们的心愿是全面关注程序员成长,中国将拥有新一代世界级的程序员。20年后的今天,我们有了新的使命:助力中国IT技术人成长,成就一亿技术人!

更多推荐