数据与故事
本报评论员:徐卓菁
徐卓菁 这仅仅是大数据时代的一个小故事。我们的身后都拖着一条数字信息组成的长长的尾巴——IDC最新的数字宇宙研究预计,到2020年,世界的数据存储总额将达到35ZB,1ZB等于一万亿GB字节——我们的生活已经变成了一堆数字,但大部分人对互联网的认知仍处于初级阶段。 年初,腾讯推出“QQ圈子”使用体验,“圈子”能智能识别用户每位好友及潜在好友的真实姓名,并根据社交关系进行智能分组,热情地为用户实名推荐好友。“圈子”功能引起多数用户的反感乃至恐慌。这种恐慌多半缘于隐私问题。即使是那些自认为没有隐私可瞒的用户,仍然觉得背后冷汗直冒。他们不理解,腾讯是如何做到这样精准地了解用户身份的,是否调用了聊天记录等隐私资料?虽然,在法律意识以及对人们心理、情感的认知方面显得很幼稚,但腾讯无疑成功地炫耀了一把庞大的用户数据库和后台算法。 “圈子”背后是强大的数据挖掘。QQ把服务器里的二度好友关系、群成员关系、朋友网、班级校友关系、微博听众关系等等关系链资源整合到一起,完整勾勒出用户的社交圈,数据量越大,结果越精准。 数据是什么?使用手机、点击网页、切换电视频道、开车穿过自动收费站、用借记卡或信用卡购物……我们每时每刻都制造数据,但我们不会意识到雅虎、Google正在捕获它们,不会意识到一群新兴的数学精英正千方百计以惊人的准确度剖析它们。这群如狼似虎的数据恐怖分子可以洞悉我们的每个举动,预测我们的行动计划,他们神不知鬼不觉地将我们买了什么、对什么感兴趣、与谁坠入爱河尽收眼底。对大数据投入关注的人的确存在于金字塔顶端。 我们对数据的重视足够吗?涂子沛在新书《大数据》的“尾声”里写道:“中国人数据意识的淡薄,由来已久,甚至可以称之为国民性的一部分。”他引用了黄仁宇的论点:在中国传统的学问——理学或道学当中,一直都分不清伦理之“理”与物理之“理”的区别。这两个“理”混沌不分的结果,是中国人倾向于粗略的主观定性、排斥精确的客观定量,从而养成了重形象、重概括、轻逻辑、轻数据的文化习惯。这种文化习惯,使中国人长期沉浸在含蓄、模糊的审美意识当中,凡事只能在美术化的角度来印证,满足于基于相似的“模糊联想”,止步于用逻辑来分析、用数据来证明,最终将表象上的相似,当作本质上的相同。 也许“圈子”事件可以是进行普世教育的一个机会,让我们从最切身的体会出发,领教“数据”的威力;社交是可以计算的(Social Computing),情感是可以计算的(Affective Computing)。《大数据》以美国为主体,为试图进一步认识大数据究竟有多大、这一世界大潮的来龙去脉为何的普通中国人提供了很好的梳理和参照。 就算不是说故事的高手,涂子沛至少也是个故事数据库。《大数据》吸引人的地方,是其中鲜活有趣的故事。不妨把它们分为两类。 一类是硬故事,政府面对大数据做出的应对首当其冲。数据技术变革推动政府信息公开、公共财政透明以及其中的曲折;《数据质量法》背后的隐情;全民医改法案的波澜;统一身份证的百年纠结;美国矿难的悲情记忆,《大数据》讲述了美国半个多世纪信息开放、技术创新的历史(从这点来看,它更像一本社会学而非科技类的书)。 “我们信上帝。除了上帝,任何人都必须用数据来说话。”这句话写在故事的开端。后半句把数据提到了和上帝相提并论的高度。可以想象,随着大数据时代的不断深入,美国人对于上帝的态度可能会越来越纠结;而对数据将会越来越“迷信”。这种“迷信”对联邦政府而言,已经不仅仅停留在“用数据来说话”的层次上了。随着大数据的迅猛增加,各个政府部门都在尝试“用数据来决策”、“用数据来管理”、“用数据来创新”。涂子沛喜欢用奥巴马的故事。他说:“我认为奥巴马是了不起的总统。奥巴马当时去Google拜票,就表示要设立国家的首席信息官。到了2010年,他还率先设置了首席数据官。奥巴马在签署的首份总统备忘案是《透明和开放的政府》,强调建立一个开放透明、公民参与、多方合作的政府。第二份备忘案则是《信息自由法》。这是一场数据民主化的运动,奥巴马政府正在把信息的力量放到美国人民的手中。” Data.gov(www.data.gov)是书中提到的一个十分有趣的例子。美国政府搞的这个网站汇集了各种学科、不同政府部门的有关数值数据,供人们开放检索、下载,从美国的海外贷款和赠款数据、医疗保险数据、美国能源部和国家核安全局的数据,到食品原料数据、性别和种族人员趋势、农贸市场地理数据,还有现役军人的婚姻状况,甚至改良种用濒危野马种类、重量在10公斤以下的野猪种类等等令人意想不到的数据信息。涂子沛说:“由政府主导、向全社会开放政府拥有的公共数据,这种做法本身就是一种创新。”与此同时,美国政府在数据公开过程面临的威胁与困难,或许也能让我们看到一些借鉴意义。 涂子沛从太平洋对面看到中美两国的差距,深知这里缺少什么、需要什么。他将十多年观察、思索所得,淘洗成这一本书。美国是全书主体,但又处处反观中国当下的现实。涂子沛说:“虽然一谈到透明和公开,大多数人都会认可这是正确的价值观,但一旦要自己透明、要自己公开,那公开和透明就会立刻转化为一种威胁,政府也不例外。近几年,世界各国政府的信息公开工作有了新的基点和态势。政府信息的公开工作,定位新的G点。” 除了硬故事,《大数据》中还有软故事,或者说公民故事。这些故事立足普通人、某一群体、某些生活细节——那些企业背后的数学家们正通过数据和模型来剖析和监测人们的举动,老百姓如何见招拆招;极端的数字信徒怎样尝试将自己的一切信息数据化;隐私保护主义者又如何与Facebook对抗……这部分故事更加平易近人。这也是《大数据》提供的一个窗口,让“中国人对数据有一个更人性化、人文化的认识角度。 《大数据》中,涂子沛强调一个观点:数据时代是大众创新的时代,越来越多的平民英雄将呼之欲出。“每一个人的心里,都有理想主义的火花,它可以被燃成火焰,进而迸发出非凡的能量和结果。”无论是推动《信息自由法》或者“知情权”的第一人,还是创造“CompStat”系统的巡警梅普尔——1994年,纽约市的警察部门启用了一个新的治安信息管理系统“CompStat”(计算机统计),这成了20世纪美国警务管理工作当中最为浓墨重彩的一笔。巡警杰克·梅普尔(Jack Maple)在时代广场做过便衣,在中央车站指挥过拦截和抓捕。这位高中毕业生开始研究地铁抢劫案的发生规律。他在办公室的墙上挂上了几百幅地图,用不同颜色的大头针来跟踪地铁抢劫案发生的时间和地点。无数个夜晚,他就这样点着香烟站在巨大的地图面前,揣度琢磨第二天可能发生抢劫的时间和地点。这面“地图墙”(他本人称之为“预测未来的图表”)就是CompStat最初的数据分析模型。 平民英雄的伟大之处在于他们以自己的行动唤起对人性本位的回归,重构着时代的道德图景。“数据不会被它所激发的思想和创新消耗,相反,它可以为创新提供无穷的燃料。一小片合适的信息,可以促使创新迈进一大步。一组数据,可能会得到数据收集人难以想象的应用,也可能会在另一个看起来毫不相关的领域得到应用,因为这些创新型的应用,数据的能量将层层放大。”大数据时代的平民英雄,他们和“油条哥”倒掉复炸油、坚持用新油炸出“良心油条”的举动在本质上并无太大区别,只不过是用了更高科技的形式,用数据搭建平台。 涂子沛说:“就像Data.gov,它不仅仅是一个创新的结果,它的出现,代表着数据在社会的自由流动、知识向大众的自由流动,这为更多的大众创新、社会创新提供了一个平台。”就在Data.gov上线的同一天,阳光基金会宣布设立25000美元的奖金,举办程序员公共数据开发大赛(App for America)。参赛作品必须使用Data.gov开放的公共数据。数据混搭器(Data-masher.org)拔得头筹。它的最终呈现结果不仅仅是一个应用程序,还是一个平台:任何一个用户都可以在它上面选择需要整合对比的公共数据组,然后产生以地图为基础的数据可视化分析。从一个地区空气质量与工厂数量多少的关系,到高中升学率与师资力量的关系,再到肥胖人员的数量与一个地区快餐店多少的关系,林林总总的对比和展示,有些给人直接的启示,有些发人思考,还有的令人忍俊不禁,但笑过之后又不禁感叹:社会大众蕴藏的智慧和创造力无穷无尽。 大数据创造平民英雄。那么之后呢?我们期待英雄能帮助我们创造更好的生活。一旦认识到数据的威力以及背后的逻辑,人们就会认识到维护自身利益的重要性,找到发声的欲望和可以发声的地界,在某种程度上这是公民意识的树立,这种意识推动了数据治国、数据管理、知情权、隐私权等等的进步与发展。 美国是《大数据》的主体,但涂子沛努力尝试在写作过程中不断对照中国。《大数据》中的所有故事,无论主角是谁,中心思想指向的都是:数据与你相关,无论身处美国还是中国;无论是处于信息发展的哪个阶段。 在采访的最后,他说:“我是带着乡愁写这本书的。”说这句话的时候,他有点激动。
|