大数据:正在到来的数据革命
发布日期:2013-09-13   作者:北京影响力西安分公司   浏览次数:2060
【尾声】挑战中国:摘下“差不多先生”的文化标签 涂子沛
  “而最大的毛病,则是西欧和日本都已以商业组织的精神一切按实情主持国政的时候,中国仍然是亿万军民不能在数目字上管理。……一旦某一个国家能在数目字上管理,到底使用何种数字,尚可以随时商酌,大体上以技术上的要求作主,不必笼统的以意识形态为依归了。”
  ——黄仁宇(1918—2000),美籍华裔历史学家,1991年
  在论述完大数据时代的趋势以及这个时代给个人、企业和社会带来的诸多挑战之后,本书应该可以画上句号了。但在结束之前,作为一名中国人,还是按捺不住,要絮叨几句我们中国在这个大时代当中所处的位置。
  数据表明,今天的中国,是一个人口大国、互联网大国、手机大国,但却恰恰还不是一个数据大国。2011年,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界大数据的分布作了一个研究和统计,中国2010年新增的数据量约为250拍,不及日本的400拍、欧洲的2000拍,和美国的3500拍相比,更是连十分之一都不到。
  和美国相比,中国拥有数据量的绝对值较小,这在情理当中。本书第三章曾谈到,美国的联邦政府,是一个数据帝国,它的数据主要有三个来源,一是业务管理的数据,二是民意社情的数据,三是物理环境的数据。这三种数据的积累,并
不是一蹴而就的,在其漫长的发展过程中,有其重要的里程碑,例如1940年罗斯福引进的民意调查、1962年启动的海浪监测计划和1973年诞生的最小数据集。
  而中国类似进步的取得,都是进入21世纪之后才发生的事情。2003年,中国开始着手制定医疗系统的最小数据集,3年之后,中国卫生部出台了第一版中国医院最小数据集的标准。也是在2003年,中国创立了第一个全国性的大型社会调查项目,开始对社会的发展和变迁进行全方位、综合性、纵贯性的问卷访谈调查。这个调查叫做“中国综合社会调查”,是由中国人民大学发起的,中国人民大学随后还按照国际标准成立了“中国社会调查开放数据库”,向全社会开放调查的结果和数据。2006年9月,在几经周折之后,国家统计局正式成立了社情民意调查中心,这是中央政府第一个、也是目前唯一一个
专司社情民意调查的单位;至于对物理环境数据的采集,更是2010年前后才见到若干零星的报道。
  因此,从历史发展的角度来看,中国拥有的数据量较小,可以理解;但另一方面,立足现实,中国的人口、互联网的用户、手机的持有量都位居全世界第一,2010年全年新增的数据量却尚不及美国的十分之一,也大大出人意料。
  2011年,中国拥有4.8亿的互联网用户,几乎是美国的两倍;拥有近9亿部手机,是美国的3倍。互联网和手机,都是产生数据的重要来源。在中国,存储器的价格也已经和国际接轨、相对便宜。在认真考察了这些因素之后,就不难发现,中国缺乏的不是可供收集的数据,也不是收集数据的手段,而是收集数据的意识。
  中国人数据意识的淡薄,由来已久,甚至可以称之为国民性的一部分。
  19世纪中叶,中国的大门被西方的坚船利炮打开。由于科学落后、文化封闭,此后的百多年来,中国人饱受屈辱。在落后、挨打的痛苦挣扎中,中国人开始慢慢睁眼看世界,反省自己与西方的差距,在这个过程当中,也有思想先贤对国民“数据意识”方面的问题进行反省、批判和鞭笞。
  中国近现代著名的思想家胡适就对中国人“凡事差不多、凡事只讲大致如此”的习惯和作风深感忧虑。1919年,他写下著名的《差不多先生传》,活灵活现地白描了中国人取道中庸、不肯认真、甘于糊涂、拒绝精准的庸碌形象:
  你知道中国最有名的人是谁?
  提起此人,人人皆晓,处处闻名。他姓差,名不多,是各省各县各村人氏。你一定见过他,一定听过别人谈起他。差不多先生的名字天天挂在大家的口头,因为他是中国全国人的代表。
  差不多先生的相貌和你和我都差不多。他有一双眼睛,但看的不很清楚;有两只耳朵,但听的不很分明;有鼻子和嘴,但他对于气味和口味都不很讲究。他的脑子也不小,但他的记性却不很精明,他的思想也不很细密。
  他常常说:“凡事只要差不多,就好了。何必太精明呢?”
  ……
  后来他在一个钱铺里做伙计;他也会写,也会算,只是总不会精细。十字常常写成千字,千字常常写成十字。掌柜的生气了,常常骂他。他只是笑嘻嘻地赔小心道:“千字比十字只多一小撇,不是差不多吗?”
  有一天,他为了一件要紧的事,要搭火车到上海去。他从从容容地走到火车站,迟了两分钟,火车已开走了。他白瞪着眼,望着远远的火车上的煤烟,摇摇头道:“只好明天再走了,今天走同明天走,也还差不多。可是火车公司未免太认真了。八点三十分开,同八点三十二分开,不是差不多吗?”他一面说,一面慢慢地走回家,心里总不明白为什么火车不肯等他两分钟。
  ……
  他死后,大家都很称赞差不多先生样样事情看得破,想得通;大家都说他一生不肯认真,不肯算账,不肯计较,真是一位有德行的人。于是大家给他取个死后的法号,叫他做圆通大师。
  他的名誉越传越远,越久越大。无数无数的人都学他的榜样。于是人人都成了一个差不多先生。——然而中国从此就成为一个懒人国了。
  黄仁宇,是著名的华人历史学家,他参加过抗日战争,后来在美国学习、研究、深造,成为学贯中西的一代大家。他在晚年时发表了一系列的著作探讨中西方社会的异同。他认为:
  “资本主义社会,是一种现代化的社会,它能够将整个的社会以数目字
管理(MathematicallyManagement)。”
  数目字管理,即以事实为基础、以数据为核心的精确管理。
  黄仁宇总结说:“中国过去百多年来的动乱,并不是所谓道德不良,人心不古,也不是全部军人专横,政客捣乱,人民流离”,而是因为中国未能像西方那样实行“数目字管理”的现代治国手段。他还认为:“一旦某个国家能在数目字上管理,到底使用何种数字,尚可以随时商酌,大体上以技术上的要求作主,不必笼统的以意识形态为依归了。”
  一句话:中国的落后,根源之一正是缺乏以数据为基础的精确管理;而未来中国的进步,也有赖于建立这种精确的管理体系。
  除了中国人自己思想家的反省和批评,西方世界对我们中国人漠视数据的特点也洞若观火。
  阿瑟·史密斯(ArthurSmith)是一位美国的传教士,他于1872年来到中国,在中国的普通社区生活了54年,随后著书立说,成为名动一时的中国文化研究专家。1894年,史密斯出版了《中国人的性格》一书,该书在中国社会、国际社区都产生过很大的影响,一度被公认为研究中国人最权威、最详尽的著作之一,被翻译成很多个国家的文字。
  史密斯认为,中国人,是一个“漠视精确、思维含混”的民族,他在书中写道:
  “中国人完全能够像其他民族一样学会对一切事物都非常精确——甚至更加精确,因为他们有无限的耐心——但我们必须指出的是,他们目前还不重视精确,他们还不知道精确是什么。如果这一看法是正确的,那么就可以有两条推论:其一,在我们考查中国历史档案时,必须考虑到中国人漠视精确这一特性。我们采用中国人所提供的数字和数量很容易使我们自己受骗,因为他们从来就不想精确。其二,对于中国人所提供的冠以‘统计数字’以抬高其权威性的各种材料,必须留有很大的余地。”(《中国人的性格·漠视精确》)
  作为一名留学生,长期在美国学习、工作和生活,我也深感到,和美国人相比,中国人确实缺乏“用数据来说话”的素养。中国的语言表达方式中“重定性、轻定量”的特点非常明显,口语中经常使用“大概”、“差不多”、“少许”、“若干”、“一些”等等高度模糊的词语。我身边的一位攻读博士学位的朋友,曾经给一位美国教授提供过一份中国菜的烹调方法,但其中关于“盐少许”、“酒若干”、“醋一勺”的提法,令这位美国教授抓耳挠腮、不知所措。我事后自问,也确实感到这种提法,完全是跟着感觉走,让人无从下手。此外,和美国数据资源的丰富、开放相比,不少中国留学生对于国内的数据匮乏有切肤之痛。写论文、做研究,如果能选一个自己熟悉的中国话题,于国于己,都更有意义。可选的话题不少,但常常因为一数难求,多数选题都逃不出夭折的命运!有些数据国内确实没有,有待收集;还有些数据水分太大,经不起推敲和检验;再有的,被有关部门贴上了“机密”的标签,平民百姓无缘相见。
  黄仁宇还对中国人缺乏“数据精神”的根源做了剖析,他认为:在中国传统的学问——理学或道学当中,一直都分不清伦理之“理”与物理之“理”的区别。这两个“理”混沌不分的结果,是中国人倾向于粗略的主观定性、排斥精确的客观定量,从而养成了重形象、重概括、轻逻辑、轻数据的文化习惯。这种文化习惯,使中国人长期沉浸在含蓄、模糊的审美意识当中,凡事只能在美术化的角度来印证,满足于基于相似的“模糊联想”,止步于用逻辑来分析、用数据来证明,最终将表象上的相似,当做本质上的相同。
  但欧洲在中世纪之后,就将“伦理之理”与“物理之理”这两个“理”划分得很清楚了。
  黄仁宇的看法,并不是一家之言。现代著名思想家汉娜·阿伦特(HannahArendt)也曾经对比过中国人和西方人在思维方法上的不同。她的结论是:西方人是“词语思维”,中国人则是“形象思维”,而形象思维不是一种基于逻辑的推理性思维。
  归根到底,中国人对数据的漠视,缘于一种文化上的缺欠:随意、盲目、不求甚解、理性不足。
  因为这种文化上的不足,科学最终在西方国家起源,当然不足为奇,中国人100多年来只能跟在别人身后亦步亦趋,也是应得的命运。
  除了数据的收集和使用,中国在大数据时代需要面对的挑战,还有数据的开放。
  如果说收集数据是一种意识,使用数据是一种文化、一种
习惯,那是否开放数据则是一种态度。
  正如本书前文所描述的,互联网上的数据开放,其开放的对象不仅仅是一个国家的人民,而是全世界的人民。这种开放,是无法阻挡的。中国人,只要愿意,就可以登陆其他国家的开放网站,下载他们的公共数据,分析他们的财政开支细目,考察他们的房屋交易价格,甚至参与他们对公共事务、社会事务的批评和监督。即使作为外国人,在这个全球化的时代,中国人也可以感受到数据开放给全人类带来的种种便利和实惠。而这些便利和实惠,正在成为信息时代世界各国一项基本的公民权利。
  由于互联网的发明,“开放”已经成为人类社会一个不可逆转、不断加速的社会思潮。如雨果所说:你可以阻挡一支入侵的军队,但你无法阻挡一种思想。在这个浩浩荡荡、不断前进的世界大潮当中,我们将发现,中国如果不跟上,我们的处境将会越来越微妙、越来越尴尬、越来越孤立。
  收集数据、使用数据、开放数据,都是大数据时代我们中国人需要一一面对的挑战。
  这三大挑战,没有一个不是任重道远。但这些挑战,也是我们在大数据时代彻底摘掉“差不多先生”文化标签的重大历史机遇。如果在这个数据意义凸显的时代,我们还抓不住这些历史机遇,继续漠视数据、拒绝精准、故步自封,等待我们的,还将是一个落后的100年。
  
  【大数据就是“老大哥”:中央数据银行之争】
  “我们有很多小的、独立的信息记录系统。这些系统,就单个而言,它们可能无关痛痒,甚至是很有用的、完全合理的。但一旦把它们通过自动化的技术整合连接起来,它们就会渐渐蚕食我们的个人自由。这才是真正的危险。”
  ——美国隐私研究委员会,1977年
  1965年,人类的计算模式还仅仅处在第一个阶段——主机时代,这种危险和担心就开始初现端倪。
  那个时候,现在白宫的行政管理预算局(OMB)还叫预算局。
  预算局提出了一个简单、大胆、在当时堪称革命性的创新计划。
  该局建议,联邦政府应该成立一个统一的“数据中心”,把政府部门所有的数据库连接、集中、整合起来,建立一个大型的数据库。预算局相信,这不仅能节约硬件成本,还能提高数据管理、查询和统计的效率;此外,通过部门之间的数据对接和整合,还可以提高数据的准确性和一致性,减少数据的错误。
  预算局甚至为这个计划提出了具体的实施方案:人口普查局、劳工统计局、税务局以及社保局等4个数据密集型部门先行一步,首先将数据库连接起来,其他各个部门的数据库逐步纳入,最终的目标是,以公民为单位,为全国每一个人建立一个数据档案,这个档案将包括每一个人教育、医疗、福利、犯罪和纳税等等一切从摇篮到坟墓的数据记录。
  预算局将这个大型数据库称为“中央数据银行”。
  普林斯顿大学的高等研究院(IAS)是全世界最顶尖的研究机构之一,它的特点,是可以不屈从任何行政的任务和资金的压力,自主开展纯粹的科学研究。时任该研究院主任的是凯森教授(CarlKaysen),他盛赞这是一个划时代的计划。凯森发表了专门的可行性报告,指出统一管理不仅能节省运营成本、提高数据的准确性和查询的效率,还将更好地保障数据安全。
  听起来有百利而无一弊,中央数据银行的计划得到了行政圈、学术界的一致响应。
  经过一年的论证,1966年,联邦政府正式向国会提交了“中央数据银行”的方案,请求拨款、开工,开创新的数据管理篇章。
  新闻界也开始报道联邦政府的这个创举。
  但没想到,新闻界的报道引起了强烈的社会反弹。这种反弹,最后导致了这个计划的流产。
  1967年1月,《纽约时报》发表了著名记者、隐私权专家帕卡德(VancePackard)的文章《不能告诉计算机》,他写道:
  “当政府把我们每一个人的信息和日常生活的细节都装进一个中央级的数据银行,我们将受控于坐在电脑机器前面的那个人和他的按钮。这令人不安,这是一种危险。”
  美国公民自由联盟(ACLU)是一个成立于1920年、位于纽约的公益组织,它的目标是利用法律的手段维护公民的权利,隐私权正是ACLU关心的重点。对于中央数据银行的计划,ACLU强烈反对,并发表了一系列的声明和调查。
  哈佛大学也对这个计划开展了专门的民调,其调查的结果表明,56%的美国人担心自己的隐私会受到侵害,明确反对这个计划。
  一时间,曾经赢得了各方赞誉的数据银行计划在国会的讨论中陷入了泥沼。
  此后,美国国会对此召开了一系列的听证会。1968年,众议院隐私委员会发布了一份报告,作出结论说,该计划无法保证公民的隐私不会受到侵害,不予批准。
  但这只是一个中断,甚至仅仅只是一个开始。此后的几十年,随着数据库越来越多,类似于“中央数据银行”的计划不断改头换面,在国会发起冲刺。美国各界对其的讨论也从来没有间断过,并形成了泾渭分明的两派。
  支持的一派以经济学家和技术专家为主,这个阵营认为,现代经济依赖于大规模的数据整合和交换,统一集成的中央数据库,将提高经济效率,方便大众的生活,是现代社会发展的必然,是社会进步的不二选择。
  反对方自然是隐私至上的信奉者。他们认为,在信息时代,无论是个人的日常消费等琐碎小事,还是事关健康、教育的重大决策,都会在各种各样的信息系统当中留下“数据脚印”。这些“数据脚印”,保存在不同的系统中,可能无伤大雅。但如果建立起中央数据银行,通过数据整合和信息加总,就可以再现一个人生活的轨迹和全景,各个系统之间的数据可以彼此印证、互相解释,个人隐私就无所遁形。
  隐私学学者认为,这种信息加总和数据整合,无异于一种监控,准确地说,是一种“数据监控”(Dataveillance),其对个人隐私权的侵害,无异于《一九八四》中的电幕。进入大数据时代之后,甚至有专家提出:大数据就是老大哥!(BigData is Big Brother)
  
  【百年纠结:统一身份证】
  “我们的立场是:现在或者可预见的将来,在美国都不应该建立统一的身份证。就严格的定义来说,社会安全号不能算是身份证,它最多只能算一个近似的身份标识。”
  ——联邦政府卫生、教育和福利部部长咨询委员会的报告《数据记录、计算机和公民权利》,1973年
  近几十年以来,美国也对统一身份证这个问题做过很多次民意调查,但除了珍珠港事件之后的昙花一现,每次都是反对意见占了绝对上风。1942年,民意调查的创始人乔治·盖洛普曾经在《纽约时报》上对统一身份证这个问题做过一个很好的总结。他认为,统一身份证是管理社会、控制公民的一种手段,在美国,这种手段被视为是警察国家的做法,是集权社会的象征,是违反美国精神的。当然,盖洛普也承认,统一身份证有利于警察打击犯罪、加强国家的安全,特别是在应对恐怖袭击、自然灾害等等突发事件当中,统一身份证将大大方便政府对社会的管理和控制。
  统一身份证也多次成为总统大选的辩论话题。前文提到的纽约市的市长朱利安尼,曾经是2008年大选期间知名度最高的候选人,他表态支持全国统一身份证,随后遭到了其他多位候选人的攻击,这些候选人认为:没有任何理由去牺牲公民实实在在的自由以换取“可能会好一点”的国家安全。
  
  【总统的雄心:公共财政支出透明】
  “联邦政府掌握和维护的信息是整个国家的资产和财富。”
  ——奥巴马,2009年1月21日
  “如果我们坐等他人,那改变就不会到来。我们自己——就是我们一直在等的人,我们自己——就是我们所要寻求的改变。”
  ——奥巴马,竞选总统时的演讲,2008年2月5日
  正是在陶伯拉发布第一个数据开放网站TrackGov.us的同年,2004年11月,奥巴马赢得了联邦参议员的选举。
  次年1月,他踌躇满志,从芝加哥飞往了华盛顿。
  有理由相信,初起乍兴的数据开放运动,也进入了他的视野。
  因为,作为联邦参议员,奥巴马就任之后成功推出的第一份法案,就是一份有关数据开放的法案。
  美国国会参议员的任期,是6年一届。奥巴马在参议员的位置上,只干了3年多。根据TrackGov.us网站上发布的数据,在他短暂的参议员生涯当中,奥巴马作为第一发起人提出过137个法案,但最终成为法律的,却仅仅只有2个。奥巴马还作为合署人和其他议员共同发起过600多个法案,最后通过的也屈指可数。
  奥巴马成功交出的第一份答卷,是2006年4月作为主要合署人和共和党参议员科伯恩(TomCoburn)联合推出的《联邦资金责任透明法案》(FFATA),这个法案后来产生了广泛的影响,也被称为《科伯恩—奥巴马法案》。
  这个法案要求联邦政府向全社会开放所有公共财政支出的原始数据,这些数据,包括政府和私营机构的购买合同、公共项目的投资、直接支付以及贷款等等明细。其基本理念和TrackGov.us是一样的:建立一个完整的、专业的公共支出数据开放网站,以统一的格式提供可以下载的数据,以供公众查询使用。
  奥巴马是民主党员,科伯恩属共和党,作为一个跨党提案,该法案在参众两院都高票通过,2006年9月,经小布什签署后,成为法律。2007年,根据该法的规定,网站USAspending.gov上线发布,成为美国联邦政府发布公共支出信息的门户网站。
  USAspending.gov是个巨大的数据开放网站,可以对联邦政府2000年以来高达3万亿的政府资金使用情况以及30多万个政府合同商所承包的项目进行跟踪、搜索、排序、分析和对比,其数据每两周更新一次。网站上线之后,受到了社会各界的极大好评,获得了“政府搜索引擎”(Googlefor Government)的美誉。
  当然,这个法案的产生和通过,并不仅仅是奥巴马和科伯恩两人力推的结果。
  公共支出数据的开放,真正的先行者,还是美国民间的普通公民。
  USAspending.gov网站建立的背后,更有一段国会、政府和公益组织3方携手合作的佳话。
  上文说到,开放数据的运动兴起之后,首先直指公共数据。有一批社会活动家和公益组织,多次召开民间会议,发起游说活动,督促政府开放公共数据,政府财政支出的数据正是其中的焦点。
  “OMB监督”(OMB Watch)就
是这其中最执著、强力的行动者之一。这是一个位于华盛顿的公益组织,由加里·巴斯(GaryBass)于1983年创办。“OMB监督”以监督政府的预算、税收和工作绩效为己任。它的直接监督对象是总统行政办公室下属的行政管理预算局,该局简称为OMB,这也是该组织之所以命名为“OMB监督”的原因。
  美国的联邦政府其实很早就开始公开发布公共支出的信息,但这种发布是零散的、不系统的,其发布形式可能是新闻发言、文字简报,也可能是电子数据,很不统一。2005年,巴斯意识到,如果能将联邦政府全部的开支数据统一发布在同一个网站,全社会就可以更好地查询、研究和监督联邦政府的开支和预算。
  巴斯后来为这个项目发起了专门的社会募款活动。通过筹款集资、整理数据、开发网站、接洽政府等一系列的工作,2006年,“OMB监督”(OMB为美国总统行政办公室下属的行政管理预算局)推出了美国首个公共支出的数据开放网站:Fedspending.org。
  Fedspending.org能够逐条跟踪、记录、分析、加总OMB发布的每一笔财政支出。它推出之后,受到了全国舆论的好评,《洛杉矶时报》盛赞其为“财政透明的起点”。
  正是受到这个网站的直接启发和帮助,科伯恩、奥巴马发起了《联邦资金责任透明法案》,奥巴马本人,也在这个法案的草拟和推行过程中,和“OMB监督”建立了合作关系。
  《联邦资金责任透明法案》通过之后,根据它的规定,行政管理预算局也必须建立一个和Fedspending.org类似的网站,向全社会统一开放联邦政府所有的公共支出数据。
< 返回上一页 >
下一篇: 做最好的干部
[ 新闻动态搜索 ]  [ ]  [ 打印本文 ]  [ 关闭窗口 ]
0条   相关评论