深度学习
大数据时代:生活,工作与思维的大变革 (湛庐文化•财富汇)-维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger)
书名:大数据时代:生活,工作与思维的大变革 (湛庐文化•财富汇)
作者:维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger)
格式:EPUB, HTMLZ, PDF
路径:点击打开
出版:ZHLCN
排序作者:Mayer-Schönberger), 维克托·迈尔·舍恩伯格(Viktor
排序书名:大数据时代:生活,工作与思维的大变革 (湛庐文化•财富汇)
日期:08 12月 2018
uuid:a9ad8626-be5e-4a07-b0f0-d9a55fc04874
id:483
出版日期:1月 2013
修改日期:08 12月 2018
大小:2.20MB
语言:中文
凡是过去,皆为序曲
麦克·弗劳尔(Mike Flower)是21世纪初曼哈顿地区检察官办公室的一名律师,负责过从谋杀案到华尔街金融犯罪等各式各样的诉讼案件,后来他转到一家大型的企业律师事务所工作。在办公桌后度过了无聊的一年后,他决定离开。他想做些更有意义的事情,随即想到了去帮助重建伊拉克。在公司的一位朋友给高层打了几个电话后,弗劳尔被派去了绿色区域,也就是美军驻巴格达市中心的安全地带,成为萨达姆·侯赛因审判律师团中的一名律师。
他主要负责后勤事务,而不是相关的法律工作。他负责将证人运送到绿色区域,其间需要安全通过无数每天都会上演的简易爆炸装置袭击(IED)。他看到了军队人员是如何将这当作数据问题来进行处理的。情报分析员结合实地考察报告和过去IED袭击地点、时间和人员伤亡的详细信息,据此预测一天中最安全的运送路线。
在弗劳尔回到纽约两年后,他意识到这些方法其实是一个打击犯罪的有力方式——比他过去作为检察官所掌握的方式更棒。弗劳尔之后被任命为专案组成员,研究可能揭露2009年次贷丑闻罪犯的数据。这个团队做得非常出色,以至于一年后,纽约市长布隆伯格要求扩大规模。弗劳尔成了全市首个“分析主任”,他的任务就是找到最优秀的数据科学家并组建团队,利用城市尚未开发的信息库,收获一切可能的效益。
弗劳尔为了找到合适的人而广泛撒网。“我对经验丰富的统计学家没有兴趣,我担心他们不愿意采取这种新方法来解决问题。”当他采访统计学家对金融诈骗项目的看法时,他们往往会提出晦涩难懂的数学问题。“我甚至没有想到我要使用什么样的模式。我想要可执行的洞察力,这是我所关注的。”他说。最后,弗劳尔一共挑选了5个人组成团队,他称他们为“小伙子”。除一名成员外,其他都是刚毕业一两年的经济学专业学生,而且从未在大城市生活过,但他们都很有创造力。
他们最早处理的事件之一是“非法改建”,即将一套住房隔出很多小房间,这样就能够多容纳10倍的人。非法改建会带来巨大的火灾隐患,也是犯罪、毒品、疾病和虫害孵化的温床。乱麻一般的分机线绳会沿墙壁穿过,电炉可能会放在床单的上面,一旦发生火灾,人也许会被裹得紧紧地葬身火海。2005年,两名消防队员因营救非法改建住房的人
而死亡。纽约市每年会受到约25000起非法改建的投诉,但只有200名检察员在处理这些事情。似乎没有什么好办法来区分简单的滋扰事件和严重的爆炸起火事件。但对弗劳尔和他的小伙子们来说,这看起来更像是一个可以用大量数据来解决的问题。
他们将城市里的90万栋建筑都列在表上,然后输入来自19个不同机构的数据集。这些数据显示了建筑业主是否拖欠了应缴房产税,是否有止赎诉讼,是否有公用设施使用异常或导致服务消减的未付款项。他们还输入了建筑类型、修建时间、救护车访问次数、犯罪率和啮齿动物投诉等信息。然后,他们将这些数据与五年来的火灾严重性排名数据进行对比并得到一个模型,以此预测哪些投诉迫切需要调查。
最初,许多数据形式都不可用。例如,在一个城市里,描述地理位置的方法不是唯一的,每个机构和部门似乎都有自己的描述方式。建筑部门给予每个建筑物一个独特的号码;房屋维护部门也有自己独有的编号系统;税务部门依照街区和地皮,给予每个建筑物特定的标识;警察局采用笛卡尔坐标系;消防局依托“电话亭”临近体系,将建筑物与各个消防站的位置联系在一起,尽管这些电话亭并非真实存在。弗劳尔的小伙子们处理这种不统一的方式是:以笛卡尔坐标系为基础,取用建筑物周围的一片辐射范围并从其他机构的数据库调取地理位置数据,从而建立一个系统。这些数据本身并不精确,但是巨大的信息量弥补了这点瑕疵。
尽管如此,他们并不满足于仅仅对数据进行运算,而是会到现场观看检查员的工作。他们不断做着大量笔记,并询问一切流程的开展效果。当一个头发斑白的领头人哼了一声说“找到那个建筑不是问题”时,他们很想知道为什么这个人会这么自信。但领头人自己也说不清楚为什么,不过弗劳尔的小伙子们渐渐发现,这种直觉来自建筑物外新的砖工,它暗示着建筑物的主人很重视这个地方。
小伙子们回到自己的工作间,钻研着如何能将“新的砖工”作为一种信号融入到他们的模型中,毕竟,砖块是没有被数据化的。但是可以肯定的是,做任何外部砖工都需要城市许可证。这些信息都可以用于提高系统的预测功能,并且他们发现,很多传统意义上可疑的特点其实都无关紧要。
这种分析法或许揭示了:有些历史最悠久的做事方法并不是最好的,就好比《点球成金》中的球探们不得不接受他们直觉中的缺陷一样。例如,人们将城市“311”投诉热线的来电数量作为衡量问题严重性的指标,来电越多说明问题越严重。但是这种引导是错误的。在繁华的上东区发现一只老鼠也许会在仅仅一个小时之内引发30个投诉电话。然而在布朗克斯区,街坊只有在看到成群结队的老鼠时,才会觉得有必要打个投诉电话。同样,很多非法改建的投诉也许会让人们议论纷纷,但是其后果并没有那么严重。
2011年6月,弗劳尔和他的小伙子们开始启用他们的系统和方法。他们每周浏览一次可归为“非法改建”一类的投诉,将他们认为前5%有火灾危险的投诉转交给检查员立刻跟进。当拿回结果时,所有人都惊呆了。
大数据的力量在大数据分析之前,检查员会先跟进他们认为最急迫的投诉,而只有13%的案件足够严重,需要立刻去处理。现在,他们立即处理的投诉案件占他们所有安全监测的70%。大数据节省了检查员的时间,将效率提高到原来的5倍。他们的工作也越来越令人满意:精力都集中于最严重的问题。他们新发现的成果还带来了额外利益。非法改建中的火灾更可能导致消防员受伤或死亡,概率是普通案件的15倍。消防局因此非常满意。弗劳尔和他的小伙子们就好像巫师一样,手中的水晶球让他们可以预见未来,看到哪里是最危险的。他们利用了大量搁置多年的数据,这些数据自收集以来几乎没被用过。他们用新的方法管理这些信息,从而提取出它们真正的价值。他们从大的信息库中释放了洞察力,而这在较小数据中是做不到的,这就是大数据的缩影。
纽约市分析炼金师的经验凸显了本书中的不少主题。他们使用了庞大的数据量,而不仅是一些数据。他们所列的城市建筑基本上可以视为“样本=总体”。位置信息或救护车记录等数据比较凌乱,但是这并没让他们就此放弃。更多数据所带来的好处远比原始信息少所带来的弊端更重要。他们之所以能取得成功,是因为城市的很多功能都以数据的形式呈现(尽管存在不一致),从而使他们能够处理和使用这些信息来提高预测效果。
专家暗示,无论是自大的统计学家还是专管投诉热线的公务员,在数据驱动方法面前都应退居次席。与此同时
弗劳尔和他的小伙子们不断地让经验丰富的检查员来测试他们的模型,借鉴检察员们的经验,使系统表现得更好。这个项目成功最重要的原因是,它更多依赖的是相关关系而非因果关系。
“我对因果关系不感兴趣,除非它用行动说话。”弗劳尔解释道。“因果关系是别人的事,坦白说,谈论因果关系是非常冒险的。我不认为有人提出房产止赎程序和那个地方是否长期存在结构性的火灾风险之间有任何关系。我认为这么想很愚蠢。他们会认为有一些潜在的因素,但没有人会站出来承认。我不想深究这个,我需要一个能够把握的特定数据点来告诉我它的意义。如果它很重要,我们就会采取行动。如果不重要,我们就不会行动。你知道,我们有真正需要解决的问题。我不会闲逛,或者像现在一样想着因果关系的事儿。”
来源:我是码农,转载请保留出处和链接!
本文链接:http://www.54manong.com/?id=1150
微信号:qq444848023 QQ号:444848023
加入【我是码农】QQ群:864689844(加群验证:我是码农)
全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试
var cnzz_protocol = (("https:" == document.location.protocol) ? "https://" : "http://");document.write(unescape("%3Cspan id='cnzz_stat_icon_1276413723'%3E%3C/span%3E%3Cscript src='" + cnzz_protocol + "s23.cnzz.com/z_stat.php%3Fid%3D1276413723%26show%3Dpic1' type='text/javascript'%3E%3C/script%3E"));本站资源大部分来自互联网,版权归原作者所有!
评论专区