二维码

第一章 身处数据时代,揭开大数据的面纱 - 数据结构 - 机器学习

1390 人阅读 | 时间:2021年01月15日 01:20
第一章 身处数据时代,揭开大数据的面纱 - 数据结构 - 机器学习 #daohang ul li t,.reed .riqi,a.shangg,a.xiatt,a.shangg:hover,a.xiatt:hover,a.shang,a.xiat,a.shang:hover,a.xiat:hover,.reed-pinglun-anniu,span.now-page,#daohangs-around,#caidan-tubiao,#daohangs,#daohangs li,#btnPost{background-color:#D10B04;} .dinglanyou1 h3{border-bottom:3px solid #D10B04;} #dibuer{border-top:2px solid #D10B04;}.cebianlan .rongqi h3{border-bottom:1px solid #D10B04;} #edtSearch{border:1px solid #D10B04;} #daohang .zuo ul li{border-right:1px solid #;} #daohang ul li t a{border-top:1px solid #;border-right:1px solid #D10B04;} #daohang ul li t a:hover{border-right:1px solid #;} #daohang .you ul li a:hover,#daohang .zuo ul li a:hover,.reed-pinglun-anniu:hover{background-color:#;} a:hover,.reed h6 a:hover,#dibuer a:hover,.reed .riqiding,.cebianlan .rongqi li a:hover,#pinglun-liebiao ul.fubens li.depth-1 dl dd span.shu a,#pinglun-liebiao ul.fubens li.depth-1 dl dd span.huifuliuyan a:hover,.reed-biaoti h6 span{color:#D10B04;} .reed .kan a{color:#0A0AF5;}.reed .kan a:hover{color:#D10101;} @media screen and (max-width:1492px){a.shang,a.xiat{background:none;} a.xiat:hover,a.shang:hover{background-color:#f9f9f9;background-image:none;text-decoration:none;}} var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?b19db5ba3b437a9e8698d2bc8fc64334"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})(); var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?b19db5ba3b437a9e8698d2bc8fc64334"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?2d748c9763cfc72fb7d1ccab29f0770d"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f6d451f3f1be23f3abf240c64c469c1b"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();

当前位置:首页 » 大数据精品文章 » 正文

(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646201", container: s }); })();
(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646162", container: s }); })();

第一章 身处数据时代,揭开大数据的面纱

1189 人参与  2018年10月16日 12:46  分类 : 大数据精品文章  评论

科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置。越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富。大数据时代伴着铿锵有力的节奏引领了世界的新潮流。

大数据到底是什么?

如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及apache org的开源项目Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。

研究机构Gartner曾给大数据(Big data)下过这样的定义:大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。

大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》(James,2011)是这么定义“大数据”的:

大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。这个定义也有很强的主观色 彩,因为究竟什么样规格的数据才是大数据,这没有统一的标准,也就是无法确定超过多少TB(1000GB)的数据才是大数据。随着时间的推移和技术的发 展,我们必须知道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切 的关系。所以,现有各行业的大数据可以是几十TB,也可以是几千TB。

按照EMC的界定,特指的大数据一定是指大型数据集,规模大概在10TB。通过多用户将多个数据集集合在一起,能构成PB的数据量。

在IBM2011IOD大会上,负责IBM软件和硬件两大集团的高级副总裁Steve Mills曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞 争的优势,要将其转换为生存的根本。”

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化 (Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM公司对大数据所概括出的三个V,其实也说明大数据潜藏的另一个V——价值 (Value)。就这么说的话,大数据确实具备这四个V的基本特征。

大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于 1024B,就是千字节。除此之外还有更高的单位MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zetta byte,泽它字节)和YB(Yotta byte,尧字节)。每一级之间的换算关系是1024。到了2009年,几乎每一个美国企业,只要是雇员人数超过1000人的,它的数据存储量大概都超过 了200TB,这是十年前沃尔玛公司数据仓库存储量的2倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了1PB。2010年欧洲组织的存储 总量大概为11EB,这个数字几乎是整个美国数据总量(16EB)的70%。2010年全球企业在硬盘上的数据存储量已经超过了7EB,而在PC和笔记本 电脑等设备上的个人存储量也超过了6EB。美国国会图书馆当时存储的数据大概只是1EB的4000分之一(James,2011)。硬件技术的发展速度远 远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们90%的数据给处理掉(这其中包括 几乎所有在手术过程中产生的实时视频和图像资料)。

只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的, 这就是第二个V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的Excel软件中处理的数据,这称为结构化数据。可是现在随着互联 网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是63%,相对而言结构化数 据增长率只有32%。2012年,非结构化数据在整个互联网数据中的占比已经超过了75%。

Informatica中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。 简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和 时限进行捕捉、管理和处理数据集的传统技术的能力之上。

简而言之,三种主要技术趋势汇聚成了大数据:其一是海量交易数据,包括半结构化和非结构化信息,在从ERP应用程序 到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更 为复杂的局面。其二是海量交互数据。因为Facebook、Twitter、LinkedIn以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交 互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件,等等。其三就是海量数据处理。随着大数据的涌现,已经有很多用 于密集型数据处理的架构应运而生,比如Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。它之所以可 靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop也是可伸缩的,PB 级的数据它也可以处理。另外,Hadoop因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。对企业来说,最难的在于如何通过成本效益的方式 从Hadoop中存取数据。Hadoop最知名的用户是脸谱。通过Hadoop,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得较高的收 益。

“大”是重点,还是“数据”是重点?

先来做一个小测验。当阅读开始前,先停下来思考这么一个问题:哪部分是术语“大数据”中最为重要的?是大,还是数据?还是二者都一样重要,或是都一样不重要?花一分钟的时间去思考这个问题。假如已经有了自己的答案,那就开始阅读接下来的内容。

既然答案已经有了,那就来看看哪个是正确的?显然,正确的答案应该是最后一个,事实上在大数据中,“大”和“数据”都不重要。其中最重要的是企业该如何去驾驭这些大数据。对大数据进行分析,以及在此基础上采取的业务改进才是最为关键的。

事实上,大数据本身是没有任何价值可言的。即便是一个人比另一个人拥有更多的数据,这也不代表什么。任何一个数据 集,它们或大或小,本身都没有价值可言。如果不懂得如何去使用收集来的数据,那这些数据不会比地下室里的垃圾更有用。要是不投入环境或者是付诸使用的话, 数据的意义就不在了。任何大量或是少量的大数据该如何体现自己的威力呢?要怎么去分析这些数据呢,又该如何去洞察或是采取什么样的行动呢?这些数据又要如 何来改进业务呢?

很多人在阅读了众多炒作大数据的文章之后就相信之所以大数据要比其他数据有优势,就在于它的容量大、速度快和多样 性,这种说法并不准确。在很多大数据当中,相比以往数据会存在更多毫无价值或是价值很小的数据。一旦大数据被精简到实际需要的容量时,它们所呈现出来的就 不是大数据了。事实上这也不重要,无论是它被精简还是保持原本庞大的模样,这些关系都不大,最重要的是处理它的方式。所以说使用数据要比起它的容量更为重 要。

大数据庞大的规模并非人们所关注的,包括它们能带来巨大的内在价值也非关注的事实。最大的价值还在于分析的方式,以及采用什么样的方式来改进自己的业务。

在人们阅读一本书的时候,关键点的第一个是大数据的大数据量,并且要承认大数据也是数据中的一种。只不过这并非企业 兴奋的理由所在。这些数据使用时的新颖且强大的分析方式才是企业注意力集中的地方。作为社交网络应用的Facebook和微博,都构建了关联普遍用户的行 为数据。人们在网络上浏览网页、购买商品、游戏休闲原本是不关联的。当智能手机推广普及之后,网络的行为越来越碎片化了。假设没有一定的关联,就很难去分 析和利用这些数据。社交网络提供给用户统一的借口,让无论是玩游戏还是买商品的客户可以轻松地把碎片化的信息发到网络上。就像是一个用户行为数据连接器的 角色一样,微博把所谓网络上用户的行为,完整地关联起来,画出一幅生动的网络生活图景,把用户的偏好、性格、态度等特征真实地反映出来,而这当中就是最为 充分的商业机会。

彼此关联的数据价值要远大于孤立的数据。可是在当下数据孤岛是很常见的。个人计算机中的文件一般都会以某种类目来存 放,内容和内容之间没太强的联系。企业之间也是如此,很多部门之间都壁垒林立,似乎每个人都愿意去保护自己的数据,从而形成“数据割据”的局面。只要是处 在数据孤岛中,大数据所潜在的价值是很难被挖掘出来的。

与众不同的大数据

有别于传统数据源的大数据有不少重要的特征,不是每个大数据源都有这些特征存在,绝大多数的大数据或多或少地都存在一些这样的特征。

第一个特征是大数据的来源往往是机器自动的结果。人工不会干涉到新数据的产生过程,完全是机器自动的结果。如果拿传 统数据源进行分析的话,就会发现它们的形成过程中会有人工的痕迹,像是零售业和银行交易、电话呼叫记录、产品发票等等,和某个人做的事情都有关系,无论什 么情形,都会有人参与到新数据的形成过程中。可是大数据不是这样产生的,它不会在产生过程中与人互动,像是引擎中内置的传感器,即便没有人干预周围数据也 会自动生成。

第二个特征是大数据作为一个全新的数据源,不仅仅是已有数据的收集扩展,比如在互联网中,顾客与银行、零售商之间可 以直接在线交易。事实上这种交易方式和传统交易差异不大,不过是换一种渠道而已。企业通过收集网络交易数据就会发现这样情形下的数据和多年来他们得到的传 统数据差异不大,不过是数量增加了而已。如果收集的是客户浏览行为的数据,那就会产生本质上全然不同的数据。

上面提到的相同类型数据,不过是数量多了的说法也会因为达到另一个极端,成为最新的数据,比如说传统读电表都是人工 方式,也就是说自动读取用电数据的智能电表所产生的数据就是类型相同,不过是数量增加了。不过这种数据在某种程度上也能成为一种有别于人工读取的数据,应 用更为深层次的分析方式,这样一来它们就可以称作是新的数据源。

第三个特征是大数据中的大多数设计并非友好。实际上这些数据并未经过设计。就拿社交媒体网站上的文本流举例,用户不 一定会被要求用标准的语序、语法和词汇表。人们的信息一经发布,社交平台就能够获得数据。这些不太规范的数据处理起来还是有一定困难的。在设计之初,大多 数的传统数据都尽量要友好一些,就比如收集交易信息的系统最早生成数据会以整洁或是预先规范的方式来操作,这样形成的数据就更有利于加载和使用。还有一部 分原因是由于要对空间进行高效利用,以避免出现空间不够的局面。

大数据有时候还会是凌乱和丑陋的。通常最开始传统数据就已经被严格地定义。每一比特的数据都存在重要的价值,这是必 需的。一般大数据源一开始不会被严格定义,这和存储空间的开销越来越微乎其微有关,必须对各种有用的信息进行收集。所以说大数据分析的时候,各种凌乱丑陋 的数据都有可能遇见。

最后的特征是海量数据并非有大量价值。实际的数据很多都是毫无价值的。在一篇网页日志当中,非常重要的数据就包含其 中,当然也有好多没价值的数据也在其中。很有必要从中提炼最有价值的部分。定义传统数据源的起初就要求数据是百分百有用。这是因为可扩展性受到了限制,所 以如果有没价值的信息在当中的话代价会非常昂贵。除了最初定义的有数据记录的格式外,数据内容和价值也被定义和约束了。当下存储空间的问题已经不存在了。 大数据所收集的是所有的信息,然后再去解决这些冗余信息所带来的问题。只有这样才会不遗漏所有的信息,与此同时在分析数据时的麻烦也会让人头疼不已。

大数据方式下的云计算

消费者会觉得大数据和云计算很无聊,可是对于Delphix来说却是一座宝藏,因为它正在利用这种技术进行敏捷数据管理。

Delphix不需要部署冗余的基础设施在自己的敏捷数据管理解决方案之上,还能同时提升流程的速度。客户因此能更 为快捷地完成交付使用。其实敏捷数据管理就是企业数据库内虚拟化数据,再提高数据库驱动型应用的开发敏捷性质,因此使数据库和应用管理都发生大的改变。企 业的数据库被Delphix放到了云上,再通过数据同步和虚拟化技术交给适当的人最恰当的数据。Delphix宣称有了应用交付解决方案后,应用项目的进 度会提升5倍之多,成本会减少90%,事实上2010年Delphix面世后的销售增长率达到了300%。

成立于2010年的Delphix,2012年6月它的C轮融资就完成了2500万美元。这一次融资的领投是 Jafco Ventures,投资人中还有Greylock Partners。迄今为止Delphix总融资金额高达4550万美元。公司依赖其“敏捷数据”拿到了超额认购。企业数据库的数据在“敏捷数据”的虚拟 化作用下,增强了数据驱动应用的敏捷性,经济数据库和应用管理速度也提升了。

不少企业都把自己的目标设定为借由一个强大的平台来实现品牌推广,可是很多社交网站的数据还是找不到可行的商业模式,因为预期真正得以实现的不多。不过社交数据公司在不断发展壮大,可以想见不远的将来社交网站的影响力利用问题不会再是遥远的梦想。

像是纽约的SumAll公司期望就是要带给每个客户“小而美”的数据。SumAll所提供的平台在于提供给中小企业 实时的数据服务,利用桌面、iPhone和安卓系统来访问,可以看到很多可视性的大量数据,也就更便于阅读和观看。SumAll在和Shopify、 PayPal和Magento合作电子商务和支付系统的时候,用户点击几下就能完成账户的集成工作。SumAll对于实时数据的分析很快速,再为用户提供 一个如社交媒体式的“新闻订阅”一样的简洁分析和见解。SumAll还会为客户提供深入挖掘税收、发货和出售量的服务,甚至连对客户依照不同标准的排序分 析也可以完成。

2011年11月成立的SumAll,在2012年6月著名风险投资公司Battery Ventures牵头联合Wellington Partners、Matrix Partners和General Catalyst Partners为SumAll投资了150万美元的种子期融资。SumAll到2012年12月对外宣布获得了600万美元的A轮融资,还是 Battery Ventures联合Wellington Patners对其进行投资。目前设在纽约总部的公司有25名员工。

还有Ngdata公司,企业用户和他们的消费者通过它们能够进行一对一的营销模式提供和得到最好的建议和产品。 Ngdata曾推出过一个产品Lily集成了内外部的结构化和非结构化的数据。Lily还可以用人工智能拍照工具对消费者的习惯和爱好进行记录。正在快速 成长的大数据市场,对企业的价值越来越大了,企业对市场的评估和行为的预判都要通过这些数据分析。ING的投资总监Tom Bousmans说过,消费者所产生的数据有上亿个,企业都可以通过这些来了解用户需求,彼此间还有个性和动态的互动。

成立于2009年的Ngdata的员工现有20名,它们还有类似Wibidata和Spire这样的竞争对手。 Ngdata与竞争对手的不同在于它能够提供企业与消费者实现互动的数据解决方案,不仅是单纯专注在大批量数据分析之上。2012年10月Ngdata获 得了250万美元的融资。这一次融资的资金主要来自ING、Sniper investment、Plug and Play Ventures等投资机构和一些天使投资人,这份资金将帮助Ngdata推广个性化产品线的拓展,并在纽约和旧金山专门为美国客户设立服务办公室。

Attivio的创始人Ali Riaz觉得企业用户每发送一条查询请求的时候,得到的信息都是具有洞察性的,绝非罗列出来的链接或是一张简单的图表。它回答的问题不仅是“是什么”还有“为什么”,就比如销售量下降是市场需求下降还是销售人员表现不够突出造成的。

任何一家企业要做的工作都是市场营销。近几年社会化媒体的兴起,让营销业者的注意力都集中在了数字营销之上,不过对 于这个领域营销人员还欠缺有效的分析。Good Data公司正是瞅准这一商机,开始为营销人员提供集成服务,让他们可以利用微博等社交网络平台进行深度的分析。

大数据的奥秘

事实上并不是说大数据的处理就有多困难。收集一些数据,企业的分析专家团队就可以开始进行数据价值的探索。企业要做的就是要让分析专家团队最近地去接触那些数据,接下来的工作才是开始进行分析探索。要相信分析专家和数据科学家们都会很好地做好他们应该完成的工作。

一个很老的拇指法则指出,分析数据的工作的时间中有70%~80%都花在了收集和整理之上,剩下的20%~30%的 时间才是真正的分析。大数据在刚开始处理的时候,分析时间所占的比例就更低了。一开始分析专家会用95%左右的时间来处理数据,甚至有时还会达到 100%,接下来才会思考这些数据如何用来做更为深层次的分析。

上述做法必须得到理解。首先分析数据的流程中最重要的一环就是要先弄明白数据源的本质。对它们的表现、调整加载情况 过程反复地进行检查,才能保证选择出能够更好地服务于目标的数据,虽然有很多数据并不那么吸引人或是令人兴奋,可确实是选出了最重要的数据。要是这些步骤 都被忽略的话,那后面的分析环节就不能继续。

大数据中最优价值的部分被确定了,也就能确定用什么办法选择提取这些最优且精确的部分,这是最为关键的环节。这一环 节必然是非常耗时的,尽管是花了比预计还要多的时间,也不用为此懊恼。因为企业的分析专家和业务赞助商是需要在弄明白数据源的过程中寻找一个代价最小、见 效最快的方式。不论这东西是不是微不足道,但要给企业展示的一定是最有价值的东西。人们可以因此对此过程保持最高的兴趣,并协助其他人理解进展的过程。

大数据要如何应用到业务中,这是个非常耗时耗力的过程。在这一过程中,企业的分析专家和业务赞助商总是想要找到最有效的方式,为企业展示这方面的进展,并以此来赢得最稳定的回报。

举个欧洲零售商的例子,公司总想获得最为详尽的网络日志数据。公司在经历了一个漫长且复杂的收集数据的过程后,开始 实施了一系列简单的举措,其中包括鉴别用户浏览过的商品,在这些数据的基础上,他们建立了一个电子邮件系统,目的是为了给浏览过商品却未购买的顾客发邮 件。企业从中获取了高额的利润。

公司采取了类似的基本早期措施外,还会继续投资于收集和加载网络数据之上。最为关键的一点在于他们缺乏处理整套数据 流的经验和意愿。试想一下经过数据的深层次分析后他们所得到的回报。也正是因为这些快速及时的进展,每个在企业中的人都乐意再继续下去。他们或许从最早期 的举措当中看到了数据的巨大威力,也已经为未来的努力买过单了。

顾客给予的是个体具体行为,这一点是最重要的。上述的例子当中已经让他们认定个人的重要性体现在了模式分析的输入数 据上。每个个体从获取价值上来说并不需要识别。分析专家如今已经可以利用数据库技术在不识别个体的情况下完成分析。很多隐私的顾虑就可以就此消除了。事实 上不少企业都这样来定位和分析具体个体的顾客。这些企业想必都已经制定了关于隐私保护的政策,不论在什么前提之下,这些隐私政策都要谨慎地遵守。

世界在小数据时代是如何运作的,人们总是希望通过分析和收集数据来证明这一设想。不久以后,大数据时代的到来,人们就不再局限在这设想中。因为数据的分析和研究让人们发现了从前没发现的联系。

自然理论或是社会科学带来的人们的设想,也让我们理解和预测周围的世界。人类在经历假想时代到数据时代的过渡中,很可能会发现理论不再需要了。

《连线》杂志的主编克里斯·安德森(Chris Anderson)在2008年就指出:“科学研究方法因为数据爆炸都变得落伍了。”此后他还在《拍字节时代》(The Peta byte Age)的封面故事中提到了,从某种意义上说,大数据就说明了“理论的终结”。安德森曾提出,如今不再需要一系列因果关系来验证各种设想了,这种传统研究 模式早已被无理论指导的纯粹相关关系研究所代替。

安德森为了证明自己的想法,阐述了之所以量子物理学称为纯理论学科的原因正是由于高耗费、复杂实验等等。他所提到的 潜在观点就在于量子物理学的理论已经和实际剥离了。他提到了谷歌设计的搜索引擎和基因排序工作,他认为:“海量数据时代,所有其他的学科已经为应用学科所 取代。只要是有足够的数据问题就可以说明清楚。假设有一拍字节的数据,并了解数据之间的相互关系,那问题就可以得以解决。”

安德森的文章在专业领域引起了轩然大波,事实上安德森也认识到了自己发出了过于偏激的言论,可是某种程度上说他的话 还是值得深究的。当中最为核心的是,截至目前,理论总是用来在实践中理解和分析世界的,可是到了大数据时代理论已经不再必要,数据就够了。也就是说譬如世 界的运作、人类的行为等等普遍规则也都不重要了。现在最重要的是数据分析,一切问题都能解决了。

事实上,大数据也是有理论基础的。譬如分析大数据所用的就是统计和数学理论,还可能涉及部分计算机科学理论。尽管和 地心引力理论差异很大,但不管怎么说也是理论。大数据分析模式如果建立在这些理论之上,那必然可以实现大数据的预测能力。事实上,为人们提供新鲜深刻的洞 见就是大数据的价值所在。

第一要关注的是如何收集数据,是不是数据收集的方便程度就是决定的关键因素呢,还是数据收集的成本呢?众多的理论影 响了人们的决定,就如达纳·博伊德(Danah Boyd)和凯特·克劳福德(Kate Crawford)说的那样,一定程度上,结果由选择所决定。谷歌用检索词来预测的是流感而不是鞋码。分析数据的时候选择工具依赖的同样也是理论。研究结 果的解读同样应用的也是理论。在大数据时代不代表理论消亡,相反却是在大数据的方方面面都渗透着理论。

安德森作为第一个发现这个问题的人,尽管没有得到合适的答案,也值得让人们欢呼。大数据不会宣称“理论已死”,当然它也从本质上改变了理解世界的方式。以往的习惯都被颠覆了,旧有的制度也面临着巨大的挑战。

当人们选择大数据的理念和方法的时候,就会感觉大数据所释放出来的价值已经让这些不再是一种权衡,而是未来的必然改 变。高科技行业当中,不少人认为要依靠新的工具来到达大数据的彼岸,这观点可以理解为由于他们是工具制造者的缘故。大数据趋势的深层原因就是海量数据的存 在,包括越来越多以数据形式存在的事物。

当下是大数据发展的最佳时机

迄今为止,在大数据上不少企业都做得不多。幸运的是到了2012年,即便是尚未重视大数据的企业也犹未为晚,当然电 子商务行业的企业除外。不过这种情况很快就会发生改变。直到今天,绝大多数的企业所错过的不过是第一个吃螃蟹的机会,所以对它们而言这问题并不大,迎头赶 上的机会还是存在的。不过过几年以后,要是这家企业仍旧不关心大数据的话,那它就会被淘汰。所以说,现在是控制大数据最好的时间点。

不管是什么企业获取业务价值都可以通过新的数据源来完成,而那种竞争对手还未发现这方式的情况不多见。大数据给所有 人都提供了巨大的商机,无论是谁都要能打败自己的对手才能赢在最前方。未来的几年,人们会陆陆续续看到大数据分析所带来的成功案例。不少案例都会显示部分 企业会毫无先兆地就被行业所淘汰了。而这些例子现在就已经引起了众多人的注意了,所谓这些企业正是那些在行业当中反应迟钝,落后守旧的企业。如果在新兴的 电子商务行业中,则情况就有很大不同了。

因此,现在是最佳的时机。

实际上,控制大数据绝非想象中的那样难。不少大企业都已经开始了自己的数据收集和分析工作了,还将其视为自己发展战 略中的核心部分。像数据仓库、报表和分析都已经应用得非常广泛了。企业只要意识到数据存在的价值,那么只需要延伸和扩展现有的工作就可以做到控制大数据。 怀疑论者的话,诸如大数据没有探索价值,它们还没有得到验证,风险太大等等都不能信。过去的几十年,很多同样的借口也在一步步成为数据分析的障碍。还不确 定大数据价值的人,必须让他明白大数据的分析和控制不过是现有企业所做事情的延伸罢了,并非本质性的变化。因此,大数据既然在人们身边,就不要害怕它的到 来。



来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1103

(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })();
(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();
window._bd_share_config={"common":{"bdSnsKey":{},"bdText":"","bdMini":"2","bdPic":"","bdStyle":"0","bdSize":"16"},"share":{},"image":{"viewList":["qzone","tsina","tqq","renren","weixin"],"viewText":"分享到:","viewSize":"16"},"selectShare":{"bdContainerClass":null,"bdSelectMiniList":["qzone","tsina","tqq","renren","weixin"]}};with(document)0[(getElementsByTagName('head')[0]||body).appendChild(createElement('script')).src='http://bdimg.share.baidu.com/static/api/js/share.js?v=89860593.js?cdnversion='+~(-new Date()/36e5)];
大数据技术与应用  

微信号:qq444848023    QQ号:444848023

加入【我是码农】QQ群:864689844(加群验证:我是码农)

<< 上一篇 下一篇 >>
(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646186", container: s }); })();
(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646175", container: s }); })();
搜索

网站分类

标签列表

最近发表

    (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https'){ bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else{ bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();

全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试

var cnzz_protocol = (("https:" == document.location.protocol) ? "https://" : "http://");document.write(unescape("%3Cspan id='cnzz_stat_icon_1276413723'%3E%3C/span%3E%3Cscript src='" + cnzz_protocol + "s23.cnzz.com/z_stat.php%3Fid%3D1276413723%26show%3Dpic1' type='text/javascript'%3E%3C/script%3E"));本站资源大部分来自互联网,版权归原作者所有!

jQuery(document).ready(function($){ /* prepend menu icon */ $('#daohangs-around').prepend('
'); /* toggle nav */ $("#caidan-tubiao").on("click", function(){ $("#daohangs").slideToggle(); $(this).toggleClass("active"); }); });

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

©著作权归作者所有:来自ZhiKuGroup博客作者没文化的原创作品,如需转载,请注明出处,否则将追究法律责任 来源:ZhiKuGroup博客,欢迎分享。

评论专区
  • 昵 称必填
  • 邮 箱选填
  • 网 址选填
◎已有 0 人评论
搜索
作者介绍
30天热门
×
×
关闭广告
关闭广告
本站会员尊享VIP特权,现在就加入我们吧!登录注册×
»
会员登录
新用户注册
×
会员注册
已有账号登录
×