二维码

你必须知道的大数据 - 数据结构 - 机器学习

1192 人阅读 | 时间:2021年01月15日 01:20
你必须知道的大数据 - 数据结构 - 机器学习 #daohang ul li t,.reed .riqi,a.shangg,a.xiatt,a.shangg:hover,a.xiatt:hover,a.shang,a.xiat,a.shang:hover,a.xiat:hover,.reed-pinglun-anniu,span.now-page,#daohangs-around,#caidan-tubiao,#daohangs,#daohangs li,#btnPost{background-color:#D10B04;} .dinglanyou1 h3{border-bottom:3px solid #D10B04;} #dibuer{border-top:2px solid #D10B04;}.cebianlan .rongqi h3{border-bottom:1px solid #D10B04;} #edtSearch{border:1px solid #D10B04;} #daohang .zuo ul li{border-right:1px solid #;} #daohang ul li t a{border-top:1px solid #;border-right:1px solid #D10B04;} #daohang ul li t a:hover{border-right:1px solid #;} #daohang .you ul li a:hover,#daohang .zuo ul li a:hover,.reed-pinglun-anniu:hover{background-color:#;} a:hover,.reed h6 a:hover,#dibuer a:hover,.reed .riqiding,.cebianlan .rongqi li a:hover,#pinglun-liebiao ul.fubens li.depth-1 dl dd span.shu a,#pinglun-liebiao ul.fubens li.depth-1 dl dd span.huifuliuyan a:hover,.reed-biaoti h6 span{color:#D10B04;} .reed .kan a{color:#0A0AF5;}.reed .kan a:hover{color:#D10101;} @media screen and (max-width:1492px){a.shang,a.xiat{background:none;} a.xiat:hover,a.shang:hover{background-color:#f9f9f9;background-image:none;text-decoration:none;}} var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?b19db5ba3b437a9e8698d2bc8fc64334"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})(); var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?b19db5ba3b437a9e8698d2bc8fc64334"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?2d748c9763cfc72fb7d1ccab29f0770d"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f6d451f3f1be23f3abf240c64c469c1b"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();

当前位置:首页 » 大数据精品文章 » 正文

(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646201", container: s }); })();
(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646162", container: s }); })();

你必须知道的大数据

1175 人参与  2018年10月16日 13:01  分类 : 大数据精品文章  评论

大卫·芬雷布(David Feinleib) | 文
熊静如 | 译

如果说有一家科技公司准确定义了“大数据”概念的话,那一定是谷歌。根据搜索研究公司康姆斯科(Comscore)的调查,仅2012年3月一个月的时间,谷歌处理的搜索词条数量就高达122亿条。

谷歌不仅存储了它的搜索结果中出现的网络连接,还会储存所有人搜索关键词的行为,它能够精准地记录下人们进 行搜索行为的时间、内容和方式。这些数据能够让谷歌优化广告排序,并将搜索流量转化为盈利模式。谷歌不仅能追踪人们的搜索行为,而且还能够预测出搜索者下 一步将要做什么。换言之,谷歌能在你意识到自己要找什么之前预测出你的意图。这种抓取、存储并对海量人机数据进行分析,然后据此进行预测的能力,就是所谓 的“大数据”。

2012:大数据十字路口?

为什么大数据突然变得这么火?为什么《纽约时报》把2012年定义为“大数据的十字路口”?

大数据之所以进入主流大众的视野,源自三种趋势的合力:

第一,许多高端消费品公司加强了对大数据的应用。社交网络巨擎Facebook使用大数据来追踪用户在其网 络的行为,通过识别你在它的网络中的好友,从而给出新的好友推荐建议,用户拥有越多的好友,他们与Facebook之间的黏度就越高。更多的好友意味着用 户会分享更多照片、发布更多状态更新、玩更多的游戏。

商业网站LinkdIn则使用大数据在求职者和招聘职位之间建立关联。有了LinkdIn,猎头们再也不用 向潜在的受聘者打陌生电话来碰运气,而可以通过简单的搜索找出潜在受聘者并联系他们。与此相似,求职者也可以通过联系网站上其他人,自然而然地将自己推销 给潜在的雇主。

第二,以上两家公司都在2012年早些时候陆续上市。Facebook在纳斯达克上市,LinkedIn在 纽约证券交易所上市。这两家企业和谷歌一样,虽然表面上是消费品公司,然而其本质是大数据企业。除去这两家,Splunk也在2012年完成了上市,它是 一家帮助大中型企业提供运营智能的大数据企业。这些企业的公开上市提高了华尔街对于大数据的兴趣。这种兴趣带来了空前的盛况——硅谷的风险投资家们开始前 仆后继地投资大数据企业。大数据将引发下一波创业大潮,而这次浪潮有望让硅谷在未来几年取代华尔街。

第三,亚马逊、Facebook、LinkedIn和其他以数据为核心消费品的活跃用户们,开始期待自己在 工作中也能获得畅通无阻地使用大数据的体验,而不再仅仅限于生活娱乐。用户们此前一直想不通,既然互联网零售商亚马逊可以推荐阅读书目、推荐电影、推荐可 供购买的产品,为什么他们所在的企业却做不到类似的事情。

比如,既然汽车租赁公司拥有客户过去租车的信息和现有可用车辆库存的信息,这些公司为何就不能在向不同的租 车人提供合适的车辆方面做得更智能一点?公司还可以通过新的技术,将公开信息利用起来——比如某个特定市场的状况,会议活动信息,以及其他可能会影响市场 需求和供给的事件。通过将内部供应链数据和外部市场数据结合在一起,公司就可以更加精确地预测什么车辆可用,以及可用时间。

与此类似,零售商应当可以将来自外部的公开数据和内部数据结合在一起,利用这种混合的数据进行产品定价和市 场布局。同时还可以同时考虑影响现货供应能力的多种因素以及消费者购物习惯,包括哪两种产品相搭配会卖得更好,这样零售商就可以提升消费者的平均购买量, 从而获得更高的利润。

谷歌的行动

谷歌的体量和规模,使它拥有比其他大多数企业更多的应用大数据的途径。谷歌的优势之一在于,它拥有一支软件工程师部队,这使得谷歌能够从无到有地建立大数据技术。

谷歌的另一个优势在于它所拥有的基础设施。谷歌搜索引擎本身的设计,就旨在让它能够无缝链接成千上万的服务器。如果出现更多的处理或存储需要,抑或某台服务器崩溃,谷歌的工程师们只要再添加更多的服务器就能轻松搞定。

谷歌软件技术的设计也秉持着同样的基础设施理念。MapReduce(谷歌开发的编程工具,用于大规模数据集的并行运算。——译者注)和谷歌文件系统(Google File System)就是两个典型的例子。《连线》杂志在2012年初夏曾报道称,这两个软件系统“重塑了谷歌建立搜索索引的方式”。

为数众多的企业如今开始使用Hadoop,它是MapReduce和谷歌文件系统的一种开源衍生产品。 Hadoop允许横跨多台电脑,对庞大的数据集合进行分布式处理。在其他企业刚刚开始使用Hadoop的时候,谷歌早已多年深耕大数据技术,这让它在行业 中获得了巨大的领先优势。

如今谷歌正在进一步开放数据处理领域,将其和更多第三方共享。谷歌最近刚刚推出web服务BigQuery。该项服务允许使用者对超大量数据集进行交互式分析。按照谷歌目前的状况,“超大量”,意味着数十亿行数据。BigQuery就是按指令在云端运行的数据分析。

除此以外,谷歌还坐拥人们在谷歌网站进行搜索及经过其网络时所产生的大量机器数据。用户所输入的每一个搜索请求,都会让谷歌知道他在寻找什么,所有人类行为都会在互联网上留下痕迹路径,而谷歌占领了一个绝佳的点位来捕捉和分析该路径。

不仅如此,谷歌在搜索之外还有更多获取数据的途径。企业安装“谷歌分析(Google Analytics)”之类的产品来追踪访问者在其站点的足迹,而谷歌也可获得这些数据。网站还使用“谷歌广告联盟(Google Adsense)”,将来自谷歌广告客户网的广告展示在其站点,因此,谷歌不仅可以洞察自己网站上广告的展示效果,同样还可以对其他广告发布站点的展示效 果一览无余。

将所有这些数据集合在一起所带来的结果是:企业不仅从最好的技术中获益,同样还可以从最好的信息中获益。在信息技术方面,许多企业可谓耗资巨大,然而在信息技术的组成部分之一——信息领域,谷歌所进行的庞大投入和所获得的巨大成功,却罕有企业能望其项背。

亚马逊步步紧逼

谷歌并不是惟一一个推行大数据的大型技术公司。互联网零售商亚马逊已经采取了一些激进的举动,令其有可能成为谷歌的最大威胁。

曾有分析者预测,亚马逊2015年营收将超过1000亿美元,它即将赶超沃尔玛成为世界最大的零售商。如同 谷歌一样,亚马逊也要处理海量数据,只不过它处理数据带有更强的电商倾向。消费者们在亚马逊的网站上对想看的电视节目或是想买的产品所进行的每一次搜索, 都会让亚马逊对该消费者的了解有所增加。基于搜索和产品购买行为,亚马逊就可以知道接下来应该推荐什么产品。而亚马逊的聪明之处还不止于此,它还会在网站 上持续不断地测试新的设计方案,从而找出转化率最高的方案。

你会认为亚马逊网站上的某段页面文字只是碰巧出现的吗?如果你这样认为的话,你应该再好好想一想。整个网站的布局、字体大小、颜色、按钮以及其他所有的设计,其实都是在多次审慎测试后的最优结果。

以数据为导向的方法并不仅限于以上领域,按一位前员工的说法,亚马逊的企业文化就是冷冰冰的数据导向型文 化。数据显示出什么是有效的、什么是无效的,新的商业投资项目必须要有数据的支撑。对数据的长期专注让亚马逊能够以更低的售价提供更好的服务。消费者常常 会完全跳过谷歌之类的搜索引擎,直接去亚马逊网站搜索商品、并进行购买。

争夺消费者控制权的战争硝烟还在弥漫扩散,苹果、亚马逊、谷歌,以及微软,这四家公认的巨头如今不仅在互联 网上厮杀,在移动领域同样打得难解难分。鉴于消费者们把越来越多的时间花在手机和平板电脑等移动设备上,坐在电脑前的时间越来越少,因此,那些能进入消费 者掌中移动设备的企业,将在销售和获取消费者行为信息方面更具有优势。企业掌握的消费者群体和个体信息越多,它就越能够更好地制定内容、广告和产品。

从支撑新兴技术企业的基础设施到消费内容的移动设备,令人难以置信的是,亚马逊的触角已触及到更为广阔的领 域。亚马逊在几年前就预见了将服务器和存储基础设施开放给其他人的价值。“亚马逊网络服务(Amazon Web Services,简称AWS)”是亚马逊公司知名的面向公众的云服务提供者,为新兴企业和老牌公司提供可扩展的运算资源。虽然AWS成立的时间不长,但 已有分析者估计它每年的销售额超过15亿美元。

AWS所提供的运算资源为企业开展大数据行动铺平了道路。当然,企业依然可以继续投资建立以私有云为形式的自有基础设施,而且很多企业还会这样做。但是如果企业想尽快利用额外的、

可扩展的运算资源,他们还可以方便快捷地在亚马逊的公共云上使用多个服务器。如今亚马逊引领潮流、备受瞩目,靠的不仅是它自己的网站和Kindle之类新的移动设备,支持着数千个热门站点的基础设施同样功不可没。

AWS带来的结果是,大数据分析不再需要企业在IT上投入固定成本,如今,获取数据、分析数据都能够在云端简单迅速地完成。换句话说,企业过去由于无法存储而不得不抛弃数据,如今它们有能力获取和分析规模空前的数据。

实现信息优势

AWS之类的服务与Hadoop之类的开源技术相结合,意味着企业终于能够尝到信息技术在多年以前向世人所描绘的果实。

数十年来,人们对所谓“信息技术”的关注一直偏重于其中的“技术”部分。首席信息官的职责只不过是对服务器、存储和网络的购买及管理。而今,信息以及对信息的分析和存储、依据信息进行预测的能力,正成为企业竞争优势的来源。

信息技术刚刚兴起的时候,较早应用信息技术的企业能够更快地发展,超越他人。微软在20世纪90年代树立起威信,这不仅仅得益于它开发了世界上应用最为广泛的操作系统,还在于它当时在公司内部将电子邮件作为标准沟通机制。

在许多企业仍在犹豫是否采用电子邮件的时候,电子邮件事实上已经成为微软讨论招聘、产品决策、市场战略之类 事务的机制。虽然群发电子邮件的交流在如今已是司空见惯,但在当时,这样的举措让微软较之其他未采用电子邮件的公司,更加具有速度和协作优势。拥抱大数 据、在不同的组织之间民主化地使用数据,将会给企业带来与之相似的优势。诸如谷歌和Facebook之类的企业已经从“数据民主”中获益。

通过将内部数据分析平台开放给所有跟自己的公司相关的分析师、管理者和执行者,谷歌、Facebook及其他一些公司已经让组织中的所有成员都能向数据提出跟商业有关的问题、获得答案

并迅速行动。以Facebook为例,它将大数据推广成为内部的服务,这意味着该服务不仅是为工程师设计 的,也是为终端用户——生产线管理人员设计的,他们需要运用查询来找出有效的方案。因此,管理者们不需要等待几天或是几周的时间来找出网站的哪些改变最有 效,或者哪些广告方式效果最好,他们可以使用内部的大数据服务,而该服务就是为了满足其需求而设计的,这使得数据分析的结果很容易就可以在员工之间被分 享。

过去的二十年是信息技术的时代,接下来二十年的主题仍会是信息技术。这些企业能够更快地处理数据,而公共数据资源和内部数据资源一体化将带来独特的洞见,使他们能够远远超越竞争对手。如同我所撰写的《大数据的八大定律》(The Top 8 Laws Of Big Data)所言,你分析数据的速度越快,它的预测价值就越大。企业如今正在渐渐远离批量处理(批量处理指先存储数据,事件之后再慢慢进行分析处理),转向实时分析来获取竞争优势。

对于高管们而言,好消息是:来自于大数据的信息优势不再只属于谷歌、亚马逊之类的大企业。Hadoop之类的开源技术让其他企业同样可以拥有这样的优势。老牌财富100强企业和新兴初创公司,都能够以合理的价格,利用大数据来获得竞争优势。

大数据的颠覆

大数据带来的颠覆,不仅是与以往相比可以获取和分析更多数据的能力,更重要的是获取和分析等量数据的价格也正在 显著下降,而价格越低,销量就会越高。然而,隐含其中的讽刺关系正如所谓的“杰文斯悖论”(Jevons Paradox)。经济学家杰文斯通过观察工业革命得出该悖论,并以他的名字命名(杰文斯悖论的核心是,资源利用率的提高导致价格降低,最终会增加资源的 使用量。——译者注)。科技进步使储存和分析数据的方式变得更有效率,公司将做更多的数据分析,因此并没有减少工作。简而言之,这就是大数据带来的颠覆。

从亚马逊到谷歌,从IBM到惠普和微软,大量的大型技术公司纷纷投身大数据,而基于大数据解决方案,更多初 创型企业如雨后春笋般涌现,实现开放源和共享云。大公司致力于横向的大数据解决方案,与此同时,小公司则专注于为重要垂直业务提供应用程序。有些产品优化 销售效率,还有些产品通过将不同渠道的营销业绩与实际的产品使用数据相关联,为未来营销活动提供建议。这些大数据应用(Big Data Applications,简称BDA)意味着小公司不必在内部开发或配备所有大数据技术;在很多情况下,它们可以利用基于云端的服务来满足数据分析需 求。在技术之外,这些小企业还会开发一些产品,追踪记录与健康相关的指标并据此提出改善人们行为的建议。诸如此类的产品有望减少肥胖,提高生活质量,同时 降低医疗成本。

大数据路线图

产业分析研究公司福雷斯特(Forrester)估计,企业数据的总量在以每年94%的增长率飙升。这样的高速 增长之下,每个企业都需要一个大数据路线图。至少,企业应制订获取数据的战略,获取范围应从内部电脑系统的常规机器日志,到线上的用户交互记录。即使企业 当时并不知道这些数据有什么用也要这样做,这些数据的用处随后或许会突然被发现。

数据所具有的价值远远高于你最初的期待,千万不要随便抛弃数据。企业还需要一个计划以应对数据的指数型增长。照片、即时信息以及电子邮件的数量非常庞大,由手机、GPS及其他设备构成的“感应器”释放出的数据量甚至还要更大。

理想情况下,企业应该具备一种能够让数据分析贯穿于整个组织的视野,分析应该尽可能地接近实时。通过观察谷歌、亚马逊、Facebook和其他科技领袖企业,你可以看到大数据之下的种种可能。管理者需要做的就是在组织中融入大数据战略。

谷歌和亚马逊这样的企业,应用大数据进行决策已数年有余,它们在数据处理上已经获得了广泛的成功。而现在,你也可以拥有同样的能力。


大卫·芬雷布是《大数据图景》和《大数据潮流》的作者。


来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1120

(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })();
(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();
window._bd_share_config={"common":{"bdSnsKey":{},"bdText":"","bdMini":"2","bdPic":"","bdStyle":"0","bdSize":"16"},"share":{},"image":{"viewList":["qzone","tsina","tqq","renren","weixin"],"viewText":"分享到:","viewSize":"16"},"selectShare":{"bdContainerClass":null,"bdSelectMiniList":["qzone","tsina","tqq","renren","weixin"]}};with(document)0[(getElementsByTagName('head')[0]||body).appendChild(createElement('script')).src='http://bdimg.share.baidu.com/static/api/js/share.js?v=89860593.js?cdnversion='+~(-new Date()/36e5)];
大数据技术与应用  

微信号:qq444848023    QQ号:444848023

加入【我是码农】QQ群:864689844(加群验证:我是码农)

<< 上一篇 下一篇 >>
(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646186", container: s }); })();
(function() { var s = "_" + Math.random().toString(36).slice(2); document.write('
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646175", container: s }); })();
搜索

网站分类

标签列表

最近发表

    (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https'){ bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else{ bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();

全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试

var cnzz_protocol = (("https:" == document.location.protocol) ? "https://" : "http://");document.write(unescape("%3Cspan id='cnzz_stat_icon_1276413723'%3E%3C/span%3E%3Cscript src='" + cnzz_protocol + "s23.cnzz.com/z_stat.php%3Fid%3D1276413723%26show%3Dpic1' type='text/javascript'%3E%3C/script%3E"));本站资源大部分来自互联网,版权归原作者所有!

jQuery(document).ready(function($){ /* prepend menu icon */ $('#daohangs-around').prepend('
'); /* toggle nav */ $("#caidan-tubiao").on("click", function(){ $("#daohangs").slideToggle(); $(this).toggleClass("active"); }); });

©著作权归作者所有:来自ZhiKuGroup博客作者没文化的原创作品,如需转载,请注明出处,否则将追究法律责任 来源:ZhiKuGroup博客,欢迎分享。

评论专区
  • 昵 称必填
  • 邮 箱选填
  • 网 址选填
◎已有 0 人评论
搜索
作者介绍
30天热门
×
×
本站会员尊享VIP特权,现在就加入我们吧!登录注册×
»
会员登录
新用户注册
×
会员注册
已有账号登录
×