试着解释大数据

这篇blog本来是在ourcoders的一篇回复。写完几天后,觉得还有必要总结留底,所以做了些修改,形成了这篇文章。

我做大数据其实时间并不长,对大数据的理解也还处于很粗浅的阶段,欢迎大家讨论。

大数据这事其实有两层意思:一层是单纯从业务上说,到底如何收集并有效利用数据做决策;另一层是指如何处理数据并完成决策所需要的数据支持。

业务上利用数据做决策,是算法科学家或者现在所谓的大数据科学家,甚至是管理层和客户的事情。他们首先要了解运行的业务是什么,然后找出可以量化的关键点,再通过数据来检验这些量化指标,最终得出决策,听上去和程序员debug差不多。

处理数据是公司的基础it架构,属于运维和开发的范畴,google的map/reduce,后来的hadoop都是在解决这一块的问题。

一般来说,公司小的时候数据不多,用excel就能很好的处理。随着数据增加,使用数据库存储数据,配合脚本计算是常用的方法。如果业务很大,需要计算的数值变化频繁和数据量的增加,单点的数据库效率会变得越来越低,直到完全没法忍受。这时候就需要考虑使用mapreduce的分布式解决方案。这也是hadoop的真正用武之地。

数据量会暴涨的一个主要原因,是互联网正在量化越来越多的行为,由此产生了越来越多的数据。以前只能通过抽样调查得到的数据(比如收视率,用户的使用习惯),现在可以通过各种方式直接拿到所有用户的数据。既然有数据了就要利用,所以现在企业用来分析的数据也不再是采样数据,而更多是全量数据。所以有人也会把现在的大数据称作全数据。

讲个牛逼的八卦:美国80年代有家叫尼尔森的公司,专门做收视率调查。他们做法非常牛逼,会和家庭签协议,调查这个家庭的一些背景,并放一个与有线电视网联通的盒子在电视机旁边。这个盒子可不是小米盒子,而是个录音盒,目的在根据录音判断这家人看到了哪些广告。这事到这,只能说明当年大家想要收集一些数据都很辛苦,而且收集到的数据有很大的随机性。但是这事没完。后来全世界人民都非常开心的把自己的信息主动写在一个网站上,而尼尔森公司也看到这个机会,就和这家网站合作,取得了大量用户的背景信息(当然理论上是不能反查到个人的),并利用这些信息和自己的收视率数据合并,于是尼尔森公司就能更加准确地提供收视率了。这家网站,叫Facebook。

这事可以说是数据上,从抽样数据转向全量数据的典型。现在各大网站利用cookie这些浏览信息暗中串通记录用户信息也不是什么秘密了,也一直有人说个人的行为在互联网上完全没法隐藏。既然公司买卖的都是全量数据,那么拿来做分析的当然也不会再仅限于抽样数据,也进入了全量数据处理的时代。

大数据的架构,除了要解决使用单点数据库的性能,方便业务扩展时横向扩展系统的最大性能,另一方面也要考虑数据的提出者和使用者并不是程序员,而是对技术理解欠佳的决策层和科学家。从技术的发展脉络上来看,是让人家写c++/java(传统mapreduce),还是翻译更简单使用更广泛的sql(hive)?而hive是批处理模式不适合快速查询,于是spark是如何引入内存加速,而storm又是如何引入流来加快分析周期?aws又是如何提供hadoop集群来简化部署?

最后试着用一句话总结一下:如果是公司层面思考大数据,更多应该关心如何拿到全量数据,如何才能从全量数据里拿到有效决策;而如果是工程层面思考大数据,就是如何搭起一套通用灵活的架构,来满足日益增长的分析业务。

Googol Lee

多年生软件工程师,信仰开源

Munich, Germany http://air.googol.im