大数据入坑001

计算

　　Hadoop，spark等计算是以一天的大量的数据进行计算的，需要花费大量的时间，我们称之为大数据离线计算，批处理计算。
　　而同时也有实时计算的，比如storm,flink等在线计算出数据的，我们称之为大数据实时计算，流式计算。
　　业界的方案是批处理技术处理全量数据，而流式计算处理新增数据，而像Flink这样的计算引擎，是可以同时支持流式计算和批处理计算。我觉得这个很类似redis的主从同步策略。

存储

　　NOsql系统处理海量数据的存储和访问。比如HBAse,这个基于HDFS的NoSQL系统。

场景

　　数据分析（Hive,Spark SQL等sql引擎），数据挖掘，机器学习。

移动计算

　　移动计算比移动数据更加划算。巨大的数据使得网络带宽无法满足。因此我们将数据采取HDFS分布式文件存储系统，将文件分为很多块。然后大数据引擎根据服务器的计算能力，在每台服务器上启动若干分布式任务进程，这些进程会等待给他们分配执行任务。第三步，使用该大数据引擎支持的编程模型编程，编程好后打包，用其引擎执行该程序包，首先解析程序要处理的数据输入路径，根据数据量大小，将数据分成若干片，每一个数据片分配一个任务去执行。第四步。任务执行进程接受到分配的任务后，检查自己是否有任务对应的程序包，没有就去下载，然后反射执行。

RAID

　　RAID技术是将多个普通磁盘组成一个阵列，共同对外提供服务。