计算
Hadoop,spark等计算是以一天的大量的数据进行计算的,需要花费大量的时间,我们称之为大数据离线计算,批处理计算。
而同时也有实时计算的,比如storm,flink等在线计算出数据的,我们称之为大数据实时计算,流式计算。
业界的方案是批处理技术处理全量数据,而流式计算处理新增数据,而像Flink这样的计算引擎,是可以同时支持流式计算和批处理计算。我觉得这个很类似redis的主从同步策略。
存储
NOsql系统处理海量数据的存储和访问。比如HBAse,这个基于HDFS的NoSQL系统。
场景
数据分析(Hive,Spark SQL等sql引擎),数据挖掘,机器学习。
移动计算
移动计算比移动数据更加划算。巨大的数据使得网络带宽无法满足。因此我们将数据采取HDFS分布式文件存储系统,将文件分为很多块。然后大数据引擎根据服务器的计算能力,在每台服务器上启动若干分布式任务进程,这些进程会等待给他们分配执行任务。第三步,使用该大数据引擎支持的编程模型编程,编程好后打包,用其引擎执行该程序包,首先解析程序要处理的数据输入路径,根据数据量大小,将数据分成若干片,每一个数据片分配一个任务去执行。第四步。任务执行进程接受到分配的任务后,检查自己是否有任务对应的程序包,没有就去下载,然后反射执行。
RAID
RAID技术是将多个普通磁盘组成一个阵列,共同对外提供服务。