Optimize

简介总体上来说，Spark的流程和MapReduce的思想很类似，只是实现的细节方面会有很多差异。首先澄清2个容易被混淆的概念： Spark是基于内存计算的框架 Spark比Hadoop快100倍第一个问题是个伪命题。任何程序都需要通过内存来执行，不论是单机程序还是分布式程序。 Spark会被称为基于内存计算的框架，主要原因在于其和之前的分布式计算框架很大不同的一点是，Shuffle的数据集不需要通过读写磁盘来进行交换，而是直接通过内存交换数据得到。效率比读写磁盘的MapReduce高上好多倍，所以很多人称之为基于内存的计算框架，其实更应该称为基于内存进行数据交换的计算框架。 ...