sparkO Apache Spark é um sistema de processamento distribuído de códo aberto usado para workloads de b data. O sistema usa armazenamento em cache na memória e execuçãoSpark’s primary abstraction is a distributed collection of items called a Dataset. Datasets can be created from Hadoop InputFormats (such as HDFS files) or by transforming other Datasets.