sparkSpark’s primary abstraction is a distributed collection of items called a Dataset. Datasets can be created from Hadoop InputFormats (such as HDFS files) or by transforming other Datasets.Apache Spark adalah mesin pemrosesan data sumber terbuka untuk kumpulan data besar, yang dirancang untuk memberikan kecepatan, skalabilitas, dan kemampuan pemrograman yang