Apache Spark — мощный движок обработки исходного кода, основанный на скорости, простоте использования и сложной аналитике с API-интерфейсами в Java, Scala, Python, R и SQL. Spark запускает программы до 100 раз быстрее, чем Apache Hadoop MapReduce в памяти, или в 10 раз быстрее на диске. Может использоваться для создания приложений данных в виде библиотеки или для интерактивного анализа данных ad hoc.
Spark предоставляет стек библиотек, включая SQL, DataFrames и Datasets, MLlib для машинного обучения, GraphX для обработки графов и Spark Streaming. Вы можете объединить эти библиотеки в одном приложении. Кроме того, Spark работает на ноутбуке, Apache Hadoop, Apache Mesos, автономно или в облаке. Он может обращаться к различным источникам данных, включая HDFS, Apache Cassandra, Apache HBase и S3.
[Словарь современных терминов Data Science. (Электронный ресурс). Режим доступа: http:// softline.ru›about/blog/slovar-sovremennykh-/, свободный.]