Архитектура движка обеспечивает обработку данных в оперативной памяти, что сокращает задержки при многократных операциях с одним набором данных.
Поддержка разнородных рабочих нагрузок объединяет пакетную обработку, потоковый анализ, машинное обучение и графовые вычисления в едином конвейере.
Встроенные библиотеки (Spark SQL, MLlib, GraphX, Structured Streaming) предоставляют готовые интерфейсы для распространенных сценариев обработки данных.
Декларативный API Structured Streaming позволяет описывать потоковые трансформации с использованием тех же абстракций DataFrame, что и для статических наборов данных.