Apache Spark

Унифицированный аналитический движок для распределенной обработки больших данных, поддерживающий программирование на языках Java, Scala, Python и R.

Архитектура движка обеспечивает обработку данных в оперативной памяти, что сокращает задержки при многократных операциях с одним набором данных.
Поддержка разнородных рабочих нагрузок объединяет пакетную обработку, потоковый анализ, машинное обучение и графовые вычисления в едином конвейере.
Встроенные библиотеки (Spark SQL, MLlib, GraphX, Structured Streaming) предоставляют готовые интерфейсы для распространенных сценариев обработки данных.
Декларативный API Structured Streaming позволяет описывать потоковые трансформации с использованием тех же абстракций DataFrame, что и для статических наборов данных.

Остались вопросы? Свяжитесь с нами

Отзывы от клиентов