Перейти к основному содержимому

5 записей с тегом "Spark"

Посмотреть все теги

· 7 мин. чтения

1. Введение

Apache Spark — это среда кластерных вычислений с открытым исходным кодом . Он предоставляет элегантные API-интерфейсы разработки для Scala, Java, Python и R, которые позволяют разработчикам выполнять различные рабочие нагрузки с интенсивным использованием данных из различных источников данных, включая HDFS, Cassandra, HBase, S3 и т. д.

Исторически сложилось так, что MapReduce в Hadoop оказался неэффективным для некоторых итерационных и интерактивных вычислительных задач, что в конечном итоге привело к разработке Spark. Со Spark мы можем выполнять логику на два порядка быстрее, чем с Hadoop, в памяти или на порядок быстрее на диске .

2. Искровая архитектура

Приложения Spark запускаются как независимые наборы процессов в кластере, как показано на схеме ниже :

· 10 мин. чтения

1. Обзор

Apache Spark — это распределенная система аналитики и обработки данных с открытым исходным кодом, которая позволяет масштабировать инженерию данных и науку о данных. Он упрощает разработку приложений, ориентированных на аналитику, предлагая унифицированный API для передачи данных, массовых преобразований и распространения.

DataFrame является важным и важным компонентом Spark API. В этом руководстве мы рассмотрим некоторые API-интерфейсы Spark DataFrame на простом примере с данными о клиентах.

2. DataFrame в Spark

Логически DataFrame представляет собой неизменяемый набор записей, организованных в именованные столбцы `` . Он имеет сходство с таблицей в RDBMS или ResultSet в Java.

· 9 мин. чтения

1. Обзор

Apache Kafka — это масштабируемая, высокопроизводительная платформа с малой задержкой, которая позволяет считывать и записывать потоки данных, как система обмена сообщениями . Мы можем довольно легко начать с Kafka в Java .

Spark Streaming является частью платформы Apache Spark , обеспечивающей масштабируемую, высокопроизводительную и отказоустойчивую обработку потоков данных . Хотя Spark написан на Scala, он предлагает API-интерфейсы Java для работы с .

Apache Cassandra — это распределенное хранилище данных NoSQL с широкими столбцами . Более подробная информация о Cassandra доступна в нашей предыдущей статье.

В этом руководстве мы объединим их, чтобы создать хорошо масштабируемый и отказоустойчивый конвейер данных для потока данных в реальном времени .

· 4 мин. чтения

1. Введение

Spring Cloud Data Flow — это набор инструментов для построения конвейеров интеграции и обработки данных в реальном времени.

Конвейеры в данном случае — это приложения Spring Boot, созданные с использованием фреймворков Spring Cloud Stream или Spring Cloud Task .

В этом руководстве мы покажем, как использовать Spring Cloud Data Flow с Apache Spark .

2. Локальный сервер потока данных

· 8 мин. чтения

1. Введение

В этой статье мы кратко познакомимся с фреймворком Spark . Spark framework — это веб-фреймворк для быстрой разработки, вдохновленный фреймворком Sinatra для Ruby и построенный на философии Java 8 Lambda Expression, что делает его менее подробным, чем большинство приложений, написанных в других фреймворках Java.

Это хороший выбор, если вы хотите получить опыт работы с Node.js при разработке веб-API или микросервисов на Java. С помощью Spark вы можете получить готовый REST API для обслуживания JSON менее чем за десять строк кода.

Мы быстро начнем с примера «Hello World», за которым последует простой REST API.

2. Зависимости Maven