1. Обзор
Apache Spark — это распределенная система аналитики и обработки данных с открытым исходным кодом, которая позволяет масштабировать инженерию данных и науку о данных. Он упрощает разработку приложений, ориентированных на аналитику, предлагая унифицированный API для передачи данных, массовых преобразований и распространения.
DataFrame является
важным и важным компонентом Spark API. В этом руководстве мы рассмотрим некоторые API-интерфейсы Spark DataFrame
на простом примере с данными о клиентах.
2. DataFrame
в Spark
Логически DataFrame
представляет собой неизменяемый набор записей, организованных в именованные столбцы `` . Он имеет сходство с таблицей в RDBMS или ResultSet
в Java.