본문 바로가기

AWS_Service/Glue

Glue 문법

# toDF 함수는 RDD를 DataFrame으로 변환시켜주는 함수

df = rdd_data.toDF()

 

 

# SparkContext는 Spark 클러스터에 대한 연결을 나타내며 해당 클러스터에서 RDD, 누적기 및 브로드캐스트 변수를 생성하는 데 사용할 수 있습니다.

SparkContext()

 

# Apache SparkSparkContext객체를 포함하여 Apache Spark 플랫폼과 상호작용하기 위한 원리를 제공합니다.

GlueContext(spark_context 객체)

 

# withColumn (추가 컬럼 이름, 값) 

withColumn(abc + "divide10000",

 # abc가 5보다 작을경우 0처리

(when(length(abc) < 5, "0")

 # abc가 5와 같거나 5보다 높을 경우 ,expr 함수 는 쿼리문dmf ()에 넣을수 있다.

.otherwise(expr("substring(" + abc + ", 1, length(" + abc + ") - 4)"))))

'AWS_Service > Glue' 카테고리의 다른 글

.withColumn(datetime)  (0) 2021.12.09
Glue Schedules 형식  (0) 2021.10.18