# toDF 함수는 RDD를 DataFrame으로 변환시켜주는 함수
df = rdd_data.toDF()
# SparkContext는 Spark 클러스터에 대한 연결을 나타내며 해당 클러스터에서 RDD, 누적기 및 브로드캐스트 변수를 생성하는 데 사용할 수 있습니다.
SparkContext()
# Apache SparkSparkContext객체를 포함하여 Apache Spark 플랫폼과 상호작용하기 위한 원리를 제공합니다.
GlueContext(spark_context 객체)
# withColumn (추가 컬럼 이름, 값)
withColumn(abc + "divide10000",
# abc가 5보다 작을경우 0처리
(when(length(abc) < 5, "0")
# abc가 5와 같거나 5보다 높을 경우 ,expr 함수 는 쿼리문dmf ()에 넣을수 있다.
.otherwise(expr("substring(" + abc + ", 1, length(" + abc + ") - 4)"))))
'AWS_Service > Glue' 카테고리의 다른 글
.withColumn(datetime) (0) | 2021.12.09 |
---|---|
Glue Schedules 형식 (0) | 2021.10.18 |