1. Spark 초기화 import findspark findspark.init() [package] findspark ▼ 더보기 findspark 패키지의 findspark.init() 함으로써 pyspark 라이브러리를 보통 라이브러리처럼 import 할 수 있게 해주는 패키지 Pyspark는 sys.path에 default로 등록되어 있지 않아서, 보통 라이브러리처럼 import하기 위해 findspark 패키지를 통해 runtime 동안에만 sys.path에 등록할 수 있게 해준다. (pyspark shell로 개발하거나, hadoop cluster의 yarn을 이용해 pyspark job을 제출할 때에는 필요하지 않다) 2. Spark 세션 정의 스파크 세션 열고, 생성된 세션을 가지고 데이터 ..