2024/11 2

[Spark 완벽 가이드] Catalyst Optimizer란?

서론저번 포스팅에서는 Spark가 나오게 된 배경 및 기본 개념을 위주로 정리해보는 시간을 가졌습니다. 이번 시간에는 Spark에서 Job을 제출했을 때 어떻게 최적화를 진행하는지를 시작으로 하여, 여러가지 성능 튜닝 기법들에 대해서 정리해보는 시간을 가져볼까 합니다. Spark에서 사용할 수 있는 여러가지 Method (map, filter, ...)들을 다루는 포스팅도 생각해봤지만, 해당 영역은 개념적인 부분보다 실습에 가까운 부분이기 때문에 생략을 해보려고 합니다. Spark Optimization이 중요한 이유는 뭘까요? 그리고 왜 필요할까요? 해당 질문에 대해 생각해보면 ... 최적화라는 것은 주어진 자원 내에서 성능을 최대한 끌어올려 원하는 작업을 더 빠르게, 더 효율적으로 수행하도록 만드는 ..

Apache Spark 2024.11.18

2024년 10월을 되돌아보며...

회고를 시작하며...이번 주에는 원래 Spark Optimizer와 Spark Job Tuning하는 방법에 대한 기술 블로그를 작성할 예정이었지만 ....!! 현재 거주하는 지역이 입사할 회사랑 거리가 꽤 있는 상황이라, 자취방을 구하고 다니느라 시간이 많이 없었다.  해당 게시물을 작성하는 날짜가 현재 참가하고 있는 "글또" 커뮤니티의 게시물 제출일인 상황에서, "패스할까 vs 10월 회고를 적어볼까" 굉장히 고민을 많이 하다가, 친구와 해당 온라인 활동을 참가할 때 했던 다짐이 생각났다.   "우리에겐 Pass란 없다." 맞다. 나는 Pass를 쓰지 않을 것이다. 그래서, 10월을 한번 되돌아보는 시간을 가져볼 예정이다.  많은걸 했던 10월2024년 10월은 뭔가를 굉장히 부지런하게 했던 달이라 ..

일상 2024.11.10