전체 글 29

글또 10기 후기...

개요작년 10월 즈음부터 시작했던 글또 10기가 마지막 제출을 앞두고 있어, 마지막 포스팅은 후기를 작성하고자 한다.우선, 내가 글또를 참여하게 되었던 계기는 정리해보면 아래 세 가지였던 것 같다.꾸준히 공부하며 내 생각을 잘 표현하는 방법을 배우는 것나와 비슷한 업무를 하는 사람들과 이야기를 나눠보며 성장하는 것게을러지지 않기 위한 습관을 기르는 것6개월 전의 나와 현재의 나를 비교한다면, 위 세가지 참여 계기를 잘 지켜온 것 같다. 꾸준히 공부하며 내 생각을 잘 표현하는 방법을 배우는 것우선, 해당 포스팅까지 총 1회의 패스를 진행했고, 그 외에는 매 회차 제출을 진행했다. 글또에 참가하며 개발 블로그를 처음 작성했기에, 글쓰는 능력이나 공유하는 역량이 스스로 생각하기에도 부족하다고 느꼈다. 그렇지만..

카테고리 없음 2025.03.23

SAP 데이터를 추출하며..

개요회사에서 DE 직무로 근무하며 현재는 Data Hub를 구축하는 업무를 진행하고 있다.원천 시스템이 RDB (Oracle / MariaDB / Tibero / ...)가 아닌 SAP인 경우가 많이 존재했고, 이는 나에게 굉장한 혼란을 주었다. 그 이유는 ....나는 SAP이 뭔지 몰랐다. (ASAP은 안다). SAP이라는 시스템이 뭔지 잘 모르는 상황에서, 데이터를 수집하여 Hub 구축을 진행해야 했다.이 포스팅을 읽는 사람들 중, SAP을 개발하시는 분이라면 아래와 같이 생각할 수 있다. SAP 솔루션 쓰면 모든게 해결되지 않나...??? 회사에서 SAP 솔루션이나 SAP BW를 사용하면 데이터 추출 / 수정 등의 관리가 용이하지만, 현재 우리 회사는 안타깝게도 따로 어떠한 솔루션을 사용하고 있지 ..

카테고리 없음 2025.03.16

[글또 챌린지 시즌2] 코드트리 이용 1달 후기

개요최근 글쓰기 모임 '글또'에서 진행하는 코드트리 챌린지에 참여하며, 코딩 학습에 대한 새로운 가능성을 발견했습니다. 코드트리가 제공하는 체계적인 커리큘럼과 풍부한 학습 콘텐츠는 저에게 깊은 인상을 남겼으며, 이에 대한 후기를 공유하고자 합니다. [1] 체계적인 학습의 시작: Trail코드트리 챌린지에서 가장 주목할 만한 기능은 'Trail'입니다. 이 기능은 알고리즘의 기초부터 심화까지, 단계별로 학습할 수 있도록 설계된 체계적인 커리큘럼을 제공합니다. 마치 잘 짜여진 학습 로드맵을 따라가는 듯한 느낌을 주며, 학습자가 혼란 없이 목표를 향해 나아갈 수 있도록 돕습니다.  각 섹션은 기본 개념, 문제, 해설, 토론 탭으로 구성되어 있어 학습의 효율성을 높입니다. 특히, 문제 풀이 중 어려움에 직면했을..

CodeTree 2025.02.03

[Apache Sqoop] Sqoop이란?

Sqoop이란?Apache Sqoop이란 RDBMS (MySQL, Oracle, ...)에서 Apache Hadoop 간 대용량 데이터 전송을 위해 설계된 도구이며, SQL-On-Hadoop의 약자라고 합니다. ETL / ELT 작업을 수행해야하는 상황에서 수집해야 하는 데이터의 크기가 대용량일 경우 Sqoop의 도입은 효율적인 파이프라인을 구성하는 데 고민해볼 수 있습니다. 간단한 예시로 DW (Data WareHouse)를 위한 파이프라인을 구성한다고 가정해보면...  위 그림과 같이, 다양한 형태의 운영계 DB가 존재하는 상황에서 ETL을 통해 STG / ODS / DW / DM을 구성할 수 있습니다. 여기서  STG 영역은 운영계의 데이터를 그대로 복사하여 저장 / 관리를 진행하는 영역이며, 해당..

Apache Sqoop 2025.01.11

[Spark 완벽 가이드] Adaptive Query Execution이란?

서론이번 포스팅에서는 Spark 3.0 버전부터 등장한 AQE(Adaptive Query Execution)에 대해서 알아가보는 시간을 가져보겠습니다. 이전 Spark 글에서 배경 및 기초 개념 / Catalyst Optimizer에 대한 내용을 공유드렸었는데, 혹여나 아직 보지 않으신 분들은 먼저 보고 오시는 것을 추천드립니다. 그 이유는 AQE의 배경이나 작동 방식 등을 이해하기 위해서는 어느 정도의 개념을 인지하고 있어야 하기 때문입니다. 아마도 보고오시면 해당 포스팅을 이해하는 데 도움이 될 것입니다. https://binary-kim.tistory.com/22 [Spark 완벽 가이드] Catalyst Optimizer란?서론저번 포스팅에서는 Spark가 나오게 된 배경 및 기본 개념을 위주로 ..

Apache Spark 2025.01.02

2024년 회고

개요안녕하세요. 어느덧 글 쓰는 시점은 현재 2024년 마지막 날이며, 내일이면 새로운 한 해를 맞이하게 되네요!현재 기술 블로그도 작성 중에 있지만, 올 한 해를 되돌아보고 어떤 부분이 좋았고 개선해야 할 지를 좀 되돌아고보고자 작성해봅니다.추가로, 신년에는 무엇을 목표로 할 지도 목표를 세워보고자 합니다. (글또라는 활동을 진행한지 벌써 3개월이 다되갑니다. ㅎㅎ) 회고올해는 현재까지 살면서 가장 이벤트가 많았던 한 해였던 것 같습니다.  1분기에는 졸업 및 네이버 부스트캠프를 수행하며 역량 향상을 위해 노력했던 시간이었습니다. 그 당시, 변성윤님의 스페셜 세션이 5차례 정도 있었던 것으로 기억하는데, "유익하면서도 잠시 쉬어가는 힐링 타임"으로 현재까지도 기억에 남아 너무 좋았고, 글또라는 활동에 ..

일상 2024.12.31

[Hadoop 완벽 가이드] HDFS Federation 및 고가용성(HA)를 알아보자.

서론안녕하세요. 본 게시물에서는 빅데이터 플랫폼인 Hadoop을 공부하면서, HDFS Federation이 어떤 역할을 위해 탄생했고 활용되는지를 알아보고자 글을 작성합니다. 최근 회사에 입사한 후 어떤 개념을 먼저 공부해볼 까 고민하던 중, 동료분께서 HDFS Federation의 개념에 대해서 말씀해주셨고, 이를 한 번 공부하며 기록해보고자 합니다. 이번 게시물은 HDFS Federation 배경 및 환경 구축에 필요한 개념들을 먼저 알아가 볼 것이며, 다음 게시물에서는 실제 Local Docker 환경에서 HA / Federation이 적용된 Multi Node Cluster를 구축하는 실습 관련하여 게시물을 작성해볼 예정입니다. 한 번 시작해볼까요? HDFS Federation정의 우선, HDFS..

Apache Hadoop 2024.12.15

[Spark 완벽 가이드] Catalyst Optimizer란?

서론저번 포스팅에서는 Spark가 나오게 된 배경 및 기본 개념을 위주로 정리해보는 시간을 가졌습니다. 이번 시간에는 Spark에서 Job을 제출했을 때 어떻게 최적화를 진행하는지를 시작으로 하여, 여러가지 성능 튜닝 기법들에 대해서 정리해보는 시간을 가져볼까 합니다. Spark에서 사용할 수 있는 여러가지 Method (map, filter, ...)들을 다루는 포스팅도 생각해봤지만, 해당 영역은 개념적인 부분보다 실습에 가까운 부분이기 때문에 생략을 해보려고 합니다. Spark Optimization이 중요한 이유는 뭘까요? 그리고 왜 필요할까요? 해당 질문에 대해 생각해보면 ... 최적화라는 것은 주어진 자원 내에서 성능을 최대한 끌어올려 원하는 작업을 더 빠르게, 더 효율적으로 수행하도록 만드는 ..

Apache Spark 2024.11.18

2024년 10월을 되돌아보며...

회고를 시작하며...이번 주에는 원래 Spark Optimizer와 Spark Job Tuning하는 방법에 대한 기술 블로그를 작성할 예정이었지만 ....!! 현재 거주하는 지역이 입사할 회사랑 거리가 꽤 있는 상황이라, 자취방을 구하고 다니느라 시간이 많이 없었다.  해당 게시물을 작성하는 날짜가 현재 참가하고 있는 "글또" 커뮤니티의 게시물 제출일인 상황에서, "패스할까 vs 10월 회고를 적어볼까" 굉장히 고민을 많이 하다가, 친구와 해당 온라인 활동을 참가할 때 했던 다짐이 생각났다.   "우리에겐 Pass란 없다." 맞다. 나는 Pass를 쓰지 않을 것이다. 그래서, 10월을 한번 되돌아보는 시간을 가져볼 예정이다.  많은걸 했던 10월2024년 10월은 뭔가를 굉장히 부지런하게 했던 달이라 ..

일상 2024.11.10

[Spark 완벽 가이드] Spark 정의 및 API 둘러보기

서론현재 저는 Hadoop / Spark / Airflow / Kafka를 공부하고 있습니다!! 이번 포스팅부터는 현재 공부 중인 "스파크 완벽 가이드"라는 도서를 읽고 Spark라는 Tool이 무엇인지, 어떻게 작동되는지, 어떤 Data Type이 있고 어떤 특징들을 가지고 있는지 3~4차례에 나눠서 기록해보고자 합니다. 대략적인 Keyword는 아래와 같습니다."Spark 정의" -> "Spark 최적화" -> "Spark Streaming" (-> "Spark ML") 우선, Spark를 공부함에 있어 해당 책을 고른 이유는 딥러닝을 공부하면서 "ORELLY" 출판사 책을 굉장히 많이 읽었었는데 내용이 너무 좋았었던 기억이 있어서 이번에도 믿고 구매를 해봤습니다. 그리고, 소프티어 교육을 들으면서 ..

Apache Spark 2024.10.25