분류 전체보기 26

[Apache Sqoop] Sqoop이란?

Sqoop이란?Apache Sqoop이란 RDBMS (MySQL, Oracle, ...)에서 Apache Hadoop 간 대용량 데이터 전송을 위해 설계된 도구이며, SQL-On-Hadoop의 약자라고 합니다. ETL / ELT 작업을 수행해야하는 상황에서 수집해야 하는 데이터의 크기가 대용량일 경우 Sqoop의 도입은 효율적인 파이프라인을 구성하는 데 고민해볼 수 있습니다. 간단한 예시로 DW (Data WareHouse)를 위한 파이프라인을 구성한다고 가정해보면...  위 그림과 같이, 다양한 형태의 운영계 DB가 존재하는 상황에서 ETL을 통해 STG / ODS / DW / DM을 구성할 수 있습니다. 여기서  STG 영역은 운영계의 데이터를 그대로 복사하여 저장 / 관리를 진행하는 영역이며, 해당..

Apache Sqoop 2025.01.11

[Spark 완벽 가이드] Adaptive Query Execution이란?

서론이번 포스팅에서는 Spark 3.0 버전부터 등장한 AQE(Adaptive Query Execution)에 대해서 알아가보는 시간을 가져보겠습니다. 이전 Spark 글에서 배경 및 기초 개념 / Catalyst Optimizer에 대한 내용을 공유드렸었는데, 혹여나 아직 보지 않으신 분들은 먼저 보고 오시는 것을 추천드립니다. 그 이유는 AQE의 배경이나 작동 방식 등을 이해하기 위해서는 어느 정도의 개념을 인지하고 있어야 하기 때문입니다. 아마도 보고오시면 해당 포스팅을 이해하는 데 도움이 될 것입니다. https://binary-kim.tistory.com/22 [Spark 완벽 가이드] Catalyst Optimizer란?서론저번 포스팅에서는 Spark가 나오게 된 배경 및 기본 개념을 위주로 ..

Apache Spark 2025.01.02

2024년 회고

개요안녕하세요. 어느덧 글 쓰는 시점은 현재 2024년 마지막 날이며, 내일이면 새로운 한 해를 맞이하게 되네요!현재 기술 블로그도 작성 중에 있지만, 올 한 해를 되돌아보고 어떤 부분이 좋았고 개선해야 할 지를 좀 되돌아고보고자 작성해봅니다.추가로, 신년에는 무엇을 목표로 할 지도 목표를 세워보고자 합니다. (글또라는 활동을 진행한지 벌써 3개월이 다되갑니다. ㅎㅎ) 회고올해는 현재까지 살면서 가장 이벤트가 많았던 한 해였던 것 같습니다.  1분기에는 졸업 및 네이버 부스트캠프를 수행하며 역량 향상을 위해 노력했던 시간이었습니다. 그 당시, 변성윤님의 스페셜 세션이 5차례 정도 있었던 것으로 기억하는데, "유익하면서도 잠시 쉬어가는 힐링 타임"으로 현재까지도 기억에 남아 너무 좋았고, 글또라는 활동에 ..

일상 2024.12.31

[Hadoop 완벽 가이드] HDFS Federation 및 고가용성(HA)를 알아보자.

서론안녕하세요. 본 게시물에서는 빅데이터 플랫폼인 Hadoop을 공부하면서, HDFS Federation이 어떤 역할을 위해 탄생했고 활용되는지를 알아보고자 글을 작성합니다. 최근 회사에 입사한 후 어떤 개념을 먼저 공부해볼 까 고민하던 중, 동료분께서 HDFS Federation의 개념에 대해서 말씀해주셨고, 이를 한 번 공부하며 기록해보고자 합니다. 이번 게시물은 HDFS Federation 배경 및 환경 구축에 필요한 개념들을 먼저 알아가 볼 것이며, 다음 게시물에서는 실제 Local Docker 환경에서 HA / Federation이 적용된 Multi Node Cluster를 구축하는 실습 관련하여 게시물을 작성해볼 예정입니다. 한 번 시작해볼까요? HDFS Federation정의 우선, HDFS..

Apache Hadoop 2024.12.15

[Spark 완벽 가이드] Catalyst Optimizer란?

서론저번 포스팅에서는 Spark가 나오게 된 배경 및 기본 개념을 위주로 정리해보는 시간을 가졌습니다. 이번 시간에는 Spark에서 Job을 제출했을 때 어떻게 최적화를 진행하는지를 시작으로 하여, 여러가지 성능 튜닝 기법들에 대해서 정리해보는 시간을 가져볼까 합니다. Spark에서 사용할 수 있는 여러가지 Method (map, filter, ...)들을 다루는 포스팅도 생각해봤지만, 해당 영역은 개념적인 부분보다 실습에 가까운 부분이기 때문에 생략을 해보려고 합니다. Spark Optimization이 중요한 이유는 뭘까요? 그리고 왜 필요할까요? 해당 질문에 대해 생각해보면 ... 최적화라는 것은 주어진 자원 내에서 성능을 최대한 끌어올려 원하는 작업을 더 빠르게, 더 효율적으로 수행하도록 만드는 ..

Apache Spark 2024.11.18

2024년 10월을 되돌아보며...

회고를 시작하며...이번 주에는 원래 Spark Optimizer와 Spark Job Tuning하는 방법에 대한 기술 블로그를 작성할 예정이었지만 ....!! 현재 거주하는 지역이 입사할 회사랑 거리가 꽤 있는 상황이라, 자취방을 구하고 다니느라 시간이 많이 없었다.  해당 게시물을 작성하는 날짜가 현재 참가하고 있는 "글또" 커뮤니티의 게시물 제출일인 상황에서, "패스할까 vs 10월 회고를 적어볼까" 굉장히 고민을 많이 하다가, 친구와 해당 온라인 활동을 참가할 때 했던 다짐이 생각났다.   "우리에겐 Pass란 없다." 맞다. 나는 Pass를 쓰지 않을 것이다. 그래서, 10월을 한번 되돌아보는 시간을 가져볼 예정이다.  많은걸 했던 10월2024년 10월은 뭔가를 굉장히 부지런하게 했던 달이라 ..

일상 2024.11.10

[Spark 완벽 가이드] Spark 정의 및 API 둘러보기

서론현재 저는 Hadoop / Spark / Airflow / Kafka를 공부하고 있습니다!! 이번 포스팅부터는 현재 공부 중인 "스파크 완벽 가이드"라는 도서를 읽고 Spark라는 Tool이 무엇인지, 어떻게 작동되는지, 어떤 Data Type이 있고 어떤 특징들을 가지고 있는지 3~4차례에 나눠서 기록해보고자 합니다. 대략적인 Keyword는 아래와 같습니다."Spark 정의" -> "Spark 최적화" -> "Spark Streaming" (-> "Spark ML") 우선, Spark를 공부함에 있어 해당 책을 고른 이유는 딥러닝을 공부하면서 "ORELLY" 출판사 책을 굉장히 많이 읽었었는데 내용이 너무 좋았었던 기억이 있어서 이번에도 믿고 구매를 해봤습니다. 그리고, 소프티어 교육을 들으면서 ..

Apache Spark 2024.10.25

[교육 후기] 소프티어 부트캠프 4기 데이터 엔지니어링 교육 후기

서론두 번째 부트캠프 합격 후기를 아래 두 가지를 목표로 후기를 작성해보고자 합니다...!!현대자동차 소프티어 부트캠프에 대한 정보 글이 많이 존재하지 않았다. 또한, 신설된 데이터 엔지니어링 코스에선 무엇을 배우는지 궁금해하시는 개발자 분들에게 정보를 제공하고 싶다.현재 다양한 부트캠프가 존재하는데, 현대자동차 소프티어 부트캠프가 가지고 있는 장/단점을 공유하고자 한다. 우선, 소프티어 부트캠프를 알게 된 경로는 SNS를 하다가 우연히 광고로 뜨길래 들어가봤습니다. 이전까지 AI를 주로 공부했었는데, 데이터적인 측면에서 결국에는 서비스를 개발하려면 DE나 MLOps나 공통적인 부분이 많이 존재한다고 생각했고, DE로 지원하게 되었습니다. 그리고, Python으로 코테를 볼 수 있는게 DE 밖에 없기도 ..

교육 후기 2024.10.23

[코테 후기] 2024 (하) 카카오 모빌리티 MLOps 직군 코딩테스트 후기

시험 개요카카오 모빌리티 하반기 주니어 개발자 채용은 경력 만 2년 미만 개발자까지 지원할 수 있는 공채였습니다. 2시간 동안 3문제를 풀이하는 방식으로 수행되었고, 코딩테스트 환경은 "코딜리티"라는 플랫폼에서 응시하게 되었습니다. 해당 시험 또한 후기가 많이 존재하지 않았고, 난이도가 어떻게 나올지 시험 전까지 기대 반 / 걱정 반이었던 것 같습니다. 우선, 서류는 거의 붙여주는 느낌으로 1차 코딩테스트는 모든 지원자가 응시한 것으로 보입니다.  그 이유는, 1차 코딩테스트 결과 + 서류 및 포트폴리오로 2차 코딩테스트 인원을 선발하기 때문인 것이라는 생각이 들었고, 그만큼 서류가 굉장히 중요한 역할을 한다고 느꼈습니다.  MLOps 직무는 SQL 1문제와 일반 유형의 2문제 총 3문제로 이루어져 있었..

코테 후기 2024.10.23

[코테 후기] 2024 (하) 한화비전 채용전제형 인턴 Window Application 직군 코딩테스트 후기

시험 개요한화비전 하반기 코딩 테스트는 2시간 3문제를 풀이하는 방식으로 수행이 되었습니다. 그리고, 프로그래머스 환경에서 코딩테스트 응시를 수행했습니다. 시험 응시 전에 사전 점검을 수행하지 않으면, 시험을 응시할 수 없었습니다. 전년도 후기를 바탕으로 이번 시험에서 달라졌던 부분은 바로 C/C++로 1문제를 풀이해야하는 조건이 사라졌습니다. 해당 조건 때문에 "서류만 잘쓰면 0솔도 붙었다"라는 후기가 있었는데, 이번부터는 이런 후기가 없어지지 않을까 생각합니다. 다른 기업 코딩테스트와는 다르게, 카메라를 키지 않았다는 점이 가장 의아?했던 점이었습니다. 이 때문에, 난이도가 극악으로 나올 것이라 예상했고, 좀 더 철저한 대비를 위해 열심히 코딩테스트 문제를 풀었습니다 ㅎㅎ 사실 투 컴으로 GPT 돌려..

코테 후기 2024.10.23