분류 전체보기

회고

2024 & 2025 회고와 방향성

2024년은 많은 성장을 한 해였다. 기술적인 성장과 “나”라는 사람을 좀 더 견고하게 만들어 준 시간이었는데, 1년간 느꼈던 경험과 나의 감정을 회고하고 새로운 2025년의 방향성을 수립하여 좀 더 후회 없는 시간을 보내고자 한다. 2024Kubernetes와 만남2024년은 Kubernetes와의 첫 만남으로 시작하게 되었다. 막연히 공부하고 싶다고 생각하고 있어 개인적으로 공부를 하고 있긴 했었으나 실제 업무에서 필요성이 발생하게 되었고, 본격적으로 Kubernetes를 도입하는 상황에 맞닥뜨리게 되었다. 하고 싶은 일과 실제 담당하게 되는 업무 간의 괴리는 언제든지 발생한다고 생각한다. 하지만, 이번에는 그 두 가지가 일치하는 상황이었다. 좋은 기회가 나에게 다가온 것 같아 개인적인 시간과 모든 ..

분석과 탐구

Amazon MSK 커넥션 끊김 이슈 디버깅 (feat. Nest.js, IRSA)

개요사내 아키텍처에서는 어플리케이션의 역할을 명확히 구분하기 위해 MSA(MicroService Architecture) 를 도입하고 있다. 여기서, RabbitMQ와 Kafka를 활용해 EDA(Event Driven Architecture)를 구성하고 있으며, 각각의 메시지 큐는 어플리케이션의 역할에 따라 선택하였다. 예를 들어, RabbitMQ는 순서 보장과 Queue 단위로 이벤트를 처리하기 수월한 도메인과 Kafka는 확장성과 처리량이 중요한 도메인에 적용하고 있다. 현재 메시지 큐는 AmazonMQ-RabbitMQ와 Amazon MSK-Kafka를 사용하고 있는데, 운영 환경에 MSK를 사용하는 신규 어플리케이션을 배포한 이후, 갑작스럽게 MSK 커넥션이 종료되는 문제가 발생하게 되었다. 이에 ..

Infrastructure

제로부터 시작하는 IRSA (feat.terraform)

🧩 개요Kubernetes를 클라우드 환경에서 구성할 때, 일반적으로 AWS EKS, Google GKE, Azure AKS와 같은 Cloud Service Provider(CSP)의 관리형 Kubernetes를 사용할 것이다. 우리는 이러한 서비스를 통해 Kubernetes Cluster의 Control Plane 및 Worker Node에 대한 고민 없이 관리를 자동화할 수 있게 된다. 만약, Cluster를 업그레이드하거나, 네트워크 설정을 온프레미스의 환경에서 작업하게 된다면, 엄청나게 머리 아픈일이 아닐 수 없다. 클라우드 환경에서 Kubernetes로 구성한 서비스들은 각 어플리케이션에 필요한 네트워크 설정, 권한 관리 필수적인 것이다. 특히, 권한 관리에서는 최소 권한 원칙(Zero Tru..

분석과 탐구

Terraform으로 생성한 IAM Role은 비정상일까?

개요이번 게시글은 OpenSearch에서 Snapshot Repository를 설정하여 로그를 백업하는 방법을 작성하려 했었다. 그러나 해당 작업을 구현하던 중 Terraform으로 생성한 IAM Role에서 이상이 있는 것을 확인하게 되었고, 이를 인지하기까지 많은 시간이 소요되었다. 이번 게시글에서는 Terraform Assume Role 문제를 해결하기 위해 겪은 과정을 공유하고자 한다. Assume Role Assume Role은 AWS STS를 이용해 특정 역할(Role)을 임시로 부여 받아 엑세스 권한을 획득하는 방식을 뜻한다. 각각의 개념을 먼저 알아보고, Assume Role이 어떤 역할을 하는지 살펴보도록 하자. AWS STSAWS STS(Security Token Service)는 특정..

Infrastructure

ALB를 이용해 EKS 단일 장애점 개선하기 (이론)

개요 최근 EKS로 인프라를 마이그레이션하면서, 수많은 챌린지를 진행하고 있습니다. 초기에는 EKS 구축에만 많은 리소스를 사용하고 있었지만, 현재는 어느정도 쿠버네티스가 익숙해졌고 EKS를 이용하여 다수의 어플리케이션이 배포된 상태입니다. 이렇게 EKS를 이용해 여러 서비스들이 배포된 상황이긴 하지만, 매번 설계한 아키텍처에서 마음에 들지 않는 부분이나 개선되었으면 좋을 부분들이 점점 눈에 띄고 있는 상태입니다. 이번 게시글에서는 사용에 직접적인 문제는 없지만, 개선되어야할 부분 중 하나인 Niginx Ingress Controller의 단일 장애점(SPOF, Single Point Of Failure)에 대한 개선기를 작성해보고자 합니다. 먼저 알아보기 1️⃣ Ingress 인그레스(Ingress)는..

Conference

AWS Unicorn Day 2024 방문기

개요최근 사내에서 엄청난 격변의 시기가 지속되고 있습니다. 인프라 개선부터 기술 스택, 보안, 추후 방향성에 대한 수많은 고민들이 눈앞에 다가오게 되었습니다. 그러던 중 사내 슬랙에서 AWS 컨퍼런스가 있다는 것을 알게 되었고, 현재 겪고 있는 문제에 대한 인사이트를 얻을 수 있을 것이라고 판단하였습니다. 그렇게, AWS Unicorn Day 2024에 방문하여 세션을 경험하며 어떤 인사이트를 얻었는지에 대해 이야기해볼까 합니다. AWS Unicorn Day 2024AWS Unicorn Day 2024는 다른 넥슨의 NDC나 네이버의 DEVIEW와 달리 모든 세션을 시간마다 선택하는 것이 아니라, 한개의 Track에 있는 모든 세션을 계속 듣도록 구성되었습니다. 저는 여러 트랙 중에서 현재 가장 많은 ..

Infrastructure

ISMS 인증을 받기 위한 인프라 개선 요구사항

개요 일반적인 스타트업은 성공 가능성을 빠르게 검증하는 것을 최우선으로 삼곤 한다. 이 과정에서 보안적인 측면은 종종 후순위로 밀리는데, 이는 나중에 큰 문제를 초래하게 될 수 있다. 만약, 서비스 중인 비즈니스에서 Access Key가 노출되어 중요한 데이터가 외부에 공개되거나, 사용자 정보가 탈취당하는 상황이 발생한다면 어떻게 해야할까? 단순히 AWS 고객센터에 메일을 전달하고 답변을 기다리는 것만으로는 충분하지 않을 것이다. 이러한 긴급한 상황에서는 명확한 대응 정책이 필요하게 된다. 이런 문제를 예방하고 효과적으로 관리하기 위해서는 ISMS와 같은 인증을 통한 체계적인 정보보호 관리가 필요하게 된다. 이번 게시글에서는 정보보호 관리 체계인 ISMS에 대한 기본 개념과 클라우드 인프라 관점에서 필요..

Infrastructure/Terraform

효율적인 인프라 관리를 위한 Terraform 모듈 입문하기

📝 개요Terraform과 같은 Infrastructure as Code(IaC) 도구를 사용한다면, 대규모 인프라를 효츌적으로 관리할 수 있다. 그러나, 단일 Terraform 프로젝트로 대규모 인프라를 관리하게 된다면, 많은 리소스들이 하나의 코드 베이스에 포함되어 관리가 복잡해질 수 있다. 이로 인해 코드의 가독성이 떨어지고, 유지보수가 어려워질 뿐만 아니라 재사용성 또한 감소하게 된다. Terraform Module을 사용하게 된다면 이러한 문제를 해결할 수 있게 된다. 이번 게시글에서는 모듈이란 무엇인지, 어떻게 Terraform Module을 사용할 수 있는지에 대해 알아보도록하자. 🧩 Terraform ModuleTerraform Module은 코드 베이스를 논리적으로 분리하여 각각의 인..

Infrastructure/Terraform

지구를 Terraform으로 물들이다. (Terraform 입문하기)

개요일반적으로, 우리는 AWS와 같은 클라우드 서비스 제공업체의 콘솔을 통해 인프라 리소스를 관리하고 있을 것이다. 소규모 프로젝트나 모놀리식의 간단한 프로젝트를 구성하였을 때에는 이런 접근 방식은 문제가 되지 않을것이다. 그러나 프로젝트 규모가 확장되어 수많은 부하 분산 시스템을 구성하거나, 접근 가능한 사용자를 관리하기 위한 여러 Rule을 정의하거나, 멀티 컨테이너 환경을 구성하기 시작하는 등 복잡한 요구사항이 지속적으로 발생할 때, AWS 콘솔을 이용하여 인프라를 관리하는 것은 많은 시간이 소모될 것이고, 자신이 어떤 설계를 하였는지 잘 기억나지 않을 것이다. 더욱이, 운영 환경과 개발 환경을 별도로 구성하게 된다면, 동일한 행위를 반복하게 될 것이고, 또 다른 스테이지 구현이 필요하게 된다면, ..

Infrastructure

GitOps 뉴비의 Argo CD 여행기

서론 최근, AWS에서 운영되고 있는 EC2 인스턴스 기반의 서비스를 Kubernetes 기반의 AWS EKS로 마이그레이션하는 작업을 진행하고 있다. 기존 방식에서는 수동으로 EC2 인스턴스를 관리하면서 발생하는 복잡성과, 세부적인 AutoScaling 설정의 어려움이 많은 리소스를 소모하고 있었으며, 특히 지속적인 통합 및 배포(CI/CD)에 대한 부분이 많이 미흡하였다. 이러한 과정에서 멀티 컨테이너 환경에서 지속적인 통합 및 배포(CI/CD)를 어떻게 효율적으로 구성할 수 있는지에 대한 고민을 진행하게 되었다. 이전까지는 AWS ECS와 CodePipeline을 중심으로 한 CI/CD를 구성하였지만, Kubernetes 환경에서는 Argo CD라는 도구를 이용하여 지속적인 배포(CD) 과정을 관리..

커스텀 리
'분류 전체보기' 카테고리의 글 목록