개요
GS리테일 CRM팀에서 고객 약 2천만 명 규모의 통합 회원 플랫폼을 담당했습니다. 차세대 시스템 오픈 직후 팀에 합류해, 안정화가 필요한 영역을 우선순위에 따라 처리했습니다.
- 회사: GS리테일 / Customer CRM팀
- 기간: 2024.11 – 현재
- 역할: 백엔드 개발, 장애 대응, 운영 배치 복구
- 스택: Java, Spring Boot (UstraBootFramework), PostgreSQL, Redis, Bamboo
운영 규모
Datadog APM 기준 (2025년 2월~3월 실시간)
| 서비스 | 처리량 | P99 레이턴시 | 에러율 |
|---|---|---|---|
| grm-biz-auth (인증) | 1,200 req/s | 7.81ms | — |
| grm-biz-member (회원) | 498 req/s | 28.7ms | 0.1% 미만 |
| Redis | 5,500 req/s | 1.29ms | — |
| PostgreSQL | 3,200 req/s | 5.46ms | 0.1% 미만 |
| Kafka | 20 req/s | 27.8ms | — |
배경
차세대 CRM 플랫폼이 오픈된 이후, 기존 운영 배치 일부가 6개월 이상 실행되지 않은 상태였습니다. 또한 개인정보와 직결된 버그가 잠재된 채 운영 중이었고, 이를 조기에 발견해 수정하는 것이 우선 과제였습니다.
주요 기여
1. 운영 배치 3종 복구
6개월 이상 미실행 상태인 배치를 단순 재기동 없이 스케줄 정책 재설계와 데이터 정합성 검토를 함께 진행했습니다.
| 배치명 | 역할 | 주기 |
|---|---|---|
TASK_SEND_MSG_DEACT | 그룹사 임직원 비활성화 30일 전 메일 발송 | 1일 1회 |
TASK_PMS_RESULT_RCV_EMAIL | PMS 이메일 전송 결과 반영 | 2시간 주기 |
TASK_GRP_EMP_DEACT | 그룹사 임직원 비활성화 처리 | 재설계 후 운영 |
단순히 배치를 재기동하는 것이 아니라, 오랜 기간 실행되지 않은 동안 누락된 데이터가 있는지 확인하고, 스케줄 실행 조건을 재검토한 후 복구했습니다.
2. 회원 로그인 이력 조회 API
고객이 직접 본인의 로그인 이력을 확인하는 기능으로, 개인정보 보안 대응 요건에 따라 개발했습니다.
- 일 평균 호출: 약 200건
- 고객이 직접 조회하는 개인정보 관련 API인 만큼, 접근 제어와 데이터 노출 범위를 신중하게 설계했습니다.
3. 고객 등급 일괄변경 API
백오피스 직원이 고객 등급을 일괄 변경하는 내부 운영 API입니다.
- 처리 규모: 1회 요청당 최대 100건
- 트랜잭션 범위: 6개 테이블 대상
- 설계 포인트: Validation 실패 건은 처리를 건너뛰고, 미처리 건을 응답에 포함하는 Partial Success 패턴 적용 → 호출 측이 실패 건만 별도로 재처리할 수 있도록 설계
응답 예시:{ "successCount": 95, "failedItems": [ { "customerId": "C001", "reason": "이미 해당 등급" }, ... ]}4. 개인정보 오동기화 버그 수정
현상: GS네트웍스에서 탈퇴 후 재가입 시, 이전 고객의 개인정보가 새 가입자에게 덮어씌워지는 오류
- 발생 빈도: 월 약 2건
- 리스크: 개인정보 보호법 위반 가능성 직결
외부 계열사 연동 플로우의 데이터 정합성 로직을 검토해, 재가입 시 기존 레코드 식별 조건의 결함을 찾아 수정했습니다. 수치가 작더라도 개인정보와 직결된 이슈였기 때문에 즉시 대응이 필요했습니다.
5. GS Pay 공유결제 닉네임 변경 핫픽스
운영 환경에서 GS Pay 공유결제 구성원의 닉네임 변경이 정상 반영되지 않는 버그를 발견해 핫픽스로 대응했습니다.
- 엔드포인트:
/api/member/ext/etc-registration/info-gspay-compo-update - 운영 배포 후 즉시 검증 완료
6. Claude + MCP를 활용한 Datadog APM 분석 및 자동화 제안
실무 활용 — Datadog APM 데이터 분석 자동화
Claude Desktop과 MCP(Model Context Protocol)를 연동해 Datadog APM 데이터를 직접 추출·분석했습니다.
- 서비스별 req/s, P99 레이턴시, 에러율 등 운영 지표를 AI로 자동 집계 — 대시보드를 수동으로 탐색하던 시간을 단축
- 택배 플랫폼(blackpink, api-gspostbox)과 CRM 서비스(grm-biz-auth, grm-biz-member) 전체의 트래픽 패턴·레이턴시·에러율을 정량적으로 파악
- 분석 결과를 서비스 현황 공유와 성능 개선 판단 근거로 활용
팀 제안 — MCP 기반 업무 자동화 도입
이 경험을 바탕으로, 반복적인 운영 업무에 MCP 기반 AI 자동화를 적용하는 방안을 기획·개발팀에 제안했습니다.
- AI 도구를 단순 코드 생성이 아닌 운영 데이터 분석·의사결정 지원에 활용하는 방향을 팀 내에 공유
회고
차세대 오픈 직후 투입되다 보니, 기존 코드에 대한 문서나 인수인계가 충분하지 않은 상태에서 빠르게 파악해야 했습니다. 배치 복구처럼 “왜 안 돌아가고 있었는지”를 단순히 재기동으로 해결하지 않고, 근본 원인까지 확인하는 방식으로 접근했습니다. 개인정보 버그처럼 발생 빈도가 낮아도 임팩트가 큰 이슈를 적극적으로 찾아 수정한 경험이 인상적으로 남았습니다.