이번 챌린지는 생성형 AI를 활용해 직무 과제를 직접 해결하며 문제해결력과 도구 활용 역량을 보여줄 수 있는 좋은 기회입니다. 여러분의 도전과 성장을 진심으로 응원합니다!
잡코리아의 데이터 엔지니어 미션은 실무 기반 문제 해결력과 데이터 처리 기술에 대한 이해도를 평가하기 위한 과제입니다.
정답보다 비즈니스 문제를 이해하고 해결 방안을 도출하는 과정이 더 중요합니다!
채용플랫폼에서는 사용자가 원하는 기업, 직무, 기술, 지역 등의 조건을 자연어로 입력하면 적합한 채용공고를 찾아주는 AI Agent 기반 검색 서비스를 구축하고 있습니다. 이 서비스를 제공하기 위해 데이터 엔지니어들은 다음과 같은 작업을 수행합니다.
하지만 아래와 같은 문제가 발생하면서 사용자가 기대한 결과를 받지 못하거나, 최신 공고가 검색되지 않는 문제가 생기고 있습니다.
📌 이슈1. 검색 품질 저하
키워드 검색 대비 검색 결과 부족
📌이슈2. 신규 공고 반영 지연
인덱싱 지연으로 최신 공고 검색 누락
배치 파이프라인 실패 시 전체 재실행으로 지연 및 중복 실행 비용 발생
<목표>
정확하고 최신의 공고 검색이 가능하도록 RAG 기반 데이터 파이프라인 개선 전략을 제안해 주세요.
<과제>
✅ 과제 1 [필수]
이슈 1의 근본적인 원인을 분석하고, GenAI 기반 개선 전략을 제안해주세요.
✅ 과제 2 [선택]
이슈 2의 지연 원인을 기술하고, 실시간 또는 준실시간 파이프라인 개선안을 제안해주세요.
<제출자료>
📌 과제 제출물 [필수]
이슈 분석 및 해결 제안
문제의 원인과 현상을 정리하고, 해결 전략을 자유 형식으로 작성해 주세요.
활용한 프롬프트 제출
사용한 프롬프트와 그 의도를 함께 설명해 주세요.
검색 품질과 파이프라인의 연관성 설명
인덱싱 지연이나 파이프라인 실패가 검색 결과에 미치는 영향을 포함해 주세요.
📌 과제 제출물 [선택]
데이터 파이프라인 아키텍처 설계도
채용공고 등록 → 정제 → 벡터화 → 저장 및 인덱싱 전체 흐름을 설계해 주세요.
LLM 활용 지점과 실시간/스트리밍 또는 하이브리드 구조를 설명해도 좋습니다.
데이터 정제 코드 예시
HTML 제거, 중복 문장 제거, 정규화 등 정제 로직 일부를 제출해 주세요.
예시) PySpark, Pandas, SQL 등
제출 형태: GitHub/GitLab 링크 또는 파일 첨부
문제를 해석하여, 해결을 위한 방안 도출 과정이 주요 평가 항목입니다.
GenAI 기술 적용의 논리성
비즈니스 관점에서 GenAI 활용 근거가 명확하고, 구현 가능성과 설득력이 있으면 좋습니다.
파이프라인 성능과 운영 안정성 고려
실무 환경에서의 성능 개선과 안정적 운영을 함께 반영했는지 평가합니다.
창의적인 문제해결 아이디어
단순 기술 적용을 넘어, 기존 솔루션 외의 새로운 아이디어가 포함되면 더욱 좋습니다.
AI 도구 및 IDE
Cursor, Copilot, Windsurf, Claude code 등 AI IDE
ChatGPT, Claude, Gemini 등 AI 툴
AI와 주고받은 채팅 로그를 export할 수 있으면 어떤 환경도 가능합니다.
파이프라인 설계 흐름 참고
ingestion → processing → embedding → indexing
위 내용은 권장사항이며, 도전 정신만 있다면 누구나 참여하실 수 있습니다! 💪
👉 잡코리아 기술블로그 바로가기 👈