[AI Challenge] Data Engineer | 잡코리아(유)

[AI Challenge] Data Engineer | 잡코리아(유)

[AI Challenge] Data Engineer | | | 마감 21일 전

이번 챌린지는 생성형 AI를 활용해 직무 과제를 직접 해결하며 문제해결력과 도구 활용 역량을 보여줄 수 있는 좋은 기회입니다. 여러분의 도전과 성장을 진심으로 응원합니다! 👋안내사항 잡코리아의 데이터 엔지니어 미션은 실무 기반 문제 해결력과 데이터 처리 기술에 대한 이해도를 평가하기 위한 과제입니다.정답보다 비즈니스 문제를 이해하고 해결 방안을 도출하는 과정이 더 중요합니다! ✅문제상황 채용플랫폼에서는 사용자가 원하는 기업, 직무, 기술, 지역 등의 조건을 자연어로 입력하면 적합한 채용공고를 찾아주는 AI Agent 기반 검색 서비스를 구축하고 있습니다. 이 서비스를 제공하기 위해 데이터 엔지니어들은 다음과 같은 작업을 수행합니다. - 채용공고 데이터를 정제하여 AI가 이해할 수 있는 벡터 데이터로 변환 - LLM과 검색 엔진을 결합한 RAG 파이프라인을 구성하여 검색 품질 향상 하지만 아래와 같은 문제가 발생하면서 사용자가 기대한 결과를 받지 못하거나, 최신 공고가 검색되지 않는 문제가 생기고 있습니다. 📌 이슈1. 검색 품질 저하 - 공고 텍스트 내 HTML, 특수문자, 중복 문장 등으로 인해 임베딩 품질 저하 - 키워드 검색 대비 검색 결과 부족 📌이슈2. 신규 공고 반영 지연 - 인덱싱 지연으로 최신 공고 검색 누락 - 배치 파이프라인 실패 시 전체 재실행으로 지연 및 중복 실행 비용 발생 🎯 미션 목표 및 과제 안내 정확하고 최신의 공고 검색이 가능하도록 RAG 기반 데이터 파이프라인 개선 전략을 제안해 주세요. ✅ 과제 1 [필수]이슈 1의 근본적인 원인을 분석하고, GenAI 기반 개선 전략을 제안해주세요. ✅ 과제 2 [선택]이슈 2의 지연 원인을 기술하고, 실시간 또는 준실시간 파이프라인 개선안을 제안해주세요. 📌 과제 제출물 [필수] - 이슈 분석 및 해결 제안 - 문제의 원인과 현상을 정리하고, 해결 전략을 자유 형식으로 작성해 주세요. - 활용한 프롬프트 제출 - 사용한 프롬프트와 그 의도를 함께 설명해 주세요. - 검색 품질과 파이프라인의 연관성 설명 - 인덱싱 지연이나 파이프라인 실패가 검색 결과에 미치는 영향을 포함해 주세요. 📌 과제 제출물 [선택] - 데이터 파이프라인 아키텍처 설계도 - 채용공고 등록 → 정제 → 벡터화 → 저장 및 인덱싱 전체 흐름을 설계해 주세요. - LLM 활용 지점과 실시간/스트리밍 또는 하이브리드 구조를 설명해도 좋습니다. - 데이터 정제 코드 예시 - HTML 제거, 중복 문장 제거, 정규화 등 정제 로직 일부를 제출해 주세요. - 예시) PySpark, Pandas, SQL 등 - 제출 형태: GitHub/GitLab 링크 또는 파일 첨부 👀 평가 포인트 문제를 해석하여, 해결을 위한 방안 도출 과정이 주요 평가 항목입니다. ✅ 핵심 평가지표 - 과정과 문제 인식 중시단순한 결과보다 ‘왜 그렇게 했는지’, ‘문제를 어떻게 바라봤는지’가 중요합니다. - GenAI 기술 적용의 논리성비즈니스 관점에서 GenAI 활용 근거가 명확하고, 구현 가능성과 설득력이 있으면 좋습니다. - 파이프라인 성능과 운영 안정성 고려실무 환경에서의 성능 개선과 안정적 운영을 함께 반영했는지 평가합니다. - 창의적인 문제해결 아이디어단순 기술 적용을 넘어, 기존 솔루션 외의 새로운 아이디어가 포함되면 더욱 좋습니다. 🛠️ 부가 가이드 개발 및 테스트 환경 - AI 도구 및 IDECursor, Copilot, Windsurf, Claude code 등 AI IDEChatGPT, Claude, Gemini 등 AI 툴AI와 주고받은 채팅 로그를 export할 수 있으면 어떤 환경도 가능합니다. - 기술 및 환경 제약 없이 자유롭게 편한 환경과 기술 사용 - 임의 가공한 데이터 또는 공공데이터 사용 권장 기술 스택 권장 사항 - 데이터 관련 기술 활용 권장빅데이터 환경 기술 (Spark, Airflow, Chroma, Kafka, ElasticSearch 등) 우대 - 파이프라인 설계 흐름 참고ingestion → processing → embedding → indexing 위 내용은 권장사항이며, 도전 정신만 있다면 누구나 참여하실 수 있습니다! 💪 ✍️유의사항 - 일반문의 : 잡코리아 박주희 (pjh47@jobkorea.co.kr) - 문제문의 : 잡코리아 장은희 (dseuni@jobkorea.co.kr) ❗️꼭 읽어주세요❗️ - AI Challenge 우수 수상자는 9월 초 개별 연락드릴 예정입니다. 잡코리아 복리후생에 대해 더 알고 싶으신가요? 👉 잡코리아 채용 홈페이지 바로가기 👈 👉 잡코리아 기술블로그 바로가기 👈

homepage logo image

[AI Challenge] Data Engineer

2025.08.24 마감
지원하기

이번 챌린지는 생성형 AI를 활용해 직무 과제를 직접 해결하며 문제해결력과 도구 활용 역량을 보여줄 수 있는 좋은 기회입니다. 여러분의 도전과 성장을 진심으로 응원합니다!


👋안내사항

잡코리아의 데이터 엔지니어 미션은 실무 기반 문제 해결력과 데이터 처리 기술에 대한 이해도를 평가하기 위한 과제입니다.
정답보다 비즈니스 문제를 이해하고 해결 방안을 도출하는 과정이 더 중요합니다!

문제상황

채용플랫폼에서는 사용자가 원하는 기업, 직무, 기술, 지역 등의 조건을 자연어로 입력하면 적합한 채용공고를 찾아주는 AI Agent 기반 검색 서비스를 구축하고 있습니다. 이 서비스를 제공하기 위해 데이터 엔지니어들은 다음과 같은 작업을 수행합니다.

  • 채용공고 데이터를 정제하여 AI가 이해할 수 있는 벡터 데이터로 변환
  • LLM과 검색 엔진을 결합한 RAG 파이프라인을 구성하여 검색 품질 향상

하지만 아래와 같은 문제가 발생하면서 사용자가 기대한 결과를 받지 못하거나, 최신 공고가 검색되지 않는 문제가 생기고 있습니다.


📌 이슈1. 검색 품질 저하

  • 공고 텍스트 내 HTML, 특수문자, 중복 문장 등으로 인해 임베딩 품질 저하
  • 키워드 검색 대비 검색 결과 부족

📌이슈2. 신규 공고 반영 지연

  • 인덱싱 지연으로 최신 공고 검색 누락

  • 배치 파이프라인 실패 시 전체 재실행으로 지연 및 중복 실행 비용 발생

🎯 미션 목표 및 과제 안내

<목표>
정확하고 최신의 공고 검색이 가능하도록 RAG 기반 데이터 파이프라인 개선 전략을 제안해 주세요.

<과제>

✅ 과제 1 [필수]
이슈 1의 근본적인 원인을 분석하고, GenAI 기반 개선 전략을 제안해주세요.

✅ 과제 2 [선택]
이슈 2의 지연 원인을 기술하고, 실시간 또는 준실시간 파이프라인 개선안을 제안해주세요.

<제출자료>

📌 과제 제출물 [필수]

  • 이슈 분석 및 해결 제안

    • 문제의 원인과 현상을 정리하고, 해결 전략을 자유 형식으로 작성해 주세요.

  • 활용한 프롬프트 제출

    • 사용한 프롬프트와 그 의도를 함께 설명해 주세요.

  • 검색 품질과 파이프라인의 연관성 설명

    • 인덱싱 지연이나 파이프라인 실패가 검색 결과에 미치는 영향을 포함해 주세요.

📌 과제 제출물 [선택]

  • 데이터 파이프라인 아키텍처 설계도

    • 채용공고 등록 → 정제 → 벡터화 → 저장 및 인덱싱 전체 흐름을 설계해 주세요.

    • LLM 활용 지점과 실시간/스트리밍 또는 하이브리드 구조를 설명해도 좋습니다.

  • 데이터 정제 코드 예시

    • HTML 제거, 중복 문장 제거, 정규화 등 정제 로직 일부를 제출해 주세요.

    • 예시) PySpark, Pandas, SQL 등

    • 제출 형태: GitHub/GitLab 링크 또는 파일 첨부


👀 평가 포인트

문제를 해석하여, 해결을 위한 방안 도출 과정이 주요 평가 항목입니다.

✅ 핵심 평가지표

  • 과정과 문제 인식 중시
    단순한 결과보다 ‘왜 그렇게 했는지’, ‘문제를 어떻게 바라봤는지’가 중요합니다.
  • GenAI 기술 적용의 논리성
    비즈니스 관점에서 GenAI 활용 근거가 명확하고, 구현 가능성과 설득력이 있으면 좋습니다.

  • 파이프라인 성능과 운영 안정성 고려
    실무 환경에서의 성능 개선과 안정적 운영을 함께 반영했는지 평가합니다.

  • 창의적인 문제해결 아이디어
    단순 기술 적용을 넘어, 기존 솔루션 외의 새로운 아이디어가 포함되면 더욱 좋습니다.


🛠️ 부가 가이드

개발 및 테스트 환경

  • AI 도구 및 IDE
    Cursor, Copilot, Windsurf, Claude code 등 AI IDE
    ChatGPT, Claude, Gemini 등 AI 툴
    AI와 주고받은 채팅 로그를 export할 수 있으면 어떤 환경도 가능합니다.

  • 기술 및 환경 제약 없이 자유롭게 편한 환경과 기술 사용
  • 임의 가공한 데이터 또는 공공데이터 사용 권장

기술 스택 권장 사항

  • 데이터 관련 기술 활용 권장
    빅데이터 환경 기술 (Spark, Airflow, Chroma, Kafka, ElasticSearch 등) 우대
  • 파이프라인 설계 흐름 참고
    ingestion → processing → embedding → indexing

위 내용은 권장사항이며, 도전 정신만 있다면 누구나 참여하실 수 있습니다! 💪


✍️유의사항

  • 일반문의 : 잡코리아 박주희 (pjh47@jobkorea.co.kr)
  • 문제문의 : 잡코리아 장은희 (dseuni@jobkorea.co.kr)

❗️꼭 읽어주세요❗️

  • AI Challenge 우수 수상자는 9월 초 개별 연락드릴 예정입니다.

잡코리아 복리후생에 대해 더 알고 싶으신가요?

👉 잡코리아 채용 홈페이지 바로가기 👈

👉 잡코리아 기술블로그 바로가기 👈

[AI Challenge] Data Engineer
지원하기