Arize AI 웨비나 시리즈 #5: LLM 모델의 성능 벤치마크로 평가하기
Arize AI 웨비나 시리즈 #5: LLM 모델의 성능 벤치마크로 평가하기
AI 에이전트 개발의 핵심 아키텍처와 실전 구현 방법을 공유하는 시간에 초대합니다.
배경
AI 모델 선택이 점점 더 복잡해지며 은 팀들이 "어떤 모델을 써야 하나", "이 모델이 우리 use case에 충분히 좋은가"라는 기본적인 질문에 확신을 갖지 못한 채 프로젝트를 진행하고 있습니다.
공개 벤치마크는 모델의 성능을 객관적으로 평가할 수 있는 검증된 방법입니다. SWE-bench(코딩), MMLU(지식), GSM8K(수학), HumanEval(코드 생성) 같은 표준 벤치마크를 통해 여러 모델을 동일한 기준으로 비교할 수 있으며, Arize Phoenix를 사용하면 이런 벤치마크를 내 환경에서 직접 실행하고 결과를 상세히 분석할 수 있습니다.
이번 웨비나에서는:
주요 공개 벤치마크들의 특징과 각각이 측정하는 능력을 이해하고,
Arize Phoenix로 여러 모델을 동일한 벤치마크에서 평가하여 객관적으로 비교하며,
벤치마크 결과에서 파악된 약점을 보완하는 에이전트를 설계하고 다시 평가하는 전체 사이클을 실습합니다.
시리즈 목표
Arize AI 웨비나 시리즈는 AI 기술을 실무에 적용하려는 개발자와 기업들에게 검증된 방법론과 실전 노하우를 전달합니다. 이론과 실무, 글로벌 베스트 프랙티스와 실제 구현 사례를 균형있게 다루며, 참가자들이 자신의 프로젝트에서 바로 활용할 수 있는 구체적인 인사이트를 제공합니다.
웨비나 아젠다 (총 120분)
14:00 – 14:10 (10분) | 오프닝 & 웨비나 소개
연사 소개
세션 개요 및 학습 목표
참여 방법 안내 (Q&A, 채팅)
14:10 – 15:00 (50분) | Part 1: 공개 벤치마크 완전 가이드 - 무엇을, 왜, 어떻게 측정하는가
모델 선택의 현실적 어려움
50개 이상의 상용/오픈소스 모델 중 선택하기
벤더가 제공하는 리더보드만 믿어도 될까?
"우리 태스크"에 맞는 모델 찾기
주요 벤치마크 카테고리별 완전 정리
코딩 능력: SWE-bench, HumanEval, MBPP
실제 GitHub 이슈 해결 vs 함수 작성
pass@k 메트릭의 의미
언제 어떤 벤치마크를 사용해야 하나
지식 & 추론: MMLU, Big Bench Hard, ARC
57개 과목 다중선택 vs 복잡한 추론 문제
few-shot vs zero-shot 평가의 차이
도메인별 성능 편차 분석
수학: GSM8K, MATH
초등 수학 vs 고등/대학 수학
Chain-of-Thought의 중요성
수치 정확도 검증 방법
안전성: Jailbreak 벤치마크, ToxicChat
프롬프트 인젝션 취약점 테스트
유해 콘텐츠 생성 방지 평가
프로덕션 배포 전 필수 체크
벤치마크 결과 해석하기
리더보드 점수의 함정들
벤치마크 vs 실제 성능 gap
어떤 벤치마크 조합이 의미있는가
실제 사례: GPT-4o vs Claude Sonnet vs Llama 3.1
동일 태스크에서 3개 모델 비교
각 모델의 강점과 약점 패턴
비용-성능 트레이드오프 분석
15:00 – 15:10 (10분) | 휴식
15:10 – 15:40 (30분) | Part 2: Arize로 벤치마크 실행하기 - 라이브 실습
Phoenix 벤치마크 환경 구축
설치 및 설정 (5분이면 완료)
지원되는 벤치마크 목록
커스텀 데이터셋 추가하기
라이브 데모 1: 코딩 능력 평가
어떤 유형의 문제에서 실패하는가?
에러 패턴 분석 (문법 vs 로직 vs 엣지 케이스)
Phoenix UI에서 trace 단위 디버깅
라이브 데모 2: Jailbreak 평가
라이브 데모 3: 에이전트 벤치마크 평가
기본 모델 vs 에이전트 성능 비교
정확도 개선: 75% → 89%
Arize로 에이전트 trace 분석
어떤 도구를 언제 호출했는가
각 단계의 성공/실패
전체 workflow 가시화
15:50 – 16:00 (10분) | 핵심 내용 요약 및 실전 적용 가이드
3가지 핵심 포인트
벤치마크는 모델 선택의 나침반
약점 파악 → 에이전트 설계로 보완
개선 전후를 반드시 재측정
내 프로젝트에 적용하기
Use case별 추천 벤치마크 조합
커스텀 벤치마크 만들기 (내 데이터로)
CI/CD에 벤치마크 통합하기
시작하기 체크리스트
Phoenix 설치 및 첫 벤치마크 실행
문서 및 예제 코드 링크
커뮤니티 리소스
16:00 – 16:20 (20분) | Q&A
사전 질문 답변
실시간 질의응답
특정 use case에 맞는 벤치마크 추천
벤치마크 커스터마이징 방법
프로덕션 모니터링 연계
16:20 | 종료
이런 분들께 추천합니다
여러 모델 중 어떤 것을 선택해야 할지 고민하는 개발자
GPT-4o, Claude, Gemini, Llama... 객관적으로 비교하고 싶으신 분
파인튜닝이나 프롬프트 최적화 효과를 검증하고 싶은 ML 엔지니어
"정말 나아졌나?" 감이 아닌 데이터로 확인하고 싶으신 분
오픈소스 모델 도입을 검토하는 팀
상용 API와 성능/비용을 정확히 비교하고 싶으신 분
에이전트 성능을 체계적으로 평가하고 개선하려는 실무자
단순 모델이 아닌 복잡한 workflow도 벤치마킹하고 싶으신 분
프로덕션 배포 전 모델 성능을 검증해야 하는 아키텍트
안전성, 코딩, 추론 등 다각도로 평가하고 싶으신 분
