Weights & Biases, Inc. (CEO Lukas Biewald, 이하 W&B)는 올해 4월 공개 후 지속적으로 큰 관심을 받는 LLM 한국어 능력 비교 사이트인 W&B Horangi (호랑이) 한국어 LLM 리더보드(http://horangi.ai)의 첫 번째 업데이트 버전을 공개했다.
Horangi: W&B Korean LLM Leaderboard 3에서는 평가 벤치마크를 대폭 재구성해 용도별 성능을 평가하고, AI 거버넌스 관점에서 주목받고 있는 안전성 평가도 추가했다. 또한 추론 속도 향상 및 라이브러리 버전 관리 간소화 등을 통해 기업 내 비공개 평가도 그 어느 때보다 쉽게 실행할 수 있다. 공개된 리더보드를 통해 OpenAI, Anthropic과 같은 최신 상용 API는 물론 국내외의 다양한 오픈소스 모델을 포함한 40개 이상의 모델 평가 결과를 인터랙티브하게 비교할 수 있다.
이번 업데이트 배경
W&B는 LLM 모델의 성능 비교를 위한 벤치마크를 개발해 2023년 7월부터 LLM 모델 평가를 실시하는 Nejumi 일본어 LLM 리더보드를 공개했고, 2024년 4월부터는 Horangi 한국어 LLM 리더보드에도 당사가 제공하는 MLOps 플랫폼인 W&B Models를 사용해 폭넓은 모델의 평가 결과를 국내외 AI 개발 및 제공자에게 제공해 왔다.
LLM 개발은 여전히 빠른 속도로 진행되고 있으며, 모델 성능의 급속한 개선을 계속하고 있다. 또한 LLM 기술의 사회 및 비즈니스 구현을 위한 노력도 진행되고 있으며, 이에 따라 모델 및 애플리케이션 평가에 있어 그 어느 때보다 폭넓은 내용이 요구되고 있다. EU AI Act에서는 AI 기술의 안전하고 윤리적인 사용을 보장하기 위해 AI 개발 및 제공자는 안전성, 투명성, 인간의 감독, 데이터 관리, 지속적인 모니터링을 준수하는 위험 기반 규제를 이행하는 것을 강조하고 있다.
이러한 배경을 바탕으로 이번 업데이트에 앞서 발표된 백서 ‘대규모 언어 모델 평가를 위한 모범 사례’ (https://kr.wandb.ai/llm-evaluation-whitepaper)에서는 최신 LLM 평가 방법을 포괄적으로 조사한 결과를 정리한 바 있다. 이를 바탕으로 진행된 이번 Horangi 리더보드 업데이트에서는 평가 내용을 크게 두 가지로 업데이트했다.
· 용도 주체별 평가: 지금까지의 평가 데이터 프레임워크 위주의 주체별 평가에서 이용 목적별로 LLM의 성능을 쉽게 파악할 수 있는 프레임워크를 구축
· 안전 성능 검증: ‘제어성’, ‘유해성’, ‘편견’ 등 인간의 가치관과 일치하는 출력을 할 수 있는지(AI Alignment) 평가하기 위한 프레임워크 구축
이러한 평가 프레임워크는 지속적으로 오픈소스로 공유되며, 기업 사용자가 결과를 공개하지 않고 비공개 환경에서 평가할 수도 있다*.
* 비공개 평가를 희망하는 경우에는 한국어 문의처 contact-kr@wandb.com로 문의하면 된다.
이번 업데이트의 주요 내용
· 평가 시스템의 주요 변경사항
1. 평가의 다양화: Horangi: W&B Korean LLM Leaderboard 3에서는 기존의 언어 이해와 생성 능력 중심의 평가에 더해 안정성 평가 항목을 추가해 평가의 깊이를 더했다. 그 중에서도 AI Alignment는 모델의 출력 제어능력, 유해성 판단, 사회적 편견을 포함해 모델이 사회적 가치관에 부합하는 출력을 낼 수 있는지를 평가한다. 이를 위해 KoBBQ, Korean Hate Speech, AI HUB의 텍스트 윤리검증 데이터 등 공개 데이터셋을 최대한 활용해 평가의 객관성과 신뢰도를 높였다.
2. 한국의 문화적 특성 반영: 한국어의 고유한 언어적 특성과 문화적 맥락을 반영하기 위해 오픈소스 언어모델 연구팀 ‘HAERAE’의 HAERAE_BENCH_V1, KMMLU와 ‘NAVER AI LAB’의 KoBBQ를 활용해 평가를 수행했다. 이를 통해 모델이 단순한 언어 이해를 넘어 한국 문화와 사회적 맥락을 고려한 출력을 생성할 수 있는지를 검증할 수 있게 됐다.
3. Few-shot 프롬프트 성능평가: 모델 학습 데이터의 편향성을 줄이고 실제 활용 시의 적응력을 평가하기 위해 Few-shot 프롬프트 기반의 성능 평가를 도입했다. 모델의 전반적인 성능을 다각도로 분석하기 위해 Zero-shot 평가와 Few-shot 평가를 병행하며, 최종 점수는 두 평가 결과의 평균값으로 산출한다.
4. 빠르고 통일된 평가 프로세스: 평가 프로세스의 효율성을 극대화하기 위해 vLLM을 활용해 속도를 크게 향상시켰다. 또한 추론 인터페이스를 통합해 다양한 모델을 쉽게 추가하고 분석할 수 있어, 기업들이 내부적으로 리더보드를 구축하고 모델 성능을 체계적으로 비교할 수 있도록 했다. 아울러 chat template 기반의 추론을 도입해 모델별로 최적화된 프롬프트 관리가 가능해졌으며, 이는 모델 성능의 일관성과 효율성에 큰 기여를 한다.
평가 결과 분석
1. OpenAI의 ChatGPT 4o 모델이 종합 성능 평가에서 1위를 차지했으며, 그 뒤를 이어 Anthropic의 Claude 3.5 Sonnet 모델과 Alibaba Cloud의 Qwen 2.5 72B 모델이 순위에 올랐다. 특히 Qwen 2.5 72B는 오픈소스 모델임에도 불구하고, 대규모의 폐쇄형 모델들과 비교해도 부족함 없는 성능을 보여 주목받았다.
2. 국내 자체 개발 기반모델들중에서는 주로 비교적 작은 크기의 모델을 대상으로 평가가 이루어졌다. 10B 이하 모델 중에서는 LG AI Research의 EXAONE-3.0-7.8B 모델이 두드러진 성능을 보였으며, 10B~30B 모델에서는 Upstage의 Solar 모델이 뛰어난 성과를 기록했다.
3. LG AI Research의 EXAONE-3.0-7.8B 모델은 정보 검색, 의미 해석, 출력 제어 성능에서 ChatGPT 4o와 비슷하거나 그 이상의 성능을 보였다. Upstage의 Solar-mini 모델은 전체 모델 중 정보 검색 능력에서 2위를 기록해 최상위권 성능을 자랑했다. Horangi: W&B Korean LLM Leaderboard 3는 단순히 전체 평균 점수에 의한 랭킹뿐만이 아니라 개별 평가 항목의 결과와 실제 모델의 출력 내용을 이용한 심화분석이 가능하기 때문에, 단일 LLM 과 RAG 접근법의 한계를 보완하고자 하는 AI 에이전트 개발 관점에서 중요한 시사점을 제공한다.
4. 범용 언어 성능과 안전 성능은 비례관계를 보였다. 이는 언어 모델이 기본적인 언어 이해와 생성 능력을 높일수록 윤리적 판단, 사회적 편견 관리 등 민감한 작업에서도 우수한 성능을 발휘할 가능성이 높다는 점을 시사한다. 진위 여부를 판단하기 위해서는 모델의 풍부한 지식과 정확한 추론 능력이 필요하고, 유해성 방지나 사회적 편견에 대한 제어는 언어의 의미와 문맥을 정확하게 파악해야 한다. 이러한 모델은 AI 에이전트가 다양한 상황에서 정확하고 안전한 응답을 제공하도록 지원해 사용자와의 상호작용에서 신뢰성을 강화할 수 있다.
인터랙티브하게 모델 평가 결과 분석
이전 버전에 이어 이번 리더보드 공개 페이지에서는 W&B 제품의 강점을 살려 보다 인터랙티브하게 평가 결과를 표시하고 그 자리에서 바로 분석할 수 있다. 예를 들어 이해 능력과 생성 능력의 균형을 평가하거나 두 모델의 차이가 어떤 사례에서 발생하는지 분석할 수 있다. 구체적으로 인터랙티브하게 비교 대상 모델을 선택하고, Tables 기능을 이용해 평균 점수가 아닌 한 문항씩 심층적으로 분석할 수 있다.
신제품 Weave 소개
W&B는 LLM 및 LLM 기반 애플리케이션 평가에 대한 중요성이 높아짐에 따라 W&B 제품의 평가 관련 기능을 강화한다. 올해 4월 베타 출시된 LLMOps 제품인 W&B Weave에는 서로 다른 조건으로 만들어진 모델과 애플리케이션을 쉽게 시각화해 비교 분석할 수 있는 새로운 기능을 추가했다. 이 제품 관련 문의는 한국어 문의처 contact-kr@wandb.com로 연락하면 된다.
Weights & Biases 소개
Weights & Biases, Inc.는 미국 샌프란시스코에 본사를 둔 회사로, 엔터프라이즈급 ML 실험 관리 및 엔드투엔드 MLOps/LLMOps 워크플로우를 지원하는 플랫폼을 제공하고 있다. W&B 플랫폼은 LLM 개발, 이미지 세그멘테이션, 신약 개발 등 다양한 딥러닝 활용 사례에 널리 사용되고 있으며, NVIDIA, OpenAI, Toyota 등 국내외 선도 기업을 포함해 80만 명 이상의 머신러닝 개발자로부터 신뢰받는 AI 개발의 표준 플랫폼으로 자리 잡고 있다.
Weights & Biases 다른 기사 보기