숫자 뒤에 숨겨진 진실
많은 개발자들이 MMLU나 HumanEval 점수만 보고 모델을 선택합니다. 하지만 실전 서비스에서는 **지연 시간(Latency)**과 **일관성(Consistency)**이 훨씬 더 중요할 수 있습니다.
벤치마크가 놓치는 것들
1. **한국어 뉘앙스**: 영문 벤치마크에서 1위인 모델이 한국어 특유의 높임말이나 문맥을 오해하는 경우가 많습니다.
2. **구조화 출력 신뢰도**: 복잡한 JSON 데이터를 생성할 때 스키마를 얼마나 정확히 지키는지는 일반적인 벤치마크에서 측정하기 어렵습니다.
LegoStack의 추천 가이드
LegoStack은 단순 점수뿐만 아니라 DX(Developer Experience)와 실제 API 비용을 결합한 **Efficiency Score**를 제공합니다. 벤치마크는 참고용으로 보되, 여러분의 실제 데이터로 테스트해보는 것이 가장 정확합니다.