o3는 인간에게는 비교적 쉬운 문제지만 AI에게는 까다로운 것으로 알려진 ARC-AGI 평가에서 87.5점을 기록하며, 인간 전문가 수준인 85점을 넘어서 AGI(Artificial General Intelligence) 타이틀을 획득했습니다. 이 성과는 AI 연구에서 큰 진전으로 평가받아, 이를 넘어서는 후속 ARC 벤치마크가 나올 것으로 예상되고 있습니다.
하지만 이 놀라운 성과 뒤에는 비용 문제라는 논란이 따릅니다. ARC-AGI 평가에서 87.5점을 얻기 위해 한 문제당 약 3,440달러가 소요되었고, 전체 400문제를 해결하는 데에는 약 20억 원이라는 막대한 비용이 들었다고 밝혀졌습니다. 만약 문제당 비용을 20달러 수준으로 낮출 경우, 점수는 75.7점으로 떨어지게 됩니다. 이러한 점 때문에 현재의 o3 모델은 상용화까지 여전히 상당한 시간이 필요하다는 평가를 받고 있습니다. AI가 인간 수준의 지능을 구현하는 데 있어 성능뿐만 아니라 경제적 현실성도 해결해야 할 중요한 과제로 남아 있습니다. 어차피 초기 기술은 비싸지만, 유용하기만 하면 기술 비용은 급격하게 떨어지니, 지금 많이 든다고 해도 큰 걱정은 안해도 될 듯 합니다.
o3는 가장 쉬운 문제조차 국제수학올림피아드나 퍼트넘 경시대회 수준으로 알려진 Frontier Math에서 25.2점을 기록했습니다. 이는 매우 어려운 수학 문제를 다루는 초기 단계의 성과로 볼 수 있습니다. OpenAI의 개발자인 Will Depue는 2025년 말까지 Frontier Math에서 90점을 달성할 수 있는 모델을 개발할 것이라고 자신감을 내비쳤습니다. 이 발언은 OpenAI가 고차원적인 수학 문제 해결에서도 AI의 잠재력을 확장해 나가고 있음을 보여줍니다. 수학 같은 문제는 사용하는 기호, 논리 전개 등에서 한정적이기 때문에 AI가 더 잘하는 듯 합니다.
한편, o3는 o1-preview가 발표된 지 3개월 만에 공개되었으며, 준AGI 수준에 가까운 성능으로 많은 관심을 끌었습니다. 그러나 현재의 o3는 추론 비용이 상당히 비싸다는 문제가 있습니다. 이러한 비용 문제는 일반 사용자가 o3와 같은 수준의 모델을 저렴하게 활용하기까지 시간이 더 필요하다는 점을 시사합니다. 고성능 AI의 보편화를 위해서는 기술적인 발전과 함께 비용 효율화가 중요한 과제로 남아 있습니다.
OpenAI는 o3를 경량화한 모델인 o3-mini를 함께 발표했는데, 이 모델은 비용과 성능 면에서 주목할 만한 균형을 보여줍니다. 벤치마크 테스트 결과, o3-mini는 OpenAI의 이전 모델인 o1에 필적하거나 그 이상의 성능을 기록했으며, 무엇보다 o3뿐 아니라 o1에 비해서도 훨씬 저렴한 비용으로 작동합니다.
특히, Codeforces 테스트에서는 o1보다 훨씬 적은 비용으로도 o1을 능가하는 성과를 거두어, 경량화된 모델임에도 강력한 성능을 입증했습니다. **o3-mini(low)**와 **o3-mini(medium)**의 경우, 비용은 o1-mini보다 더 적게 들면서도 성능은 오히려 더 뛰어난 결과를 보여줬습니다. 이처럼 비용 대비 효율성이 우수한 o3-mini는 다양한 벤치마크에서도 o1에 거의 밀리지 않는 결과를 기록하며, o1의 대체재로 자리 잡을 가능성이 커 보입니다.
이러한 결과는, AI 기술의 성능 향상과 함께 점점 더 경제적인 모델을 개발하려는 OpenAI의 노력을 잘 보여줍니다. o3-mini의 성공은 고성능 AI를 보다 많은 사용자들이 접근 가능하도록 만드는 데 있어 중요한 이정표가 될 것입니다.
'관습과 상식에서 한발짝 멀어지기' 카테고리의 다른 글
새로운 검색의 시대를 열다: Perplexity 이야기 (2) | 2024.12.22 |
---|---|
효과적인 학습 전략: 셀프 테스트 vs. 반복 읽기 (2) | 2024.12.22 |
로지텍 MX 버티컬 마우스 (Logitech MX Vertical Mouse): My Money My Buy (0) | 2024.12.22 |
인공지능으로 인한 인류 멸망 시나리오 (1) | 2024.12.22 |
계엄과 혼인 (3) | 2024.12.21 |