본문 바로가기

관습과 상식에서 한발짝 멀어지기

OpenAI o3 : AGI 시대의 서막

반응형
SMALL
OpenAI o3의 발표를 듣는 샘 알트만 OpenAI 대표 (우측)
OpenAI에서 새롭게 개발한 추론형 멀티모달 모델인 o3는 2025년에 정식 출시될 예정입니다. 이 모델은 성능에 따라 o3와 좀 더 가볍게 사용할 수 있는 o3-mini로 나뉩니다. 재미있는 점은, 이 모델이 OpenAI의 이전 버전인 o1의 후속작인데, 이름이 o2가 아니라 o3가 된 이유가 따로 있다고 합니다. 영국의 이동통신 브랜드인 O2와 상표권 분쟁을 피하기 위해, 한 단계 건너뛴 이름을 붙였다고 하네요! 이런 비하인드 스토리가 모델 이름에 숨겨져 있다니 흥미롭지 않나요?
 
o3는 실무 코딩 실력을 평가하는 SWE-bench에서 71.7점을 기록하며 현재까지 발표된 모델 중 가장 뛰어난 성과를 보여줬습니다. 또한, 알고리즘 대회 플랫폼인 Codeforces에서는 무려 2727점을 받아 상위 **0.2%**에 해당하는 점수를 기록했습니다. 특히 SWE-bench의 문제 중 77.8%가 숙련된 개발자가 1시간 이내에 해결 가능한 수준이라고 평가되는 만큼, o3는 알고리즘 같은 특정 영역에서는 대부분의 개발자보다 뛰어난 능력을 보여줄 수 있습니다. 그러나 실무적인 개발에서는 여전히 한계가 있어, 현재로서는 사람을 완전히 대체하기에는 어려움이 있는 상황입니다. AI가 사람을 완전히 대신할 날이 오려면 아직 시간이 필요해 보이네요.
 
o3는 Competition Math 평가에서 96.7점을 기록하며 만점에 가까운 성과를 보여줬습니다. (발표영상의 가운데 앉으신 분이 o3 product manager인데, 본인은 이 시험에서 100점 맞았다고 살짝 자랑겸 안도). 이뿐만 아니라, 박사 수준의 과학 문제에서도 87.7점이라는 매우 높은 점수를 받았는데요. 이를 통해 복잡한 수학적 문제나 고급 과학 지식이 요구되는 상황에서도 o3가 상당히 뛰어난 능력을 발휘할 수 있다는 점이 입증되었습니다.
 

o3는 인간에게는 비교적 쉬운 문제지만 AI에게는 까다로운 것으로 알려진 ARC-AGI 평가에서 87.5점을 기록하며, 인간 전문가 수준인 85점을 넘어서 AGI(Artificial General Intelligence) 타이틀을 획득했습니다. 이 성과는 AI 연구에서 큰 진전으로 평가받아, 이를 넘어서는 후속 ARC 벤치마크가 나올 것으로 예상되고 있습니다.

하지만 이 놀라운 성과 뒤에는 비용 문제라는 논란이 따릅니다. ARC-AGI 평가에서 87.5점을 얻기 위해 한 문제당 약 3,440달러가 소요되었고, 전체 400문제를 해결하는 데에는 약 20억 원이라는 막대한 비용이 들었다고 밝혀졌습니다. 만약 문제당 비용을 20달러 수준으로 낮출 경우, 점수는 75.7점으로 떨어지게 됩니다. 이러한 점 때문에 현재의 o3 모델은 상용화까지 여전히 상당한 시간이 필요하다는 평가를 받고 있습니다. AI가 인간 수준의 지능을 구현하는 데 있어 성능뿐만 아니라 경제적 현실성도 해결해야 할 중요한 과제로 남아 있습니다. 어차피 초기 기술은 비싸지만, 유용하기만 하면 기술 비용은 급격하게 떨어지니, 지금 많이 든다고 해도 큰 걱정은 안해도 될 듯 합니다.

o3는 가장 쉬운 문제조차 국제수학올림피아드나 퍼트넘 경시대회 수준으로 알려진 Frontier Math에서 25.2점을 기록했습니다. 이는 매우 어려운 수학 문제를 다루는 초기 단계의 성과로 볼 수 있습니다. OpenAI의 개발자인 Will Depue는 2025년 말까지 Frontier Math에서 90점을 달성할 수 있는 모델을 개발할 것이라고 자신감을 내비쳤습니다. 이 발언은 OpenAI가 고차원적인 수학 문제 해결에서도 AI의 잠재력을 확장해 나가고 있음을 보여줍니다. 수학 같은 문제는 사용하는 기호, 논리 전개 등에서 한정적이기 때문에 AI가 더 잘하는 듯 합니다.
한편, o3는 o1-preview가 발표된 지 3개월 만에 공개되었으며, 준AGI 수준에 가까운 성능으로 많은 관심을 끌었습니다. 그러나 현재의 o3는 추론 비용이 상당히 비싸다는 문제가 있습니다. 이러한 비용 문제는 일반 사용자가 o3와 같은 수준의 모델을 저렴하게 활용하기까지 시간이 더 필요하다는 점을 시사합니다. 고성능 AI의 보편화를 위해서는 기술적인 발전과 함께 비용 효율화가 중요한 과제로 남아 있습니다.
OpenAI는 o3를 경량화한 모델인 o3-mini를 함께 발표했는데, 이 모델은 비용과 성능 면에서 주목할 만한 균형을 보여줍니다. 벤치마크 테스트 결과, o3-mini는 OpenAI의 이전 모델인 o1에 필적하거나 그 이상의 성능을 기록했으며, 무엇보다 o3뿐 아니라 o1에 비해서도 훨씬 저렴한 비용으로 작동합니다.
특히, Codeforces 테스트에서는 o1보다 훨씬 적은 비용으로도 o1을 능가하는 성과를 거두어, 경량화된 모델임에도 강력한 성능을 입증했습니다. **o3-mini(low)**와 **o3-mini(medium)**의 경우, 비용은 o1-mini보다 더 적게 들면서도 성능은 오히려 더 뛰어난 결과를 보여줬습니다. 이처럼 비용 대비 효율성이 우수한 o3-mini는 다양한 벤치마크에서도 o1에 거의 밀리지 않는 결과를 기록하며, o1의 대체재로 자리 잡을 가능성이 커 보입니다.
이러한 결과는, AI 기술의 성능 향상과 함께 점점 더 경제적인 모델을 개발하려는 OpenAI의 노력을 잘 보여줍니다. o3-mini의 성공은 고성능 AI를 보다 많은 사용자들이 접근 가능하도록 만드는 데 있어 중요한 이정표가 될 것입니다. 

반응형
LIST