sp-globalindo.co.id – Pembuat Chatbot ChatGPT secara resmi mengumumkan OpenAI, model kecerdasan buatan (AI) terbarunya o3 dan o3-mini.
O3 dan o3-mini adalah model AI dengan kemampuan berpikir. Dengan kemampuan tersebut, kedua model AI tersebut dikatakan mampu menyelesaikan masalah dengan cara berpikir yang lebih logis mirip dengan manusia.
Seperti namanya, o3 merupakan penerus o1 yang diperkenalkan pada September lalu. Kemudian o3-mini merupakan versi lebih ringan dan murah dari model o3 yang berpikiran AI, dan juga penerus o1-mini.
Dalam banyak pengujian internal, OpenAI diklaim lebih pintar dari o3 dalam menyelesaikan berbagai masalah matematika. Salah satunya adalah American Invitational Mathematics Examination (AIME) 2024, sebuah kompetisi matematika “invitational” internasional.
Pada ujian AIME 2024, o3 dikatakan mampu menyelesaikan hampir semua soal pada kompetisi ini dengan skor 96,7 persen (hanya satu soal). Sebaliknya, o1 hanya berhasil memperoleh skor 83,3 persen untuk tes serupa.
Baca Juga: OpenAI Akhirnya Merilis Sora Pembuat Video AI Text-to-Text
O3-mini diklaim lebih baik dalam menjawab soal AIME 2024 dibandingkan o1 dan o1-mini pada mode “high” dengan perolehan skor 83,6 persen.
Selain menguji soal AIME 2024, OpenAI mengklaim mampu menjawab berbagai soal sains tingkat universitas yang termasuk dalam kelompok soal GPQA Diamond. Dalam tes ini, o3 mendapat skor 87,7 persen.
O3, OpenAI yang sedang berlangsung, juga berhasil dalam beberapa pengujian, tolok ukur populer terkait penalaran.
Beberapa di antaranya adalah SWE-Bench Verified (pemrograman) dengan skor 22,8, Codeforces (coding) dengan skor 2727, dan Frontier Math EpochAI dengan kemampuan pemecahan masalah sebesar 25,2 persen.
Selain berbagai benchmark di atas, o3 dikatakan memiliki performa yang sangat baik untuk kemampuan kecerdasan umum buatan (AGI), yaitu tes ARC-AGI.
Tes ini biasanya digunakan untuk menguji apakah AI dapat memiliki kemampuan berpikir seperti manusia.
Pada skala 0-100 persen, o3 memiliki skor kinerja ARC-AGI sebesar 76 persen untuk mode “Rendah” dan 88 persen untuk mode “Tinggi”. Sebaliknya, o1 memiliki skor berkisar antara 20 hingga 30 persen dalam berbagai mode mulai dari rendah hingga tinggi.
Baca Juga: Google Rilis Model AI Veo 2, Bikin Text-to-Video Lebih Realistis
Tidak lebih cepat dari GPT-4o dan o1
Secara umum, model penalaran AI akan merespons pertanyaan atau permintaan pengguna lebih lama dibandingkan model AI “normal”. Hal ini dikarenakan o3 akan berpikir dan menghitung beberapa kali sebelum memberikan respon terhadap respon pengguna.
Sebagai perbandingan, untuk mode tinggi, o3 akan merespons pengguna 23 detik setelah menerima permintaan. Pada ChatGPT yang menggunakan GPT-4o, proses ini hanya membutuhkan waktu sekitar 0,5 detik.