OpenAI memperkenalkan GPT-4o, multimoda yang digadang-gadang bakal menghadapi AI Gemini Google
Techno.id - OpenAI mengumumkan model baru bernama GPT-4o untuk mendukung ChatGPT. Namun, tidak seperti kemajuan yang diperkenalkan model sebelumnya, GPT-4, model ini menghadirkan peningkatan besar pada kemampuan multimodalnya, memungkinkannya berinteraksi dengan teks, visual, audio, atau kombinasi dari semuanya.
-
Begini cara mengakses GPT-4 yang baru diluncurkan di ChatGPT GPT-4 diklaim dapat memecahkan masalah yang sulit dengan akurasi yang lebih tinggi
-
5 Keunggulan GPT-4 dibandingkan ChatGPT, lebih aman dan interaktif GPT-4 merupakan seri hasil pengembangan dari ChatGPT dan GPT-3.5.
-
Google rilis Gemini, model AI terbaru sebagai penantang Chat GPT Model AI ini diklaim mampu menangani perintah gambar, audio, atau video dengan akurat
Anggap saja sebagai alat AI dengan mata dan telinga yang dapat memahami dunia di sekitar kamu. Misalnya cara kamu menggunakan sesuatu seperti Google Lens, tetapi sekarang dilengkapi dengan chatbot AI generatif di ponsel.
OpenAI mengklaim GPT-4o dapat menjawab pertanyaan audio hanya dalam waktu sekitar 0,2 detik. Misalnya, alat ini dapat memfasilitasi percakapan dwibahasa dua arah dengan menerjemahkan satu bahasa ke bahasa lain, tanpa harus memintanya di akhir pidato setiap orang.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
Khususnya, OpenAI mengatakan telah mengurangi separuh biaya API untuk pengembang dan juga secara dramatis mengurangi ukuran token untuk setiap permintaan, yang berarti prosesnya lebih cepat.
GPT-4o sepertinya merupakan alternatif all-in-one yang nyaman untuk alat seperti Google Gemini, yang juga multimodal. Khususnya, ChatGPT dengan GPT-4o memiliki keunggulan kritis. Model Nano Gemini memerlukan dasar perangkat keras tertentu, tetapi ChatGPT tidak melakukannya karena mengikuti alur kerja yang sepenuhnya berbasis cloud dan dapat berjalan di ponsel modern mana pun.
Ini yang dapat dicapai visi ChatGPT
Dalam video demo yang dirilis OpenAI, GPT-4o terlihat mengidentifikasi objek dunia nyata dan menafsirkannya dalam bahasa lain. Lalu mengajarkan matematika dalam mode layar terbagi berdasarkan masalah yang muncul di aplikasi lain, mengidentifikasi orang dan lingkungannya dalam bingkai kamera, bahkan membuat lelucon ayah yang buruk. Sayangnya, semua kemampuan multimodal yang mewah ini akan membutuhkan waktu untuk mendarat di ponsel setiap pengguna.
Pada fase awal, yang dimulai dengan peluncuran publik mulai 13 Mei 2024, GPT-4o hanya akan hadir dengan kemampuan teks dan gambar yang ditingkatkan. Dengan GPT-4o, OpenAI melatih satu model baru end-to-end di seluruh teks, visi, dan audio, yang berarti bahwa semua input dan output diproses oleh jaringan saraf yang sama.
Dalam minggu-minggu mendatang, OpenAI akan menguji kemampuan audio dan penglihatan secara ekstensif. Namun saat dirilis, akan ada batasan tertentu di masa-masa awal. Misalnya, output audio hanya akan memungkinkan pemilihan preset suara yang terbatas untuk dipilih.
Menariknya, GPT-4o akan tersedia untuk semua pengguna tanpa berlangganan alias gratis. Sedangkan untuk pengguna dengan langganan ChatGPT Plus, mereka akan mendapatkan batas 5x lebih tinggi untuk percakapan yang didukung model baru ini dan juga akan diberi akses prioritas ke kemampuan audio dan penglihatan dalam beberapa minggu mendatang.
BACA JUGA :
- Sekarang ChatGPT memiliki aplikasi desktop resmi, bisa mengakses mode suara
- 7 Alat AI yang bisa menjawab pertanyaan dari dokumen PDF, menyelesaikan pekerjaan jadi lebih mudah
- OpenAI luncurkan fitur ChatGPT baru, versi gratis chatbots akan diperbarui
- Cara mengatur instruksi khusus di ChatGPT, bisa memberikan informasi seperti yang kamu inginkan
- Apple dan OpenAI hampir mencapai kesepakatan untuk menempatkan ChatGPT di iPhone
(brl/red)