OpenAI memperkenalkan GPT-4o, multimoda yang digadang-gadang bakal menghadapi AI Gemini Google

14/05/2024 23:05 WIB

Yani Andriansyah

foto: openai

Advertisement

Techno.id - OpenAI mengumumkan model baru bernama GPT-4o untuk mendukung ChatGPT. Namun, tidak seperti kemajuan yang diperkenalkan model sebelumnya, GPT-4, model ini menghadirkan peningkatan besar pada kemampuan multimodalnya, memungkinkannya berinteraksi dengan teks, visual, audio, atau kombinasi dari semuanya.

You May Know

Anggap saja sebagai alat AI dengan mata dan telinga yang dapat memahami dunia di sekitar kamu. Misalnya cara kamu menggunakan sesuatu seperti Google Lens, tetapi sekarang dilengkapi dengan chatbot AI generatif di ponsel.

OpenAI mengklaim GPT-4o dapat menjawab pertanyaan audio hanya dalam waktu sekitar 0,2 detik. Misalnya, alat ini dapat memfasilitasi percakapan dwibahasa dua arah dengan menerjemahkan satu bahasa ke bahasa lain, tanpa harus memintanya di akhir pidato setiap orang.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

Khususnya, OpenAI mengatakan telah mengurangi separuh biaya API untuk pengembang dan juga secara dramatis mengurangi ukuran token untuk setiap permintaan, yang berarti prosesnya lebih cepat.

GPT-4o sepertinya merupakan alternatif all-in-one yang nyaman untuk alat seperti Google Gemini, yang juga multimodal. Khususnya, ChatGPT dengan GPT-4o memiliki keunggulan kritis. Model Nano Gemini memerlukan dasar perangkat keras tertentu, tetapi ChatGPT tidak melakukannya karena mengikuti alur kerja yang sepenuhnya berbasis cloud dan dapat berjalan di ponsel modern mana pun.

Ini yang dapat dicapai visi ChatGPT

Dalam video demo yang dirilis OpenAI, GPT-4o terlihat mengidentifikasi objek dunia nyata dan menafsirkannya dalam bahasa lain. Lalu mengajarkan matematika dalam mode layar terbagi berdasarkan masalah yang muncul di aplikasi lain, mengidentifikasi orang dan lingkungannya dalam bingkai kamera, bahkan membuat lelucon ayah yang buruk. Sayangnya, semua kemampuan multimodal yang mewah ini akan membutuhkan waktu untuk mendarat di ponsel setiap pengguna.

Pada fase awal, yang dimulai dengan peluncuran publik mulai 13 Mei 2024, GPT-4o hanya akan hadir dengan kemampuan teks dan gambar yang ditingkatkan. Dengan GPT-4o, OpenAI melatih satu model baru end-to-end di seluruh teks, visi, dan audio, yang berarti bahwa semua input dan output diproses oleh jaringan saraf yang sama.

Dalam minggu-minggu mendatang, OpenAI akan menguji kemampuan audio dan penglihatan secara ekstensif. Namun saat dirilis, akan ada batasan tertentu di masa-masa awal. Misalnya, output audio hanya akan memungkinkan pemilihan preset suara yang terbatas untuk dipilih.

Menariknya, GPT-4o akan tersedia untuk semua pengguna tanpa berlangganan alias gratis. Sedangkan untuk pengguna dengan langganan ChatGPT Plus, mereka akan mendapatkan batas 5x lebih tinggi untuk percakapan yang didukung model baru ini dan juga akan diberi akses prioritas ke kemampuan audio dan penglihatan dalam beberapa minggu mendatang.

techno.id

Kanal

OpenAI memperkenalkan GPT-4o, multimoda yang digadang-gadang bakal menghadapi AI Gemini Google

BACA JUGA :