Meta (perusahaan induk Facebook, Instagram, WhatsApp) baru saja meluncurkan model bahasa besar terbarunya, Llama 3.2, dalam acara Meta Connect yang digelar pada Rabu (25/9/2024). Model AI ini diumumkan oleh CEO Meta, Mark Zuckerberg, sebagai pesaing GPT-4o Mini milik OpenAI yang baru saja dirilis bulan Juli lalu. Menurut Zuckerberg, Llama 3.2 telah mengalami pertumbuhan yang luar biasa sejak tahun 2023, bahkan kini diklaim mampu menyaingi kemampuan GPT-4o Mini dalam pengenalan gambar dan tugas pemahaman visual lainnya.
Llama 3.2 disebut-sebut unggul dibandingkan dengan model AI open-source milik Google (Gemma) dan Microsoft (Phi 3.5-mini) dalam berbagai bidang, mulai dari mengikuti instruksi, meringkas teks, penggunaan alat, hingga penulisan ulang perintah. “Llama terus berkembang dengan pesat, memberikan banyak kemampuan baru,” kata Zuckerberg dengan penuh semangat.
Model ini merupakan upgrade dari versi sebelumnya, Llama 3.1, yang dirilis sekitar dua bulan yang lalu. Peningkatan terbesar yang dibawa oleh Llama 3.2 adalah dukungan multimodal, yang memungkinkan model ini untuk memahami input gambar dan teks secara bersamaan. “Llama 3.2 adalah model multimodal sumber terbuka pertama kami, membuka banyak peluang untuk aplikasi yang memerlukan pemahaman visual,” jelas Zuckerberg.
Meta nampaknya sedang berusaha keras untuk mengejar ketertinggalan mereka dalam perlombaan AI global. Perusahaan ini berupaya menyaingi pengembang AI lainnya, seperti OpenAI dan Google, yang telah lebih dulu meluncurkan model AI yang mendukung multimodal tahun sebelumnya.
Seperti pendahulunya, Llama 3.2 juga tersedia sebagai model open-source, sehingga pengembang dapat menggunakan model AI ini secara bebas dan tanpa biaya. Llama 3.2 hadir dalam dua versi, yaitu versi kecil dengan 11 miliar parameter dan versi sedang dengan 90 miliar parameter. Semakin tinggi jumlah parameter, semakin akurat model tersebut dan semakin kompleks tugas yang bisa dihandle.
Dengan panjang konteks mencapai 128.000 token, Llama 3.2 memungkinkan pengguna untuk memasukkan teks dalam jumlah yang besar, setara dengan ratusan halaman buku. Dengan model ini, pengembang dapat membuat aplikasi AI yang lebih canggih, seperti aplikasi realitas tertambah yang memberikan pemahaman video secara real-time, mesin pencari visual yang mengurutkan gambar berdasarkan konten, atau analisis dokumen yang meringkas potongan teks yang panjang.
Berkat kemampuannya dalam memahami gambar, Llama 3.2 dengan parameter 11B dan 90B dapat memberikan keterangan pada gambar, menentukan objek dari deskripsi bahasa alami, dan bahkan mengekstrak detail dari gambar untuk diubah menjadi teks. Model ini juga hadir dalam versi teks-saja yang lebih ringan, dengan parameter 1B dan 3B, yang cocok untuk membangun aplikasi yang lebih personalisasi.
Llama 3.2 diharapkan dapat digunakan pada berbagai perangkat seluler, seperti Qualcomm, MediaTek, dan perangkat keras Arm lainnya. Meta berharap model ini dapat memberikan pengalaman AI yang lebih maju kepada pengguna di seluruh dunia. Semoga Llama 3.2 dapat membawa revolusi baru dalam pengembangan AI dan membantu memajukan teknologi ke depan!