Imagen adalah model difusi teks-ke-gambar yang dikembangkan oleh Google Research untuk menghasilkan gambar dari deskripsi teks dengan tingkat fotorealisme tinggi dan pemahaman bahasa yang mendalam. Model ini memadukan kemampuan model bahasa besar dalam memahami teks dengan kekuatan diffusion model dalam menghasilkan gambar berkualitas tinggi.
Sumber: Lihat artikel asli di Wikipedia
Imagen adalah model difusi teks-ke-gambar yang dikembangkan oleh Google Research untuk menghasilkan gambar dari deskripsi teks dengan tingkat fotorealisme tinggi dan pemahaman bahasa yang mendalam. Model ini memadukan kemampuan model bahasa besar dalam memahami teks dengan kekuatan diffusion model dalam menghasilkan gambar berkualitas tinggi.[1]
Imagen pertama kali diperkenalkan oleh Google Research melalui publikasi ilmiah pada Mei 2022, yang menandai kemunculan awal sistem teks ke gambar dengan tingkat fotorealisme tinggi dan pemahaman bahasa yang mendalam.[2] Setelah itu, Google meluncurkan Imagen 2 pada Desember 2023, yang membawa peningkatan signifikan melalui fitur baru berupa kemampuan menghasilkan teks dan logo secara langsung di dalam gambar.[3] Pengembangan berlanjut dengan hadirnya Imagen 3 pada Agustus 2024, yang difokuskan pada peningkatan kualitas detail visual serta pencahayaan agar hasil gambar tampak lebih realistis dan alami.[4] Terakhir, pada 20 Mei 2025, dalam ajang Google I/O 2025, Google memperkenalkan Imagen 4, versi terbaru yang diklaim memiliki kemampuan pemrosesan lebih cepat dan resolusi keluaran hingga 2K, menegaskan posisinya sebagai salah satu model teks-ke-gambar paling maju di bidang kecerdasan buatan generatif.[5]
Imagen dibangun atas dua komponen utama. Komponen pertama adalah model bahasa besar berbasis transformer, khususnya T5, yang berfungsi untuk memahami teks dan mengubahnya menjadi representasi numerik yang dapat digunakan dalam proses sintesis gambar. Komponen kedua adalah model difusi bertingkat (cascaded diffusion models), yang digunakan untuk menghasilkan gambar dengan tingkat ketepatan dan fidelitas tinggi.[2] Pada versi terbaru, Imagen 4, model ini mendukung pembuatan gambar dengan resolusi hingga 2K.[3]