Imagen (model teks-ke-gambar)

Imagen adalah model difusi teks-ke-gambar yang dikembangkan oleh Google Research untuk menghasilkan gambar dari deskripsi teks dengan tingkat fotorealisme tinggi dan pemahaman bahasa yang mendalam. Model ini memadukan kemampuan model bahasa besar dalam memahami teks dengan kekuatan diffusion model dalam menghasilkan gambar berkualitas tinggi.^[1]

Perkembangan

Imagen pertama kali diperkenalkan oleh Google Research melalui publikasi ilmiah pada Mei 2022, yang menandai kemunculan awal sistem teks ke gambar dengan tingkat fotorealisme tinggi dan pemahaman bahasa yang mendalam.^[2] Setelah itu, Google meluncurkan Imagen 2 pada Desember 2023, yang membawa peningkatan signifikan melalui fitur baru berupa kemampuan menghasilkan teks dan logo secara langsung di dalam gambar.^[3] Pengembangan berlanjut dengan hadirnya Imagen 3 pada Agustus 2024, yang difokuskan pada peningkatan kualitas detail visual serta pencahayaan agar hasil gambar tampak lebih realistis dan alami.^[4] Terakhir, pada 20 Mei 2025, dalam ajang Google I/O 2025, Google memperkenalkan Imagen 4, versi terbaru yang diklaim memiliki kemampuan pemrosesan lebih cepat dan resolusi keluaran hingga 2K, menegaskan posisinya sebagai salah satu model teks-ke-gambar paling maju di bidang kecerdasan buatan generatif.^[5]

Teknologi

Imagen dibangun atas dua komponen utama. Komponen pertama adalah model bahasa besar berbasis transformer, khususnya T5, yang berfungsi untuk memahami teks dan mengubahnya menjadi representasi numerik yang dapat digunakan dalam proses sintesis gambar. Komponen kedua adalah model difusi bertingkat (cascaded diffusion models), yang digunakan untuk menghasilkan gambar dengan tingkat ketepatan dan fidelitas tinggi.^[2] Pada versi terbaru, Imagen 4, model ini mendukung pembuatan gambar dengan resolusi hingga 2K.^[3]

Referensi

↑ "Imagen: Text-to-Image Diffusion Models". imagen.research.google. Diakses tanggal 2025-11-08.
1 2 Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara (2022-05-23), Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, doi:10.48550/arXiv.2205.11487, diakses tanggal 2025-11-08
1 2 "Imagen". Google DeepMind (dalam bahasa American English). Diakses tanggal 2025-11-08.
↑ Schoon, Ben (2024-08-16). "Google opens access to Imagen 3, its latest model for AI image generation". 9to5Google (dalam bahasa American English). Diakses tanggal 2025-11-08.
↑ Wiggers, Kyle (2025-05-20). "Imagen 4 is Google's newest AI image generator". TechCrunch (dalam bahasa American English). Diakses tanggal 2025-11-08.

Artikel bertopik teknologi ini adalah sebuah rintisan. Anda dapat membantu Wikipedia dengan mengembangkannya.

[1] "Imagen: Text-to-Image Diffusion Models". imagen.research.google. Diakses tanggal 2025-11-08.

[:0-2] 1 2 Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara (2022-05-23), Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, doi:10.48550/arXiv.2205.11487, diakses tanggal 2025-11-08

[:1-3] 1 2 "Imagen". Google DeepMind (dalam bahasa American English). Diakses tanggal 2025-11-08.

[4] Schoon, Ben (2024-08-16). "Google opens access to Imagen 3, its latest model for AI image generation". 9to5Google (dalam bahasa American English). Diakses tanggal 2025-11-08.

[5] Wiggers, Kyle (2025-05-20). "Imagen 4 is Google's newest AI image generator". TechCrunch (dalam bahasa American English). Diakses tanggal 2025-11-08.

[1]

[2]

[3]

[4]

[5]

Imagen (model teks-ke-gambar)

Perkembangan

Teknologi

Referensi

Bagikan artikel ini

Imagen (model teks-ke-gambar)

Perkembangan

Teknologi

Referensi

Bagikan artikel ini