Jakarta Aktual
Jakarta Aktual

Berita Aktual dan Faktual

Jakarta Aktual
Jakarta Aktual© 2026
Jakarta Aktual
Jakarta Aktual

Berita Aktual dan Faktual

Kembali ke Wiki
Artikel Wikipedia

Imagen (model teks-ke-gambar)

Imagen adalah model difusi teks-ke-gambar yang dikembangkan oleh Google Research untuk menghasilkan gambar dari deskripsi teks dengan tingkat fotorealisme tinggi dan pemahaman bahasa yang mendalam. Model ini memadukan kemampuan model bahasa besar dalam memahami teks dengan kekuatan diffusion model dalam menghasilkan gambar berkualitas tinggi.

Wikipedia article
Diperbarui 10 November 2025

Sumber: Lihat artikel asli di Wikipedia

Imagen adalah model difusi teks-ke-gambar yang dikembangkan oleh Google Research untuk menghasilkan gambar dari deskripsi teks dengan tingkat fotorealisme tinggi dan pemahaman bahasa yang mendalam. Model ini memadukan kemampuan model bahasa besar dalam memahami teks dengan kekuatan diffusion model dalam menghasilkan gambar berkualitas tinggi.[1]

Perkembangan

Imagen pertama kali diperkenalkan oleh Google Research melalui publikasi ilmiah pada Mei 2022, yang menandai kemunculan awal sistem teks ke gambar dengan tingkat fotorealisme tinggi dan pemahaman bahasa yang mendalam.[2] Setelah itu, Google meluncurkan Imagen 2 pada Desember 2023, yang membawa peningkatan signifikan melalui fitur baru berupa kemampuan menghasilkan teks dan logo secara langsung di dalam gambar.[3] Pengembangan berlanjut dengan hadirnya Imagen 3 pada Agustus 2024, yang difokuskan pada peningkatan kualitas detail visual serta pencahayaan agar hasil gambar tampak lebih realistis dan alami.[4] Terakhir, pada 20 Mei 2025, dalam ajang Google I/O 2025, Google memperkenalkan Imagen 4, versi terbaru yang diklaim memiliki kemampuan pemrosesan lebih cepat dan resolusi keluaran hingga 2K, menegaskan posisinya sebagai salah satu model teks-ke-gambar paling maju di bidang kecerdasan buatan generatif.[5]

Teknologi

Imagen dibangun atas dua komponen utama. Komponen pertama adalah model bahasa besar berbasis transformer, khususnya T5, yang berfungsi untuk memahami teks dan mengubahnya menjadi representasi numerik yang dapat digunakan dalam proses sintesis gambar. Komponen kedua adalah model difusi bertingkat (cascaded diffusion models), yang digunakan untuk menghasilkan gambar dengan tingkat ketepatan dan fidelitas tinggi.[2] Pada versi terbaru, Imagen 4, model ini mendukung pembuatan gambar dengan resolusi hingga 2K.[3]

Referensi

  1. ↑ "Imagen: Text-to-Image Diffusion Models". imagen.research.google. Diakses tanggal 2025-11-08.
  2. 1 2 Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara (2022-05-23), Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding, doi:10.48550/arXiv.2205.11487, diakses tanggal 2025-11-08
  3. 1 2 "Imagen". Google DeepMind (dalam bahasa American English). Diakses tanggal 2025-11-08.
  4. ↑ Schoon, Ben (2024-08-16). "Google opens access to Imagen 3, its latest model for AI image generation". 9to5Google (dalam bahasa American English). Diakses tanggal 2025-11-08.
  5. ↑ Wiggers, Kyle (2025-05-20). "Imagen 4 is Google's newest AI image generator". TechCrunch (dalam bahasa American English). Diakses tanggal 2025-11-08.


Ikon rintisan

Artikel bertopik teknologi ini adalah sebuah rintisan. Anda dapat membantu Wikipedia dengan mengembangkannya.

  • l
  • b
  • s

Bagikan artikel ini

Share:

Daftar Isi

  1. Perkembangan
  2. Teknologi
  3. Referensi

Artikel Terkait

Model teks-ke-gambar

model pembelajaran mesin

Kecerdasan buatan generatif

Stable Diffusion. Model-model ini mampu menghasilkan gambar fotorealistis, karya seni, serta desain secara otomatis dari deskripsi teks sehingga cepat diadopsi

LAION

organisasi penelitian kecerdasan buatan

Jakarta Aktual
Jakarta Aktual© 2026