Kecerdasan buatan sumber terbuka adalah sistem kecerdasan buatan yang tersedia secara bebas untuk digunakan, dipelajari, dimodifikasi, dan dibagikan oleh siapa pun. Ciri tersebut berlaku pada setiap komponen sistem, termasuk himpunan data, kode sumber, dan parameter model, sehingga mendorong pendekatan yang kolaboratif dan transparan dalam pengembangan kecerdasan buatan. Lisensi perangkat lunak bebas dan sumber terbuka , seperti Lisensi Apache, Lisensi MIT, dan Lisensi Publik Umum GNU menetapkan ketentuan tentang cara kecerdasan buatan sumber terbuka dapat diakses, dimodifikasi, dan didistribusikan kembali.
Sumber: Lihat artikel asli di Wikipedia
Kecerdasan buatan sumber terbuka (open-source artificial intelligence) adalah sistem kecerdasan buatan yang tersedia secara bebas untuk digunakan, dipelajari, dimodifikasi, dan dibagikan oleh siapa pun.[1] Ciri tersebut berlaku pada setiap komponen sistem, termasuk himpunan data, kode sumber, dan parameter model, sehingga mendorong pendekatan yang kolaboratif dan transparan dalam pengembangan kecerdasan buatan.[1] Lisensi perangkat lunak bebas dan sumber terbuka (free and open-source software/ FOSS), seperti Lisensi Apache, Lisensi MIT, dan Lisensi Publik Umum GNU menetapkan ketentuan tentang cara kecerdasan buatan sumber terbuka dapat diakses, dimodifikasi, dan didistribusikan kembali.[2]
Model sumber terbuka (open-source) memberikan akses yang lebih luas terhadap teknologi kecerdasan buatan (artificial intelligence), sehingga memungkinkan lebih banyak individu dan organisasi untuk berpartisipasi dalam penelitian dan pengembangan kecerdasan buatan.[3][4] Sebaliknya, kecerdasan buatan bersumber tertutup (closed-source) bersifat hak milik dan membatasi akses terhadap kode sumber serta komponen internalnya.[3] Perusahaan sering kali mengembangkan produk tertutup untuk mempertahankan keunggulan kompetitif di pasar.[5] Namun, beberapa pakar menyatakan bahwa alat kecerdasan buatan sumber terbuka memiliki keunggulan dalam pengembangan dibandingkan produk tertutup dan berpotensi menyalipnya di pasar.[4][5]
Kategori proyek kecerdasan buatan sumber terbuka yang populer meliputi model bahasa besar, alat penerjemahan mesin, dan bot obrolan.[6] Untuk mengembangkan sumber daya kecerdasan buatan sumber terbuka, pengembang perangkat lunak perlu mempercayai berbagai komponen perangkat lunak sumber terbuka lain yang mereka gunakan selama proses pengembangan.[7]
Perangkat lunak kecerdasan buatan sumber terbuka diperkirakan memiliki potensi risiko yang lebih besar dibandingkan kecerdasan buatan bersumber tertutup karena pihak yang tidak bertanggung jawab dapat menghapus protokol keselamatan dari model publik sesuai keinginan mereka.[4] Sebaliknya, kecerdasan buatan bersumber tertutup juga diperkirakan memiliki risiko yang lebih tinggi dibandingkan kecerdasan buatan sumber terbuka karena masalah ketergantungan, privasi, algoritme yang tidak transparan, kendali perusahaan, serta ketersediaan yang terbatas yang berpotensi memperlambat inovasi yang bermanfaat.[8][9][10]
Selain itu, terdapat perdebatan mengenai tingkat keterbukaan sistem kecerdasan buatan karena konsep keterbukaan bersifat beragam.[11] Sebuah artikel di Nature menyebutkan bahwa beberapa sistem yang dipresentasikan sebagai terbuka, seperti Llama 3 dari Meta, “hanya menawarkan API atau kemampuan mengunduh model yang masih tunduk pada pembatasan penggunaan yang tidak sepenuhnya terbuka”.[11] Perangkat lunak semacam itu dikritik sebagai bentuk open-washing, yakni sistem yang sebenarnya lebih tepat dipahami sebagai bersumber tertutup.[9][12]
Beberapa penelitian dan kerangka kerja telah dikembangkan untuk menilai tingkat keterbukaan sistem kecerdasan buatan,[11][13] termasuk definisi baru yang diterbitkan oleh Open Source Initiative (OSI) mengenai kriteria yang menentukan apakah suatu sistem kecerdasan buatan dapat digolongkan sebagai sumber terbuka.[14][15] Selain itu, sejumlah model bahasa besar dirilis dengan status open-weight, yang berarti parameter hasil pelatihannya tersedia untuk publik, meskipun kode pelatihan dan data yang digunakan tidak dibuka.[16][17]
Sejarah kecerdasan buatan sumber terbuka berkaitan erat dengan perkembangan teknologi kecerdasan buatan dan pertumbuhan gerakan perangkat lunak sumber terbuka.[18] Kecerdasan buatan sumber terbuka berkembang pesat selama beberapa dekade terakhir melalui kontribusi berbagai lembaga akademik, laboratorium penelitian, perusahaan teknologi, dan pengembang independen.[19] Bagian ini membahas tonggak-tonggak penting dalam perkembangan kecerdasan buatan sumber terbuka, mulai dari masa awal hingga kondisi terkini.
Konsep kecerdasan buatan bermula pada pertengahan abad ke-20, ketika ilmuwan komputer seperti Alan Turing dan John McCarthy meletakkan dasar bagi teori dan algoritme kecerdasan buatan modern.[20] Salah satu bentuk awal kecerdasan buatan adalah program pemrosesan bahasa alami bernama ELIZA, yang dibuat ulang dan dibagikan pada tahun 1977 oleh Jeff Shrager dalam bahasa pemrograman BASIC, lalu diterjemahkan ke berbagai bahasa lain. Penelitian awal kecerdasan buatan berfokus pada pengembangan sistem penalaran simbolik dan sistem pakar berbasis aturan.[21]
Pada periode yang sama, gagasan tentang perangkat lunak sumber terbuka mulai terbentuk, dengan tokoh seperti Richard Stallman yang memperjuangkan perangkat lunak bebas untuk mendorong kolaborasi dan inovasi dalam pemrograman.[22] Yayasan Perangkat Lunak Bebas, yang didirikan Stallman pada tahun 1985, menjadi salah satu organisasi pertama yang mempromosikan gagasan perangkat lunak yang dapat digunakan, dimodifikasi, dan didistribusikan secara bebas. Gagasan dari gerakan ini kemudian memengaruhi perkembangan kecerdasan buatan sumber terbuka, ketika semakin banyak pengembang melihat manfaat kolaborasi terbuka dalam pembuatan perangkat lunak, termasuk model dan algoritme kecerdasan buatan.[23][24]
Pada 1990-an, perangkat lunak sumber terbuka mulai mendapatkan perhatian yang lebih luas.[25] Bersamaan dengan itu, kemunculan metode pembelajaran mesin dan pendekatan statistik memicu pengembangan alat kecerdasan buatan yang lebih praktis. Pada tahun 1993, CMU Artificial Intelligence Repository diluncurkan sebagai repositori perangkat lunak kecerdasan buatan yang dapat diakses publik.[26]
Pada awal 2000-an, kecerdasan buatan sumber terbuka mulai berkembang pesat dengan hadirnya pustaka dan kerangka kerja dasar yang lebih mudah digunakan serta terbuka bagi siapapun untuk berkontribusi.[27]
OpenCV dirilis pada tahun 2000[28] dan menyediakan berbagai algoritme kecerdasan buatan tradisional seperti decision tree, k-Nearest Neighbors (kNN), Naive Bayes, dan Mesin Vektor Pendukung (Support Vector Machine - SVM).[29]
Pada tahun 2007, Scikit-learn dirilis[30] dan menjadi salah satu pustaka paling populer untuk pembelajaran mesin umum karena kemudahan penggunaan serta fungsionalitasnya yang luas, mencakup algoritme seperti regresi, klasifikasi, dan klasterisasi.[31][32] Pada tahun yang sama, Theano juga diperkenalkan sebagai pustaka pembelajaran mendalam.[33]
Kerangka kerja pembelajaran mendalam sumber terbuka seperti Torch pertama kali dirilis pada tahun 2002 dan menjadi terbuka penuh melalui Torch7 pada tahun 2011, yang kemudian dikembangkan menjadi PyTorch dan TensorFlow.[34][35] Kerangka kerja ini memungkinkan peneliti dan pengembang membangun serta melatih jaringan saraf untuk berbagai tugas seperti pengenalan gambar, pengolahan bahasa alami (NLP), dan kendaraan otonom.[36][37]
Model AlexNet diluncurkan pada tahun 2012,[38] diikuti oleh Word2Vec milik Google pada tahun 2013 untuk pemrosesan bahasa alami.[39][40]
Pada tahun 2014, GloVe,[41] pesaing Word2Vec, dirilis di bawah lisensi Apache 2.0 dengan dokumentasi set-data dan bobot model yang dibagikan ke domain publik.[42]
Ketika OpenAI mengumumkan GPT-2, perusahaan awalnya berencana untuk tidak membuka kode sumber karena alasan keamanan dan potensi penyalahgunaan.[43] Namun, setelah muncul kritik publik, OpenAI merilis kode sumber GPT-2 di GitHub tiga bulan kemudian.[43] Meskipun begitu, OpenAI tidak membuka kode sumber atau bobot pra-latih untuk GPT-3 dan GPT-4, tetapi menyediakan akses melalui API.[44][45]
Kemunculan model bahasa besar (LLM) dan kecerdasan buatan generatif seperti GPT-3 (2020) mendorong meningkatnya permintaan terhadap kerangka kerja kecerdasan buatan sumber terbuka.[46][47] Model-model tersebut digunakan dalam berbagai aplikasi seperti bot obrolan, pembuatan konten, dan generasi kode, yang menunjukkan luasnya kemampuan sistem kecerdasan buatan.[48] Pada saat GPT-3 dirilis, GPT-2 masih menjadi model bahasa sumber terbuka paling kuat, yang kemudian memicu kelompok EleutherAI untuk melatih dan merilis GPT-Neo[49] serta GPT-J[49][50] pada tahun 2021.
Pada Februari 2022, EleutherAI merilis GPT-NeoX-20B, merebut kembali posisi sebagai model bahasa sumber terbuka paling kuat di dunia dari model FairSeq Dense 13B milik Meta. Tahun 2022 juga ditandai dengan munculnya model-model besar lainnya, baik dengan lisensi non-terbuka seperti OPT[[51] dan Galactica[52] milik Meta, maupun model sumber terbuka seperti BLOOM BigScience Research Workshop[53][54] dan GLM Universitas Tsinghua.
Selama pembahasan peraturan kecerdasan buatan di Eropa pada 2021–2022, muncul usulan agar kecerdasan buatan sumber terbuka tidak diatur secara berlebihan.[55] Pada tahun 2022, Open Source Initiative (OSI) mulai menyusun definisi baru tentang "kecerdasan buatan sumber terbuka" yang sesuai dengan karakteristik perangkat lunak dan model kecerdasan buatan, dengan isu paling kontroversial terkait akses data pelatihan. Pada tahun 2024, OSI merilis Open Source AI Definition 1.0 (OSAID 1.0) yang didukung lebih dari 20 organisasi.[56] Definisi tersebut mewajibkan keterbukaan penuh atas perangkat lunak untuk pemrosesan data, pelatihan, dan inferensi model, serta penyediaan informasi data pelatihan yang cukup agar sistem serupa dapat direplikasi. Pada tahun 2023, model Llama 1 dan Llama 2, MosaicML MPT,[57][58] serta Mistral dan Mixtral dari Mistral AI dirilis.
Pada tahun 2024, Meta meluncurkan kumpulan model kecerdasan buatan besar termasuk Llama 3.1 405B, yang setara dengan model tertutup paling canggih.[59] Meta menyatakan pendekatannya bersifat sumber terbuka, berbeda dari perusahaan teknologi besar lain.[59] Namun, Open Source Initiative dan beberapa pihak lain menyatakan bahwa Llama tidak sepenuhnya sumber terbuka karena lisensinya membatasi penggunaan untuk tujuan tertentu.[60][61][62] Pada Desember 2024, DeepSeek merilis V3 LLM, diikuti oleh R1 Reasoning Model pada 20 Januari 2025, keduanya sebagai model open-weight dengan lisensi MIT.[63][64]
Sejak peluncuran ChatGPT pada akhir 2022, hanya sedikit model bahasa besar yang benar-benar terbuka (termasuk bobot, data, dan kode). Di antaranya adalah seri OLMo yang dikembangkan oleh Allen Institute for AI.[65][66] Pada September 2025, konsorsium asal Swiss merilis model sepenuhnya terbuka bernama Apertus,[67][68] tersedia dalam dua ukuran: 8B dan 70B.[69] Selain itu, terdapat pula upaya regional seperti Latam-GPT, model terbuka yang berfokus pada Amerika Latin.[70]
Seiring dengan perkembangan model kecerdasan buatan, perhatian terhadap penerapan standar etika dalam pengembangannya juga semakin meningkat.[71] Upaya ini mencakup penanganan berbagai isu seperti bias, privasi, dan potensi penyalahgunaan sistem kecerdasan buatan.[71] Akibatnya, berbagai kerangka kerja untuk pengembangan kecerdasan buatan yang bertanggung jawab serta pedoman untuk mendokumentasikan pertimbangan etika mulai dikembangkan, termasuk konsep Model Card yang diperkenalkan oleh Google.[72] Meskipun konsep tersebut semakin populer, beberapa penelitian menunjukkan bahwa penerapannya masih perlu ditingkatkan untuk mencegah dampak negatif yang tidak diinginkan.[73][74]