Misteri Besar dalam Dunia Kecerdasan Buatan


Pemimpin AI Mengubah Cara Pelatihan Model Bahasa Besar Berat Data

Pemimpin AI sedang memikir ulang pelatihan yang memerlukan data berat untuk model bahasa besar. Model tradisional berkembang secara linear dengan data, tetapi pendekatan ini mungkin mencapai jalan buntu. Model yang lebih kecil, lebih efisien, dan metode pelatihan baru mendapatkan dukungan industri. Selama bertahun-tahun, perusahaan teknologi seperti OpenAI, Meta, dan Google telah fokus untuk mengumpulkan banyak data, dengan asumsi bahwa lebih banyak materi pelatihan akan menghasilkan model yang lebih cerdas dan kuat. Sekarang, pemimpin AI sedang mempertimbangkan kembali kebijakan konvensional tentang cara melatih model bahasa besar.

Fokus pada Data Pelatihan Muncul dari Penelitian

Fokus pada data pelatihan muncul dari penelitian yang menunjukkan bahwa transformer, jaringan saraf di balik model bahasa besar, memiliki hubungan satu lawan satu dengan jumlah data yang diberikan. Model transformer “berkembang secara cukup linear dengan jumlah data dan komputasi yang diberikan,” kata Alex Voica, seorang konsultan di Universitas Kecerdasan Buatan Mohamed bin Zayed, sebelumnya kepada Business Insider. Namun, para eksekutif mulai khawatir bahwa pendekatan ini hanya bisa sampai di situ, dan mereka sedang menjelajahi alternatif untuk memajukan teknologi. Uang yang masuk ke dalam AI sebagian besar bergantung pada gagasan bahwa hukum penskalaan ini “akan tetap berlaku,” kata CEO Scale AI Alexandr Wang dalam konferensi Cerebral Valley pekan ini, laporan newsletter teknologi Command Line. Sekarang ini “pertanyaan terbesar di industri.”

Pendekatan yang Lebih Efisien

Beberapa eksekutif mengatakan bahwa masalah dengan pendekatan ini adalah sedikit tanpa pikiran. “Jelas, jika Anda menambahkan komputasi lebih ke model, jika Anda membuat model lebih besar, maka model tersebut akan menjadi lebih baik,” kata Aidan Gomez, CEO Cohere, dalam podcast 20VC. “Ini semacam cara yang paling dapat dipercaya untuk meningkatkan model. Ini juga cara paling bodoh.” Gomez menganjurkan model yang lebih kecil, lebih efisien, yang mendapatkan dukungan industri karena hemat biaya. Beberapa khawatir bahwa pendekatan ini tidak akan mencapai kecerdasan buatan umum – bentuk teoretis AI yang sebanding atau melampaui kecerdasan manusia – meskipun banyak perusahaan AI terbesar di dunia bertaruh padanya.

Model Bahasa Besar Dilatih untuk “Memprediksi Token Selanjutnya”

Model bahasa besar dilatih untuk “memprediksi token selanjutnya, diberikan set token sebelumnya,” kata Richard Socher, mantan eksekutif Salesforce dan CEO mesin pencari AI You.com, kepada Business Insider. Cara yang lebih efektif untuk melatih mereka adalah “memaksa” model tersebut untuk menerjemahkan pertanyaan ke dalam kode komputer dan menghasilkan jawaban berdasarkan output kode tersebut, katanya. Hal ini akan mengurangi halusinasi dalam pertanyaan kuantitatif dan meningkatkan kemampuan mereka. Tidak semua pemimpin industri yakin bahwa AI telah mencapai batas penskalaan, bagaimanapun. “Meskipun orang lain berpikir sebaliknya, kita belum pada hasil margin yang menurun pada penskalaan,” kata chief technology officer Microsoft Kevin Scott pada bulan Juli dalam wawancara dengan podcast Training Data Sequoia Capital.

Perusahaan Seperti OpenAI Mencari Cara untuk Meningkatkan LLM yang Ada

OpenAI’s o1, yang dirilis pada bulan September, masih bergantung pada mekanisme prediksi token yang disebutkan Socher.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *