Gensyn merilis RL Swarm Framework untuk Collaborative Reinforcement Learning, berencana meluncurkan Testnet pada bulan Maret
Singkatnya Gensyn telah memperkenalkan RL Swarm untuk memfasilitasi pembelajaran penguatan kolaboratif dan telah mengumumkan peluncuran testnet pada bulan Maret, yang memungkinkan partisipasi yang lebih luas dalam kemajuan kecerdasan mesin terbuka.
Jaringan untuk kecerdasan mesin, Gensin , telah memperkenalkan RL Swarm, sistem peer-to-peer terdesentralisasi yang dirancang untuk memfasilitasi pembelajaran penguatan kolaboratif melalui internet. Bulan depan, proyek ini bermaksud meluncurkan testnet, yang memungkinkan partisipasi yang lebih luas dalam memajukan kecerdasan mesin terbuka.
RL Swarm adalah platform sumber terbuka sepenuhnya yang memungkinkan model pembelajaran penguatan untuk dilatih secara kolektif di seluruh sistem terdistribusi. Platform ini berfungsi sebagai demonstrasi langsung dari temuan penelitian yang menunjukkan bahwa model yang memanfaatkan RL dapat meningkatkan efisiensi pembelajarannya saat dilatih sebagai bagian dari kelompok kolaboratif, bukan secara terpisah.
Mengoperasikan simpul swarm menyediakan kemampuan untuk memulai swarm baru atau terhubung ke swarm yang sudah ada menggunakan alamat publik. Di dalam setiap swarm, model terlibat dalam pembelajaran penguatan secara kolektif, memanfaatkan protokol komunikasi terdesentralisasi—berdasarkan Hivemind—untuk memfasilitasi pembagian pengetahuan dan peningkatan model. Dengan menjalankan perangkat lunak klien yang disediakan, peserta dapat bergabung dengan swarm, mengamati pembaruan bersama, dan melatih model secara lokal sambil memanfaatkan kecerdasan kolektif. Ke depannya, eksperimen tambahan akan diperkenalkan, yang mendorong keterlibatan yang lebih luas dalam memajukan teknologi ini.
Individu diundang untuk bergabung dengan RL Swarm guna merasakan sistem ini secara langsung. Partisipasi dapat diakses melalui perangkat keras konsumen standar dan sumber daya GPU berbasis cloud yang lebih canggih.
Bagaimana RL Swarm Bekerja?
Gensin telah lama membayangkan masa depan di mana pembelajaran mesin terdesentralisasi dan didistribusikan ke seluruh jaringan perangkat yang luas. Alih-alih mengandalkan model yang besar dan tersentralisasi, pendekatan ini akan melibatkan pemecahan model menjadi komponen yang lebih kecil dan saling terhubung yang beroperasi secara kolaboratif. Sebagai bagian dari penelitiannya terhadap visi ini, Gensyn telah mengeksplorasi berbagai jalur menuju pembelajaran yang terdesentralisasi dan baru-baru ini mengamati bahwa pembelajaran penguatan (RL) pasca-pelatihan sangat efektif ketika model berkomunikasi dan memberikan umpan balik satu sama lain.
Secara khusus, percobaan menunjukkan bahwa model RL meningkatkan efisiensi pembelajarannya saat dilatih sebagai bagian dari kelompok kolaboratif daripada secara mandiri.
Dalam pengaturan ini, setiap simpul kelompok menjalankan model Qwen 2.5 1.5B dan terlibat dalam penyelesaian masalah matematika (GSM8K) melalui proses terstruktur tiga tahap. Pada tahap pertama, setiap model secara independen mencoba menyelesaikan masalah yang diberikan, menghasilkan penalaran dan jawabannya dalam format yang ditentukan. Pada tahap kedua, model meninjau respons rekan-rekannya dan memberikan umpan balik yang membangun. Pada tahap terakhir, setiap model memberikan suara pada apa yang diprediksinya akan dianggap sebagai jawaban terbaik oleh mayoritas, kemudian menyempurnakan responsnya. Melalui interaksi berulang ini, model secara kolektif meningkatkan kemampuan pemecahan masalah mereka.
Hasil eksperimen menunjukkan bahwa metode ini mempercepat proses pembelajaran, memungkinkan model menghasilkan respons yang lebih akurat pada data uji yang tidak terlihat dengan lebih sedikit iterasi pelatihan.
Visualisasi data menggunakan TensorBoard menggambarkan tren utama yang diamati dalam node swarm yang berpartisipasi. Plot ini menunjukkan pola siklus karena "pengaturan ulang" berkala yang terjadi di antara putaran pelatihan kolaboratif. Sumbu x di semua plot menunjukkan waktu yang telah berlalu sejak node bergabung dengan swarm, sedangkan sumbu y menunjukkan metrik kinerja yang berbeda. Dari kiri ke kanan, plot menggambarkan: Consensus Correctness Reward, yang mengukur contoh saat model memformat responsnya dengan benar dan menghasilkan jawaban yang akurat secara matematis; Total Reward, jumlah tertimbang dari evaluasi berbasis aturan (seperti pemformatan, akurasi matematis, dan koherensi logis); Training Loss, yang mencerminkan bagaimana model menyesuaikan berdasarkan sinyal reward untuk mengoptimalkan proses pembelajarannya; dan Response Completion Length, yang melacak jumlah token yang digunakan dalam respons—yang menunjukkan bahwa model menjadi lebih ringkas saat menerima kritik dari rekan sejawat.
Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.
Kamu mungkin juga menyukai
Kapan Harga Pi Network Meroket? Ini Prediksi Analis Dr.Altcoin!

Nexus Mutual akan menyediakan jaminan asuransi untuk lapisan staking Bitcoin milik Babylon
Sekilas Penyedia asuransi kripto Nexus Mutual sedang mengembangkan produk perlindungan slashing untuk mekanisme proof-of-stake milik Babylon yang berbasis Bitcoin. Perlindungan ini akan menawarkan perlindungan slashing bagi penumpang individu dan institusi, “menawarkan cara bagi pemegang Bitcoin untuk berpartisipasi dalam staking dengan rasa aman yang lebih baik.”

Coinbase mengincar pengembalian tahunan 4-8% melalui dana hasil bitcoin
Sekilas Coinbase berencana untuk memanfaatkan likuiditas bitcoin senilai $1 triliun untuk memberikan pengembalian bagi investor. Dana ini secara eksklusif tersedia untuk investor institusional non-AS dan peserta akan dibayar dalam BTC.

Memecoin dan Token AI Mengontrol 62,8% Perhatian Pasar Kripto 2025 — Inilah Alasannya

Berita trending
LainnyaHarga kripto
Lainnya








