MIT bilim adamları, makine öğreniminin gizemini çözdüler

2010 yılından sonra yazılım algoritmalarında ciddi bir gelişme başladı ve bu güçlü bilgisayarlarla birlikte sinir ağlarının hızla gelişmesine ivme kazandırdı. Yazılım modelleri daha sonra kendi eylemlerini oluşturmak için binlerce örnek üzerinde eğitilir ve eğitilir. Bugün, en ünlü sinir ağı bu OpenAI GPT-3. Bu, çok sayıda İnternet verisi yardımıyla öğrenen, küçük bir metin parçasını alıp yetersiz bir parçayı oldukça yüksek bir düzeyde ekleyebilen bir makine öğrenme modelidir. Ve bu sadece anlatı metni için değil, aynı zamanda şiirler ve yazılım kodu satırları için de geçerlidir.

Sinir ağı

Ancak bu planın modellerinin yapabileceği tek şey bu değil. Araştırmacılar, "bağlam içinde öğrenme" olarak bilinen, büyük bir dil modelinin, görev konusunda eğitilmemiş olmasına rağmen, yalnızca birkaç örnek gördükten sonra bir görevi yerine getirmeyi öğrendiği ilginç bir olgu üzerinde çalışıyorlar.

Massachusetts Institute of Technology, Google Research ve Stanford Üniversitesi'nden bilim insanları bu gizemi çözmeye çalışıyor. Bağlamsal öğrenme ile model parametreleri güncellenmez, bu nedenle model hiçbir şey öğrenmeden yeni bir görev öğreniyormuş gibi görünür.

Sinir ağı

Araştırmacıların teorik sonuçları, bu devasa sinir ağları modellerinin içlerinde gizlenmiş daha küçük ve daha basit doğrusal modelleri içerebildiğini gösteriyor. Büyük model daha sonra bu daha küçük doğrusal modeli, yalnızca daha büyük modelde zaten bulunan bilgileri kullanarak yeni bir görevi gerçekleştirmek üzere eğitmek için basit bir algoritma uygulayabilir.

Bağlamsal öğrenmenin daha derin bir şekilde anlaşılması sayesinde, bilim insanları yeni görevleri pahalı yeniden eğitim olmadan modellerle uygulayabilecekler. Yani, öncelikle, herhangi bir özel görev için, hangi eğitimin gerçekleşeceğine bağlı olarak geniş bir veri dizisi toplamak gerekir. Ve böylece hangi eğitimin gerçekleşeceği sayesinde sinir ağını sadece birkaç örnekle sağlamak mümkün olacaktır.

"Bağlamsal öğrenme, anlaşılması gereken makul olmayan derecede etkili bir öğrenme olgusudur".

Sinir ağı

Sinir ağı modellerinde, eski bir modele yeni bir görevi gerçekleştirmeyi öğretebilen daha küçük makine öğrenimi modellerinin olduğu varsayılmıştır. Teorilerini test etmek için bilim adamları, mimari olarak GPT-3'e çok benzeyen, ancak özellikle bağlam içinde öğrenmek için oluşturulmuş bir sinir ağı modelini aldılar. Yani, önceki katmanların içinde, basit öğrenme algoritmalarını uygulayan, doğrusal bir modeli öğrenmeyi amaçlayan bir model uygulandı.

"Bu sonuçlar, modellerin daha karmaşık görevleri nasıl öğrenebileceğini anlamak için bir basamak taşı ve araştırmacıların performanslarını daha da artırmak için dil modellerini eğitmek için daha etkili yöntemler geliştirmelerine yardımcı olacak.".

Ayrıca okuyun:

Dzherelocsail.mit.edu

Üye olmak

0 Yorumlar

Gömülü İncelemeler

Tüm yorumları görüntüle

Diğer makaleler

Massachusetts Institute of Technology'den bilim adamları, makine öğreniminin gizemini çözdüler

Son Yorumlar