Meta'nın ImageBind AI'sı insan algısını taklit edebilir

Meta, kodu açık erişim yapay zeka adı altında yayınlar. GörüntüBind, insanların çevrelerini nasıl algıladıklarına veya hayal ettiklerine benzer şekilde veriler arasındaki ilişkileri tahmin eder. Midjourney, Stable Diffusion ve DALL-E 2 gibi görüntü oluşturucular sözcükleri görüntülere bağlayarak yalnızca metinsel bir açıklamaya dayalı görsel sahneler oluşturmanıza olanak tanırken, ImageBind bunun ötesine geçer. Metin, resim veya video, ses, 3D ölçümler, sıcaklık verileri ve hareket verileri arasında bağlantı kurabilir ve bunu her fırsatta ön eğitime ihtiyaç duymadan yapar. Bu, sonunda bir metin istemi, görüntü veya ses (veya bunların bir kombinasyonu) gibi basit girdilerden karmaşık ortamlar oluşturabilecek bir çerçevenin erken bir aşamasıdır.

Metaverse Projesi

ImageBind'i makine öğreniminin insan öğrenimine bir yaklaşımı olarak düşünebilirsiniz. Örneğin, işlek bir cadde gibi dinamik bir ortamda duruyorsanız, beyniniz (çoğunlukla bilinçsizce) geçen arabalar, yüksek binalar, hava durumu ve daha fazlası hakkında bilgi almak için görüntüleri, sesleri ve diğer duyusal duyumları emer. . İnsanlar ve diğer hayvanlar, bu verileri genetik avantajlarımız için işlemek üzere evrimleşmişlerdir: hayatta kalma ve DNA'mızı aktarma. (Çevreniz hakkında ne kadar çok şey bilirseniz, tehlikeden o kadar çok kaçınabilir ve daha iyi hayatta kalmak ve gelişmek için ortamınıza uyum sağlayabilirsiniz). Bilgisayarlar, hayvanların çoklu duyusal bağlantılarını taklit etmeye yaklaştıkça, bu bağlantıları, yalnızca sınırlı veri parçalarına dayalı olarak tamamen gerçekleştirilmiş sahneler oluşturmak için kullanabilirler.

Dolayısıyla, Midjourney'i "bir plaj topunun üzerinde dengede duran Gandalf kostümü giymiş bir basset tazı" yaratmak ve o tuhaf sahnenin görece gerçekçi bir fotoğrafını çekmek için kullanabilseniz de, ImageBind gibi çok modlu bir yapay zeka aracı sonunda köpekle alakalı bir video oluşturabilir. ayrıntılı bir oturma odası, oda sıcaklığı ve köpeğin ve sahnedeki diğer herkesin tam konumu dahil olmak üzere sesler. Meta araştırmacıları, geliştirici odaklı bloglarında "Bu, statik görüntüleri sesli komutlarla birleştirerek animasyonlar oluşturmak için mükemmel bir fırsat yaratıyor" diyor. "Örneğin, bir içerik oluşturucu, bir görüntüyü çalar saat ve ötme horoz ile birleştirebilir ve horozu bölümlere ayırmak için bir sesli ipucu veya saati bölümlere ayırmak ve her ikisini de bir video dizisinde canlandırmak için çalar saatin sesini kullanabilir."

Meta

Bu yeni oyuncakla başka neler yapılabileceğine gelince, bu açıkça Meta'nın temel hedeflerinden birine işaret ediyor: VR, karma gerçeklik ve metauzay. Örneğin, anında tamamen gerçekleştirilmiş 3B sahneler (ses, hareket vb.) oluşturabilen bir gelecek kulaklığı hayal edin. Veya sanal oyun geliştiricileri, tasarım sürecindeki zahmetli çalışmanın önemli bir kısmından kendilerini kurtarmak için sonunda bunu kullanabilirler. Aynı şekilde, içerik oluşturucular yalnızca metin, resim veya sese dayalı gerçekçi müzikler ve hareket içeren sürükleyici videolar oluşturabilir. ImageBind gibi bir aracın, görme veya işitme engelli kişilerin çevrelerini daha iyi anlamalarına yardımcı olmak için gerçek zamanlı multimedya açıklamaları oluşturarak erişilebilirlikte nasıl yeni kapılar açtığını hayal etmek de kolaydır.

Ayrıca ilginç: Yapay zekaya dayalı en iyi araçlar

Meta, "Tipik yapay zeka sistemlerinde, ilgili her modalite için belirli bir yerleştirme (yani verileri ve bunların makine öğrenimindeki ilişkilerini temsil edebilen sayı vektörleri) vardır" diyor. "ImageBind, her bir modalite kombinasyonuyla veriler üzerinde eğitim yapmak zorunda kalmadan birden fazla modalite için ortak bir yerleştirme alanı yaratmanın mümkün olduğunu gösteriyor. Bu önemlidir çünkü araştırmacılar, örneğin şehrin işlek bir caddesinden gelen ses verilerini ve termal verileri veya derinlik verilerini ve bir deniz kenarındaki uçurumun metinsel tanımını içeren örneklerle veri kümeleri oluşturamazlar."

Meta, bu teknolojinin eninde sonunda tabiri caizse mevcut altı "duyunun" ötesine geçeceğine inanıyor. "Mevcut çalışmamızda altı modaliteyi araştırmış olsak da, dokunma, konuşma, koku ve fMRI beyin sinyalleri gibi mümkün olduğu kadar çok duyuyu birbirine bağlayan yeni modaliteler sunmanın daha zengin insan merkezli yapay zeka modellerine olanak sağlayacağına inanıyoruz." Bu yeni korumalı alanı keşfetmekle ilgilenen geliştiriciler, Meta'nın açık kaynak kodunu inceleyerek başlayabilir.

Ayrıca okuyun:

DzhereloEngadget

Üye olmak

0 Yorumlar

Gömülü İncelemeler

Tüm yorumları görüntüle

Diğer makaleler

Meta'nın ImageBind AI'sı insan algısını taklit edebilir

Son Yorumlar