Daha gelişmişi yok! Meta’nın ImageBind yapay zekası insan algısını taklit ediyor

Genel May 10, 2023 Yorum Yok
Meta, metin, ses, görsel bilgiler, sıcaklık ve hareketokumaları iç olmak üzere birdenbire Çok bilgi akışını birbirine bağlayan yeni Aleni kaynaklı AI modeli ImageBind’ı duyurdu. Model, bu noktada sırf bir araştırma projesi olsa da sunulan örnekler, Yapay zekada gelinen noktayı gösteriyor ve ağızları Aleni bırakıyor. ImageBind, bir kuş fotoğrafından kuş sesi, bir tiren sesinden şimendifer fotoğrafı, yahut bir araç motor sesi ve deniz fotoğrafından deniz kenarına park etmiş bir otomobil fotoğrafı oluşturabiliyor. Bu yapabildikleri ise Meta’nın hedeflediği şeyin yalnızca görünen kısmı.

Çok modlu ImageBind, “çok” farklı

Meta, insanların bir ortamı nasıl algıladığına yahut Hayal ettiğine emsal formda datalar ortasındaki irtibatları varsayım eden ImageBind isimli bir Yapay zeka aracını Aleni kaynak olarak sundu. Midjourney, Stable Diffusion ve DALL-E 2 üzere manzara oluşturucular sözleri manzaralarla eşleştirerek sırf bir metin açıklamasına dayalı görsel sahneler oluşturmanıza İmkan tanırken, ImageBind daha geniş bir File oluşturuyor. Metin, imaj / görüntü, ses, 3D ölçümler (derinlik), sıcaklık dataları (termal) ve devinim bilgilerini (atalet ölçüm birimlerinden) birbiriyle birleştiren ImageBind, bunu her mümkünlük üzerinde eğitim almak zorunda kalmadan yapıyor.

İnsan algısı taklit ediliyor

ImageBind‘ı makine tahsilini insan öğrenmesine yaklaştıran bir araç olarak görebilirsiniz. Örneğin, ağır bir Belde caddesi üzere uyarıcı bir ortamda duruyorsanız, beyniniz (büyük ölçüde bilinçsizce) geçen otomobiller ve yayalar, yüksek binalar, hava durumu ve Fazla daha fazlası hakkında bilgi çıkarmak için görünümleri, sesleri ve öteki duyusal tecrübeleri emer. Beşerler ve öbür hayvanlar, genetik avantajımız olan hayatta kalmak ve DNA’mızı aktarmak için bu dataları işlemek üzere şekillenmiştir. Bilgisayarlar hayvanların çoklu duyusal temaslarını taklit etmeye yaklaştıkça, bu kontakları sırf hudutlu bilgi kesimlerine dayalı olarak büsbütün gerçekmiş üzere üretilmiş sahneler oluşturmak için kullanabilirler.

Fotoğrafı çekmiyor, doğruda o anı oluşturmayı hedefliyor

Yani Midjourney‘i kullanarak “bir plaj topunun üzerinde istikrarda dururken Gandalf kıyafeti giyen bir av köpeği” sorusunu sorabilir ve bu garip sahnenin nispeten gerçekçi bir fotoğrafını elde edebilirsiniz, lakin ImageBind gibi Fazla modlu bir Yapay zeka aracı sonunda köpeğin bir görüntüsünü, detaylı bir banliyö oturma odası, odanın sıcaklığı ve köpeğin ve sahnedeki öbür herkesin Kesin pozisyonları da iç olmak üzere ilgili seslerle Birlikte oluşturabilir. Kısaca, ImageBind bir anın fotoğrafını çekmiyor, doğruda o anı oluşturmayı hedefliyor.

Hedef VR ve meteverse mi?

Meta, bu yeni oyuncakla nelerin yapılacağına örnekler vermekten kaçınmıyor. Doğrusu Meta açıkça Temel maksadını muhakkak etmekten de çekinmiyor: VR, karma gerçeklik ve metaverse. Örneğin, gelecekte büsbütün gerçek 3D sahneleri (ses, devinim vb. ile) anında oluşturabilen bir başlık Düş edin. Ya da sanal oyun geliştiricileri, tasarım süreçlerindeki ayak işlerinin birçoklarını ortadan kaldırmak için bunu kullanabilirler.

Emsal biçimde, içerik oluşturucular sadece metin, imaj yahut ses girdisine dayalı olarak gerçekçi ses görüntüleri ve devinim içeren sürükleyici görüntüler hazırlayabilirler. ImageBind üzere bir aracın erişilebilirlik alanında yeni kapılar açacağını, görme yahut işitme engelli şahısların yakın etraflarını daha düzgün algılamalarına Yardımcı olmak için gerçek vakitli multimedya açıklamaları oluşturacağını Düş etmek de güç değil.

Meta blog yazısında, “Tipik Yapay zeka sistemlerinde, her bir modalite için makul bir gömme (yani, bilgileri ve makine tahsilindeki ilgilerini temsil edebilen sayı vektörleri) vardır. ImageBind, her farklı modalite kombinasyonuna sahip datalar üzerinde eğitim yapmaya gerek kalmadan apansız Çok modalite genelinde ortak bir gömme alanı oluşturmanın Muhtemel olduğunu gösteriyor.” diyor.

Meta, ImageBind’ı bu noktada durdurmak da istemiyor. Evet, model 6 farklı duyuyu yahut modu birleştiriyor fakat Meta ilerleyen devirlerde altı modalitenin yanında dokunma, konuşma, koku ve beyin fMRI sinyalleri üzere Mümkün olduğunca Fazla sayıda duyuyu birbirine bağlayan yeni modaliteler sunmayı da hedefliyor.

Yorum Yok

Yorum Yap

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir