Nvidia’dan çığır açan gelişme
Yalnızca birkaç ay Evvel metinden görüntüye üretken Yapay zekalar “Will Smith’in spagetti yemesi” örneğiyle yalnızca bir latife materyali olarak görülüyordu. Lakin Nvidia’nın VideoLDM modeli evvelki örnekleri unutturacak bir araç olarak karşımıza çıkıyor. Nvidia’nın bu teknolojiyi Cornell Üniversitesi araştırmacılarıyla el ele vererek yarattığını da belirtelim. Yalın bir sözle, bu Yapay zeka modeli 2048 x 1280 piksele kadar çözünürlüğe, saniyede 24 kare suratına ve metne dayalı olarak 4,7 saniyeye kadar videolar oluşturabiliyor.
Nvidia, geliştirdiği modelinde 4,1 milyar parametre kullanıyor lakin bunların sadece 2,7 milyarı video eğitiminde kullanıldı. Bunun Fazla Aka bir sayı olduğunu düşünseniz de günümüzün Yapay zeka standartlarına nazaran Ufak bir sayı. Nvidia, görüntü oluşturmak için eğitilmiş Latent Diffusion (LDM) modelini kullanıyor. Bu model vakti izlenen bir Ebat olarak algılıyor ve muhakkak bir mühlet boyunca bir imajın her alanında neyin değişebileceğini kestirim etmeye çalışıyor. Araç, sekans boyunca bir sıra anne kare oluşturuyor, akabinde anne kareler ortasındaki kareleri enterpole etmek için Öbür bir LDM kullanıyor.
Elbette VideoLDM şimdiki haliyle rastgele birini kandıracak kalitede görüntüler üretemiyor. Lakin daha bir yahut iki ay Evvel gördüğümüz örneklere göre gelişimin boyutu Fazla büyük. Şu anda, Nvidia’nın tanıttığı üzere metinden görüntüye Yapay zekalar GIF’ler oluşturmak için kullanılıyor. Bu nedenle Nvidia’nın daha uzun metinden görüntü klipler oluşturmak için daha gelişmiş teknolojiler getirmesinin uzun sürmeyeceğini iddia ediyoruz. Firmanın hazırladığı teknoloji 18-22 Haziran tarihleri ortasında Vancouver’da düzenlenecek olan Machine Vision and Pattern Recognition Konferansında sunulacak.
Yorum Yok