Nöral 3D işlemedeki gelişmeler neden pazara ulaşmıyor?


Transform 2022’ye katılamadınız mı? İsteğe bağlı kitaplığımızdaki tüm zirve oturumlarına şimdi göz atın! Buraya bak.


Son 10 yılda sinir ağları, basit görsel nesneleri tanımaktan tutarlı metinler ve fotogerçekçi 3D renderlar oluşturmaya doğru dev bir adım attı. Bilgisayar grafikleri daha karmaşık hale geldikçe, sinir ağları iş akışının önemli bir bölümünü otomatikleştirmeye yardımcı olur. Pazar, meta veri deposunun hiper gerçekçi alanını doldurmak için 3D görüntüler oluşturmak için yeni, verimli çözümler talep ediyor.

Ancak bu alanı inşa etmek için hangi teknolojileri kullanacağız ve yapay zeka bize yardımcı olacak mı?

Sinir ağları ortaya çıkıyor

Sinir ağları, evrişimli sinir ağı AlexNet’in kazandığı Eylül 2012’de bilgisayarlı görme endüstrisinin ilgi odağı haline geldi. ImageNet Büyük Ölçekli Görsel Tanıma Mücadelesi. AlexNet, görüntüleri tanıma, analiz etme ve sınıflandırma becerisini kanıtladı. Bu çığır açan beceri, AI sanatının hala sürmekte olduğu konusunda bir hype dalgasına neden oldu.

Daha sonra, adı verilen bilimsel bir makale Tüm İhtiyacınız Dikkat 2017’de yayınlandı. Makale, doğal dil işleme (NLP) için oluşturulan bir sinir ağı olan “Transformer”ın tasarımını ve mimarisini tanımladı. OpenAI, yaratarak bu mimarinin etkinliğini kanıtladı. GPT-3 Birçok teknoloji devi, benzer bir sonuç ve kalite arayışına girmek için acele etti ve Transformers tabanlı sinir ağlarını eğitmeye başladı.

Görüntüleri ve nesneleri tanıma ve bunlara dayalı tutarlı metin oluşturma yeteneği, sinir ağlarının evriminde bir sonraki mantıklı adıma yol açtı: Metin girişini görüntülere dönüştürmek. Bu, metinden görüntüye modellere yönelik kapsamlı araştırmaları başlattı. Sonuç olarak, ilk sürüm DALL-E — 2D görüntüler oluşturmak için derin öğrenmede çığır açan bir başarı — Ocak 2021’de oluşturuldu.

2D’den 3D’ye

DALL-E’den kısa bir süre önce, başka bir atılım, sinir ağlarının 2D’de yapmayı başardıklarıyla neredeyse aynı kalite ve hızda 3D görüntüler oluşturmaya başlamasına izin verdi. Bu, nöral parlaklık alanları yönteminin yardımıyla mümkün oldu (NeRF), bir 2D görüntüler koleksiyonuna dayalı olarak gerçekçi 3D sahneleri yeniden oluşturmak için bir sinir ağı kullanır.

Klasik CGI, uzun süredir 3D sahneler için daha uygun maliyetli ve esnek bir çözüm talep ediyor. Bağlam olarak, bir bilgisayar oyunundaki her sahne milyonlarca üçgenden oluşur ve bunları oluşturmak çok fazla zaman, enerji ve işlem gücü gerektirir. Sonuç olarak, oyun geliştirme ve bilgisayarla görme endüstrileri her zaman üçgen sayısı (sayı ne kadar düşükse, o kadar hızlı oluşturulabilir) ile çıktının kalitesi arasında bir denge kurmaya çalışıyor.

Klasik çokgen modellemenin aksine, sinirsel işleme, yalnızca optik ve doğrusal cebir yasalarına dayalı bir 3B sahneyi yeniden üretir. Güneş ışınları nesnelerden yansıdığı ve retinamıza çarptığı için dünyayı üç boyutlu olarak görüyoruz. NeRF, ters işleme olarak bilinen aynı prensibi izleyen bir alanı modeller. Işık ışınları yüzeyde belirli bir noktaya çarpar ve ışığın fiziksel dünyadaki davranışına yaklaşır. Bu yaklaşık ışık ışınlarının belirli bir parlaklığı – rengi vardır – ve NeRF, ekrandaki koordinatlarını bilerek bir pikseli hangi rengi “boyayacağına” bu şekilde karar verir. Bu şekilde, herhangi bir 3B sahne, x, y ve z koordinatlarına ve görüş yönüne bağlı bir fonksiyon haline gelir.

NeRF, herhangi bir karmaşıklığın üç boyutlu bir alanını modelleyebilir. Render kalitesi, şaşırtıcı derecede yüksek olduğu için klasik poligonal işlemeye göre de büyük bir avantaja sahiptir. Aldığınız çıktı bir CGI görüntüsü değil, çokgenler veya dokular kullanmayan ve klasik işleme yaklaşımlarının bilinen tüm diğer olumsuz taraflarından arınmış, fotogerçekçi bir 3B sahnedir.

İşleme hızı: Sinirsel 3D işleme için ana kapı bekçisi

NeRF söz konusu olduğunda işleme kalitesi etkileyici olsa da, iyi ölçeklenmediğinden ve çok zaman gerektirdiğinden gerçek dünya prodüksiyon ortamında uygulanması hala zordur. Klasik NeRF’de, bir sahneyi yeniden oluşturmak için bir ila üç günlük eğitim gerekir. Ardından her şey, kare başına 10 ila 30 saniye arasında yüksek kaliteli bir grafik kartında işlenir. Bu hala gerçek zamanlı veya cihaz üzerinde işlemeden inanılmaz derecede uzak, bu nedenle NeRF teknolojisinin pazardaki kullanımı hakkında geniş ölçekte konuşmak için henüz çok erken.

Ancak, piyasa böyle bir teknolojinin var olduğunun farkındadır ve dolayısıyla buna yönelik belirgin bir talep de mevcuttur. Sonuç olarak, son iki yılda NeRF için birçok iyileştirme ve optimizasyon gerçekleştirilmiştir. En çok tartışılan Nvidia’nın son çözümü, Anında NeRF, Mart 2022’de oluşturuldu. Bu yaklaşım, statik sahneler için öğrenmeyi önemli ölçüde hızlandırdı. Bununla birlikte, eğitim süresi iki gün değil, birkaç saniye ile birkaç dakika arasında bir yerde sürer ve saniyede birkaç düzine kare oluşturmak mümkündür.

Ancak bir sorun hala çözülmemiş durumda: Dinamik sahneler nasıl oluşturulur. Ayrıca, teknolojiyi metalaştırmak ve daha geniş pazar için çekici ve kullanılabilir hale getirmek için, kişisel dizüstü bilgisayarlar ve iş istasyonları gibi daha az özel ekipman üzerinde hala geliştirilmesi ve kullanılabilir hale getirilmesi gerekiyor.

Bir sonraki büyük şey: Üretken transformatörleri ve NeRF’yi birleştirmek

Transformer’ın bir zamanlar çok modlu gösterimler için NLP’nin gelişimini hızlandırması ve metin açıklamalarından 2D görüntüler oluşturmayı mümkün kılması gibi, NeRF’lerin gelişimini de aynı hızla hızlandırabilir ve onları daha metalaştırılabilir ve yaygın hale getirebilir. Bir metin açıklamasını üç boyutlu nesnelere dönüştürebileceğinizi ve daha sonra tam ölçekli dinamik sahnelerle birleştirebileceğinizi hayal edin. Bu kulağa fantastik gelebilir, ancak yakın gelecek için tamamen gerçekçi bir mühendislik görevidir. Bu sorunu çözmek, herhangi bir metin açıklamasını eksiksiz ve dinamik bir 3B anlatıya dönüştürebilen ve kullanıcının sanal alanda hareket etmesini veya sanal alanla etkileşime girmesini mümkün kılan bir “hayal gücü makinesi” oluşturabilir. Meta veriye çok benziyor, değil mi?

Bununla birlikte, bu nöral işleme, geleceğin metaverse’inde faydalı hale gelmeden önce, bugün onun için gerçek görevler var. Bunlar arasında oyunlar ve filmler için sahneler oluşturma, fotogerçekçi 3D avatarlar oluşturma ve nesneleri, tamamen sürükleyici bir deneyim için herhangi bir nesnenin üç boyutlu alanına girebileceğiniz fotoğraf turizmi adı verilen dijital haritalara aktarma yer alır. Daha sonra, teknoloji optimize edildikten ve metalaştırıldıktan sonra, nöral 3D oluşturma, fotoğraf ve video filtreleri ve bugün kullandığımız akıllı telefon uygulamalarındaki maskeler kadar yaygın ve herkes için erişilebilir hale gelebilir.

Olas Petriv, Reface’in CTO’su ve kurucu ortağıdır..

DataDecisionMakers

VentureBeat topluluğuna hoş geldiniz!

DataDecisionMakers, veri işi yapan teknik kişiler de dahil olmak üzere uzmanların verilerle ilgili içgörüleri ve yenilikleri paylaşabileceği yerdir.

En yeni fikirleri ve güncel bilgileri, en iyi uygulamaları ve veri ve veri teknolojisinin geleceğini okumak istiyorsanız DataDecisionMakers’da bize katılın.

Kendi makalenize katkıda bulunmayı bile düşünebilirsiniz!

DataDecisionMakers’dan Daha Fazlasını Okuyun



Kaynak : https://venturebeat.com/ai/whats-keeping-advances-neural-3d-rendering-from-market/

Yorum yapın