Unified-IO, görüntü oluşturma dahil bir dizi görevi tamamlayabilen bir yapay zeka sistemidir – Teknolojik Haberler


Kar amacı gütmeyen Allen Enstitüsü’nün makine öğrenimi araştırmalarına odaklanan bölümü olan Allen Yapay Zeka Enstitüsü (AI2), bugün, “geniş ve çeşitli” bir sistem gerçekleştiren ilkler arasında olduğunu iddia ettiği Unified-IO adlı bir AI sistemi üzerindeki çalışmasını yayınladı. ” AI görevleri kümesi. Unified-IO, görüntüleri, metinleri ve diğer yapılandırılmış verileri işleyebilir ve oluşturabilir; bunun arkasındaki araştırma ekibi, yetenekli, birleşik genel amaçlı AI sistemleri oluşturmaya yönelik bir adım olduğunu söylüyor.

“Görevden bağımsız olarak inşa etmekle ilgileniyoruz. [AI systems]Uygulayıcıların eğitmelerini sağlayan [machine learning] AI2’de Unified-IO üzerinde çalışan bir araştırma bilimcisi olan Jaisen Lu, Teknolojik Haberler’a e-posta yoluyla söyledi. “Bu tür birleşik mimariler, göreve özgü parametrelere ve sistem değişikliklerine duyulan ihtiyacı hafifletir, çok çeşitli görevleri gerçekleştirmek için ortaklaşa eğitilebilir ve performansı artırmak için görevler arasında bilgi paylaşabilir.”

AI2’nin birleşik AI sistemleri oluşturmaya yönelik ilk çabaları, görüntülerin alt yazılarını yazmak ve soruları yanıtlamak da dahil olmak üzere bir avuç iş yükünü destekleyen iki genel amaçlı “görme dili” sistemi olan GPV-1 ve GPV-2’ye yol açtı. Lu’ya göre Unified-IO, çizim tahtasına geri dönmeyi ve sıfırdan yeni bir model tasarlamayı gerektiriyordu.

Unified-IO, bir “Transformatör” olması bakımından OpenAI’nin GPT-3’ü ile ortak özellikleri paylaşır. 2017 yılına dayanan Transformer, belgeleri özetleme, müzik üretme, görüntülerdeki nesneleri sınıflandırma ve protein dizilerini analiz etme becerisi göstererek karmaşık akıl yürütme görevleri için tercih edilen mimari haline geldi.

Tüm AI sistemleri gibi, Unified-IO, milyarlarca kelimeyi, görüntüyü ve daha fazlasını jetonlar biçiminde alarak örneklerle öğrendi. Bu belirteçler, verileri Unified-IO’nun anlayabileceği şekilde temsil etmeye hizmet etti.

Birleşik-IO

Unified-IO, kısa bir açıklama verilen görüntüler oluşturabilir.

“Doğal dil işleme (NLP) topluluğu, birleşik bir yapı oluşturmada çok başarılı olmuştur. [AI systems] Birçok NLP görevi homojen bir şekilde temsil edilebildiğinden, birçok farklı görevi destekler – girdi olarak kelimeler ve çıktı olarak kelimeler. Ancak bilgisayarla görme görevlerinin doğası ve çeşitliliği, geçmişteki çoklu görev modellerinin küçük bir dizi görevle ve çoğunlukla dil çıktıları üreten görevlerle (bir soruyu yanıtlama, resim yazısı yazma vb.) AI2’de Unified-IO’da Lu ile işbirliği yapan , Teknolojik Haberler’a bir e-postayla söyledi. “Unified-IO, görüntüler, ikili maskeler, sınırlayıcı kutular, anahtar nokta kümeleri, gri tonlamalı haritalar ve daha fazlası gibi çeşitli yapılandırılmış çıktıları homojen belirteç dizilerine dönüştürerek, çok benzer bir dizi klasik bilgisayarlı görme görevini modelleyebileceğimizi gösteriyor. NLP’de görevleri nasıl modellediğimize.

Bazı sistemlerin aksine, Unified-IO videoları ve sesleri analiz edemez veya oluşturamaz; bu, modelin “modalite perspektifinden” bir sınırlaması olduğunu açıkladı Clark. Ancak Unified-IO görevleri arasında Yapabilmek Tamamlananlar, görüntüler oluşturmak, görüntülerdeki nesneleri algılamak, derinliği tahmin etmek, belgeleri başka sözcüklerle ifade etmek ve fotoğraflardaki belirli bölgeleri vurgulamaktır.

“Bunun bilgisayarla görme üzerinde büyük etkileri var, çünkü görüntüler, maskeler, dil ve sınırlayıcı kutular kadar çeşitli modaliteleri basit belirteç dizileri olarak – dile benzer şekilde – ele almaya başladığından beri, ” Clark ekledi. “Ayrıca, bu ölçekte birleştirme, artık bilgisayar vizyonunda devasa birleşik ön eğitim, görevler arasında bilgi aktarımı, birkaç adımda öğrenme ve daha fazlası gibi yeni yolların kapılarını açabilir.”

AI2’nin araştırmasına dahil olmayan Alberta Üniversitesi’nde bilgisayar bilimi yardımcı doçenti Matthew Guzdial, Unified-IO’yu bir atılım olarak adlandırmak konusunda isteksizdi. Sistemin, oyun oynamaktan robotları kontrol etmeye kadar 600’den fazla görevi yerine getirebilen tek bir model olan DeepMind’in yakın zamanda ayrıntılı Gato’su ile karşılaştırılabilir olduğunu kaydetti.

“Fark [between Unified-IO and Gato] Açıkçası, farklı bir dizi görev olduğu, ancak bu görevlerin büyük ölçüde daha kullanışlı olduğudur. Bununla demek istediğim, bu Unified-IO ağının yapabileceği şeyler için açık, güncel kullanım durumları var, oysa Gato çoğunlukla sadece oyun oynayabilir. Bu, Unified-IO’nun veya onun gibi bir modelin, potansiyel ürün ve hizmetler açısından insanların hayatlarını gerçekten etkilemesini daha olası kılıyor,” dedi Guzdial. “Tek endişem, demo gösterişli olsa da, bu görevler üzerinde ayrı ayrı eğitilmiş modellere kıyasla bu görevlerde ne kadar iyi olduğuna dair hiçbir fikrin olmaması. Gato’nun bireysel görevlerde eğitilmiş modellerin nasıl düşük performans gösterdiği göz önüne alındığında, aynı şeyin burada da geçerli olacağını umuyorum.”

Birleşik-IO

Unified-IO, zorlu aydınlatmalarda bile görüntüleri bölümlere ayırabilir.

Bununla birlikte, AI2 araştırmacıları, Unified-IO’yu gelecekteki çalışmalar için güçlü bir temel olarak görüyor. Ses ve video gibi daha fazla modalite için destek eklerken ve performansı artırmak için ölçeklendirirken sistemin verimliliğini artırmayı planlıyorlar.

“Imagen ve DALL-E 2 gibi son çalışmalar, yeterli eğitim verisi verildiğinde modellerin… çok etkileyici sonuçlar üretmek için eğitilebileceğini göstermiştir. Yine de bu modeller yalnızca bir görevi destekliyor” dedi Clark. “Unified-IO, büyük ölçekli çoklu görev modellerini eğitmemizi sağlayabilir. Hipotezimiz, veriyi ve model boyutunu muazzam bir şekilde büyütmenin çok daha iyi sonuçlar üreteceği yönünde.”



Kaynak : https://techcrunch.com/2022/06/17/unified-io-is-an-ai-system-that-can-complete-a-range-of-tasks-including-generating-images/

Yorum yapın