Google DeepMind, Sora'ya Rakip Yeni Video Modelini Tanıttı

admin

7 gün ago

Google DeepMind, Sora’ya Rakip Yeni Video Modelini Tanıttı

Google’ın amiral gemisi yapay zeka araştırma laboratuvarı olan Google DeepMind, video oluşturma oyununda OpenAI’yi yenmek istiyor ve bunu başarabilir de, en azından bir süreliğine.

Pazartesi günü DeepMind , Google’ın portföyündeki giderek artan sayıda ürünü destekleyen Veo’nun halefi ve yeni nesil video üreten bir yapay zeka olan Veo 2’yi duyurdu . Veo 2, 4k’ya (4096 x 2160 piksel) kadar çözünürlüklerde iki dakikadan uzun klipler oluşturabilir.

ARA REKLAM ALANI

Dikkat çekici olan, bunun OpenAI’nin Sora’sının ulaşabileceği çözünürlüğün 4 katı ve sürenin 6 katından fazla olması .

Şimdilik teorik bir avantaj, kabul ediyorum. Veo 2’nin artık yalnızca mevcut olduğu Google’ın deneysel video oluşturma aracı VideoFX’te, videolar 720p ve sekiz saniye uzunluğunda sınırlandırılmıştır. (Sora 1080p’ye kadar, 20 saniye uzunluğunda klipler üretebilir.)

VideoFX’te Veo 2. Resim Kredileri: Google

VideoFX için bekleme listesi var ancak Google, bu hafta erişim sağlayabilecek kullanıcı sayısını artıracağını söylüyor.

DeepMind Ürün Başkan Yardımcısı Eli Collins de TechCrunch’a yaptığı açıklamada, Google’ın Veo 2’yi “model büyük ölçekte kullanıma hazır hale geldikçe” Vertex AI geliştirici platformu üzerinden kullanıma sunacağını söyledi .

Collins, “Önümüzdeki aylarda, kullanıcılardan gelen geri bildirimlere dayanarak yinelemeyi sürdüreceğiz” dedi ve “Veo 2’nin güncellenmiş yeteneklerini Google ekosistemindeki ilgi çekici kullanım örneklerine entegre etmeye çalışacağız… Gelecek yıl daha fazla güncelleme paylaşmayı bekliyoruz.”

Daha kontrol edilebilir

Veo gibi, Veo 2 de bir metin istemi (örneğin “Otoyolda yarışan bir araba”) veya metin ve bir referans görseli verildiğinde videolar üretebilir.

Peki Veo 2’de yenilikler neler? DeepMind, çeşitli stillerde klipler üretebilen modelin, fizik ve kamera kontrolleri konusunda gelişmiş bir “anlayış”a sahip olduğunu ve “daha net” görüntüler ürettiğini söylüyor.

DeepMind, daha net derken kliplerdeki dokuların ve görüntülerin daha keskin olduğunu kastediyor — özellikle çok fazla hareketin olduğu sahnelerde. İyileştirilmiş kamera kontrollerine gelince, Veo 2’nin ürettiği videolarda sanal “kamerayı” daha hassas bir şekilde konumlandırmasını ve bu kamerayı hareket ettirerek nesneleri ve insanları farklı açılardan yakalamasını sağlıyor.

DeepMind ayrıca Veo 2’nin hareketi, akışkan dinamiklerini (bir kupaya kahve dökülmesi gibi) ve ışığın özelliklerini (gölgeler ve yansımalar gibi) daha gerçekçi bir şekilde modelleyebileceğini iddia ediyor. DeepMind, bunun farklı lensler ve sinematik efektlerin yanı sıra “nüanslı” insan ifadesini de içerdiğini söylüyor.

Google Veo 2 örneği. Sıkıştırma eserlerinin klibin GIF’e dönüştürülmesinde ortaya çıktığına dikkat edin. Resim Kredileri: Google

DeepMind geçen hafta TechCrunch ile Veo 2’den birkaç seçilmiş örnek paylaştı. Yapay zeka tarafından oluşturulan videolar için oldukça iyi görünüyorlardı – hatta olağanüstü derecede iyi. Veo 2’nin kırılma ve akçaağaç şurubu gibi zorlu sıvılar konusunda güçlü bir kavrayışı ve Pixar tarzı animasyonları taklit etme konusunda bir yeteneği var gibi görünüyor.

Ancak DeepMind’ın, modelin fazladan parmaklar veya “beklenmedik nesneler” gibi unsurları halüsinasyona uğratma olasılığının daha düşük olduğu konusundaki ısrarına rağmen , Veo 2 bu ürkütücü vadiyi tam olarak aşamadı.

Bu çizgi filmdeki köpek benzeri yaratığın cansız gözlerine dikkat edin:

Resim Kredisi: Google

Ve bu görüntülerdeki tuhaf kaygan yol — ayrıca arka plandaki yayaların birbirine karışması ve fiziksel olarak imkansız cephelere sahip binalar:

Resim Kredisi: Google

Collins yapılması gereken işler olduğunu kabul etti.

“Tutarlılık ve tutarlılık, büyüme alanlarıdır,” dedi. “Veo, birkaç dakika boyunca bir istemi tutarlı bir şekilde takip edebilir, ancak uzun vadeli karmaşık istemlere [uyamaz]. Benzer şekilde, karakter tutarlılığı da bir zorluk olabilir. Ayrıca, karmaşık ayrıntılar, hızlı ve karmaşık hareketler üretme ve gerçekçiliğin sınırlarını zorlamaya devam etme konusunda da gelişmeye yer var.”

Collins, DeepMind’ın video üretim modellerini ve araçlarını geliştirmek için sanatçılar ve yapımcılarla çalışmaya devam ettiğini sözlerine ekledi.

Collins, “Veo geliştirmemizin başlangıcından itibaren Donald Glover, the Weeknd, d4vd ve diğerleri gibi yaratıcılarla çalışmaya başladık ve yaratıcı süreçlerini ve teknolojinin vizyonlarını hayata geçirmelerine nasıl yardımcı olabileceğini gerçekten anlamaya çalıştık,” dedi. “Veo 1’deki yaratıcılarla yaptığımız çalışma Veo 2’nin geliştirilmesine katkıda bulundu ve bu yeni model hakkında geri bildirim almak için güvenilir test uzmanları ve yaratıcılarla çalışmayı dört gözle bekliyoruz.”

Güvenlik ve eğitim

Veo 2 çok sayıda videoyla eğitildi. AI modelleri genel olarak şu şekilde çalışır: Bir veri biçiminin örnekleriyle birlikte sağlanan modeller, yeni veri üretmelerine olanak tanıyan verilerdeki kalıpları yakalar.

DeepMind, Veo 2’yi eğitmek için videoları tam olarak nereden aldığını söylemiyor ancak YouTube olası kaynaklardan biri; YouTube’un sahibi Google ve DeepMind daha önce TechCrunch’a yaptığı açıklamada Veo gibi Google modellerinin bazı YouTube içeriklerinde “eğitilebileceğini” söylemişti.

Collins, “Veo, yüksek kaliteli video-tanımlama eşleşmeleri konusunda eğitildi,” dedi. “Video-tanımlama çiftleri, bir video ve o videoda olanların ilişkili açıklamasıdır.”

Resim Kredisi: Google

DeepMind, Google aracılığıyla web yöneticilerinin laboratuvarın botlarının web sitelerinden eğitim verilerini çıkarmasını engellemesine olanak tanıyan araçlar sunarken, DeepMind yaratıcıların mevcut eğitim setlerinden çalışmaları kaldırmasına olanak tanıyan bir mekanizma sunmuyor. Laboratuvar ve ana şirketi, kamuya açık verileri kullanan eğitim modellerinin adil kullanım olduğunu savunuyor , yani DeepMind veri sahiplerinden izin istemek zorunda olmadığına inanıyor.

Tüm yaratıcılar aynı fikirde değil — özellikle önümüzdeki yıllarda on binlerce film ve TV işinin yapay zeka tarafından sekteye uğratılabileceğini tahmin eden çalışmalar ışığında . Popüler yapay zeka sanat uygulaması Midjourney’nin arkasındaki isimsiz girişim de dahil olmak üzere birkaç yapay zeka şirketi, sanatçıların haklarını izinsiz içerikle eğitim vererek ihlal etmekle suçlanan davaların hedefi haline geldi.

Collins, “Ortak hedeflere ulaşmak için yaratıcılar ve ortaklarımızla iş birliği içinde çalışmaya kararlıyız,” dedi. “VideoFX kullananlar da dahil olmak üzere yaratıcı topluluk ve daha geniş sektördeki insanlarla çalışmaya, içgörüler toplamaya ve geri bildirimleri dinlemeye devam ediyoruz.”

Günümüzün üretken modellerinin eğitildiklerinde davranış biçimleri nedeniyle, bir modelin eğitim verilerinin ayna kopyasını ürettiğinde ortaya çıkan geri tepme gibi belirli riskler taşırlar. DeepMind’ın çözümü, şiddet içeren, grafiksel ve açık içerikler de dahil olmak üzere istem düzeyinde filtrelerdir.

Collins , Google’ın ürünlerinin kullanımından kaynaklanan telif hakkı ihlali iddialarına karşı belirli müşterilere savunma sağlayan tazminat politikasının , genel olarak piyasaya sunulana kadar Veo 2 için geçerli olmayacağını söyledi.

Resim Kredisi: Google

DeepMind, deepfake riskini azaltmak için, Veo 2’nin oluşturduğu karelere görünmez işaretleyiciler yerleştirmek için tescilli filigranlama teknolojisi SynthID’yi kullandığını söylüyor. Ancak, tüm filigranlama teknolojileri gibi SynthID de kusursuz değil .

Resim yükseltmeleri

Google DeepMind bu sabah Veo 2’ye ek olarak ticari görüntü üretim modeli olan Imagen 3’e yönelik yükseltmeleri duyurdu.

Imagen 3’ün yeni bir sürümü, bugün itibarıyla Google’ın görüntü oluşturma aracı ImageFX kullanıcılarına sunuluyor. DeepMind’a göre, fotogerçekçilik, empresyonizm ve anime gibi stillerde “daha parlak, daha iyi oluşturulmuş” görüntüler ve fotoğraflar yaratabilir.

DeepMind, TechCrunch’a sağladığı blog yazısında, “Bu yükseltme [Imagen 3’e] ayrıca komutları daha sadık bir şekilde takip ediyor ve daha zengin ayrıntılar ve dokular sunuyor” diye yazdı.

Resim Kredisi: Google

Modelle birlikte ImageFX’e yönelik kullanıcı arayüzü güncellemeleri de sunuluyor. Artık kullanıcılar komut istemleri yazdığında, bu komut istemlerindeki anahtar terimler önerilen, ilgili kelimelerin açılır menüsüyle “yongacıklar” haline gelecek. Kullanıcılar yazdıklarını yinelemek için yongacıkları kullanabilir veya komut isteminin altındaki otomatik olarak oluşturulmuş tanımlayıcılar satırından seçim yapabilir.

FromSoftware, Elden Ring Evreninde Geçen 2025'te Çıkacak Çoklu Oyunculu Kooperatif Yan Oyununu Duyurdu »

« Generatif AI Özetlerine Güvenmeyin: BBC, Apple’ı CEO Cinayetiyle İlgili Yanıltıcı Başlık Yüzünden Eleştirdi

admin: