X

Meet Transformers: Google’ın AI Yol Haritasını Yeniden Yazdıran Çığır Açan Yenilik

2017 yazında, bir grup Google Brain araştırmacısı sessizce yapay zekanın gidişatını sonsuza dek değiştirecek bir makale yayınladı. “Dikkat İhtiyacınız Olan Tek Şey” başlıklı bu akademik yayın, gösterişli açılış konuşmaları veya manşet haberleriyle gelmedi. Bunun yerine, ana akıma ulaşmadan önce genellikle yıllarca en son fikirlerin kaynadığı teknik bir toplantı olan Neural Information Processing Systems ( NeurIPS ) konferansında ilk kez sahneye çıktı.

O zamanlar yapay zeka araştırma topluluğunun dışında bunu bilen çok az kişi vardı, ancak bu makale bugün duyduğunuz hemen hemen her büyük üretken yapay zeka modelinin temelini oluşturacaktı: OpenAI’nin GPT’sinden Meta’nın LLaMA varyantlarına, BERT, Claude, Bard ve aklınıza gelebilecek her şey.

ARA REKLAM ALANI

Transformer, dizi işlemenin eski varsayımlarını ortadan kaldıran yenilikçi bir sinir ağı mimarisidir. Doğrusal, adım adım işleme yerine Transformer, öz-dikkat olarak bilinen bir tekniğe dayalı paralel hale getirilebilir bir mekanizmayı benimser. Transformer, aylar içinde makinelerin dili anlama biçimini kökten değiştirdi.

Yeni Bir Model

Transformatörden önce, en son doğal dil işleme (NLP) büyük ölçüde tekrarlayan sinir ağlarına (RNN’ler) ve bunların iyileştirmelerine dayanıyordu – LSTM’ler (Uzun Kısa Süreli Bellek ağları) ve GRU’lar (Kapılı Tekrarlayan Birimler). Bu tekrarlayan sinir ağları metni kelime kelime (veya belirteç belirteç) işleyerek, şimdiye kadar okunan her şeyi kodlaması amaçlanan gizli bir durumu iletiyordu.

Bu süreç sezgisel olarak hissedildi… sonuçta dili soldan sağa doğru okuyoruz, peki bir model neden böyle okumasın?

Ancak bu eski mimariler kritik eksikliklerle geldi. Birincisi, çok uzun cümlelerle mücadele ediyorlardı. Bir LSTM bir paragrafın sonuna ulaştığında, başlangıçtaki bağlam genellikle soluk bir anı gibi hissettiriyordu. Paralelleştirme de zordu çünkü her adım bir öncekine bağlıydı. Alan, doğrusal bir rutine takılıp kalmadan dizileri işlemenin bir yoluna acilen ihtiyaç duyuyordu.

Google Brain araştırmacıları bu dinamiği değiştirmeye koyuldular. Çözümleri aldatıcı derecede basitti: tekrarı tamamen ortadan kaldırın. Bunun yerine, bir cümledeki her kelimeye aynı anda bakabilen ve her kelimenin diğer her kelimeyle nasıl ilişkili olduğunu anlayabilen bir model tasarladılar.

Bu akıllıca numara – “dikkat mekanizması” olarak adlandırılır – modelin, tekrarlamanın hesaplama yükü olmadan bir cümlenin en alakalı kısımlarına odaklanmasını sağladı. Sonuç, Transformer oldu : hızlı, paralel hale getirilebilir ve uzun metin parçaları boyunca bağlamı işlemede tuhaf bir şekilde iyi.

Çığır açan fikir, ardışık bellek değil “dikkat”in dili anlamanın gerçek motoru olabileceğiydi. Dikkat mekanizmaları daha önceki modellerde de mevcuttu, ancak Transformer dikkati destekleyici bir rolden gösterinin yıldızına yükseltti. Transformer’ın tam dikkat çerçevesi olmadan, bildiğimiz haliyle üretken AI muhtemelen daha yavaş, daha sınırlı paradigmalarda sıkışıp kalacaktı.

Peki bu fikir Google Brain’de nasıl ortaya çıktı? Arka plan hikayesi, yapay zeka araştırmalarını tanımlayan türden bir rastlantı ve entelektüel çapraz tozlaşma ile serpiştirilmiştir. İçeridekiler, farklı ekiplerden araştırmacıların dikkat mekanizmalarının çeviri görevlerini çözmeye veya kaynak ve hedef cümleler arasındaki uyumu iyileştirmeye nasıl yardımcı olduğuyla ilgili notları karşılaştırdıkları gayrı resmi beyin fırtınası oturumlarından bahsediyor.

Tekrarlamanın gerekliliğinin eski düşüncenin bir kalıntısı olup olmadığı konusunda kahve odası tartışmaları vardı. Bazı araştırmacılar, o zamanlar radikal bir fikir olan RNN’leri tamamen kaldırma fikrinin ortaya atıldığı, meydan okunduğu ve ekip sonunda bunu koda geçirmeye karar vermeden önce geliştirildiği “koridor koçluk seanslarını” hatırlıyor.

Transformatörün parlak yönlerinden biri de, çok büyük veri kümeleri üzerinde çok hızlı ve verimli bir şekilde eğitim vermeyi mümkün kılmasıdır.

Transformer’ın mimarisi iki ana parça kullanır: bir kodlayıcı ve bir kod çözücü . Kodlayıcı giriş verilerini işler ve öz-dikkat katmanları ve basit sinir ağları kullanarak bu verilerin ayrıntılı, anlamlı bir temsilini oluşturur. Kod çözücü benzer şekilde çalışır ancak kodlayıcıdan gelen bilgileri kullanırken daha önce oluşturulan çıktıya (metin oluşturmada olduğu gibi) odaklanır.

Bu tasarımın parlaklığının bir kısmı, devasa veri kümeleri üzerinde çok hızlı ve verimli bir şekilde eğitim vermeyi mümkün kılmasıydı. Transformer’ın geliştirilmesinin ilk günlerinden sık sık tekrarlanan bir anekdot, bazı Google mühendislerinin başlangıçta modelin potansiyelinin kapsamını fark etmemiş olmasıdır.

Bunun iyi olduğunu biliyorlardı – belirli dil görevlerinde önceki RNN tabanlı modellerden çok daha iyi – ancak bunun tüm AI alanını devrimleştirebileceği fikri hala ortaya çıkıyordu. Mimari kamuoyuna açıklanana ve dünya çapındaki meraklılar denemeye başlayana kadar Transformer’ın gerçek gücü yadsınamaz hale gelmedi.

Dil Modellerinde Bir Rönesans

Google Brain 2017 makalesini yayınladığında, NLP topluluğu önce merakla, sonra şaşkınlıkla tepki gösterdi. Transformer mimarisinin WMT İngilizce-Almanca ve İngilizce-Fransızca kıyaslamaları gibi görevlerde en iyi makine çeviri modellerinden daha iyi performans gösterdiği görüldü. Ancak sadece performans değildi – araştırmacılar Transformer’ın çok daha fazla paralelleştirilebilir olduğunu hemen fark ettiler. Eğitim süreleri düştü. Aniden, bir zamanlar günler veya haftalar süren görevler aynı donanımda çok daha kısa sürede yapılabilir hale geldi.

Transformer modeli, piyasaya sürülmesinden bir yıl sonra bir yenilik dalgasına ilham kaynağı oldu. Google, Transformer mimarisini kullanarak BERT’i (Transformers’tan Çift Yönlü Kodlayıcı Temsilleri) yarattı. BERT, makinelerin dili anlama biçimini önemli ölçüde iyileştirerek birçok NLP kıyaslamasında en üst sıraya yerleşti. Kısa sürede Google Arama gibi günlük ürünlere girdi ve sorguların nasıl yorumlandığını sessizce geliştirdi.

Medya kuruluşları GPT’nin yeteneğini keşfetti ve sayısız örnek sergiledi; bazen ağızları açık bırakan, bazen de gülünç derecede yersiz.

Hemen hemen aynı anda, OpenAI Transformer planını aldı ve GPT (Generative Pre-trained Transformers) ile başka bir yöne gitti.

GPT-1 ve GPT-2 ölçeklemenin gücüne işaret etti. GPT-3 ile bu sistemlerin karmaşık komutlar aracılığıyla insan benzeri metin ve muhakeme üretmede ne kadar iyi olduğunu görmezden gelmek imkansız hale geldi.

İlk ChatGPT sürümü (2022 sonu) daha da geliştirilmiş bir GPT-3.5 modeli kullanıyordu, bu bir dönüm noktasıydı. ChatGPT ürkütücü derecede tutarlı metinler üretebiliyor, dilleri çevirebiliyor, kod parçacıkları yazabiliyor ve hatta şiir üretebiliyordu. Aniden, bir makinenin insan benzeri metinler üretme yeteneği artık bir hayal değil, elle tutulur bir gerçeklik haline geldi .

Medya kuruluşları GPT’nin yeteneğini keşfetti ve sayısız örnek sergiledi – bazen ağızları açık bırakan, bazen de gülünç derecede alakasız. Halk hem heyecanlandı hem de tedirgin oldu. Yapay zeka destekli yaratıcılık fikri bilim kurgudan günlük konuşmaya geçti. Transformatör tarafından desteklenen bu ilerleme dalgası, yapay zekayı uzmanlaşmış bir araçtan genel amaçlı bir akıl yürütme motoruna dönüştürdü.

Ancak Transformer yalnızca metinde iyi değil. Araştırmacılar, dikkat mekanizmalarının farklı veri türlerinde -görüntüler, müzik, kod- çalışabileceğini buldu.

Ancak Transformer yalnızca metinde iyi değil. Araştırmacılar, dikkat mekanizmalarının farklı veri türlerinde çalışabileceğini buldular – resimler, müzik, kod. Çok geçmeden, CLIP ve DALL-E gibi modeller metinsel ve görsel anlayışı harmanlayarak “benzersiz” sanat eserleri üretiyor veya resimleri inanılmaz bir doğrulukla etiketliyordu. Video anlayışı, konuşma tanıma ve hatta bilimsel veri analizi bile bu aynı temel plandan faydalanmaya başladı.

Ayrıca, TensorFlow ve PyTorch gibi yazılım çerçeveleri Transformer dostu yapı taşlarını bünyesine katarak hobicilerin, yeni kurulan şirketlerin ve endüstri laboratuvarlarının deney yapmasını kolaylaştırdı. Bugün, Transformer mimarisinin uzmanlaşmış varyantlarının biyomedikal araştırmalardan finansal tahminlere kadar her şeyde ortaya çıkması alışılmadık bir durum değil.

Daha Büyük Modellere Doğru Yarış

Araştırmacılar Transformers’ı zorlamaya devam ettikçe ortaya çıkan önemli bir keşif, ölçekleme yasaları kavramıydı. OpenAI ve DeepMind tarafından yapılan deneyler, bir Transformer’daki parametre sayısını ve eğitim veri kümesinin boyutunu artırdıkça performansın öngörülebilir bir şekilde iyileşmeye devam ettiğini buldu. Bu doğrusallık, bir tür silahlanma yarışına davetiye oldu: daha büyük modeller, daha fazla veri, daha fazla GPU.

Yapılan deneyler, bir Transformatördeki parametre sayısı ve eğitim veri kümesinin boyutu artırıldığında performansın öngörülebilir bir şekilde artmaya devam ettiğini göstermiştir… bu doğrusallık bir tür silahlanma yarışına davetiye çıkarmıştır: daha büyük modeller, daha fazla veri, daha fazla GPU.

Google, OpenAI, Microsoft ve diğer birçok şirket devasa Transformer tabanlı modeller oluşturmak için muazzam kaynaklar harcadı. GPT-3’ü daha da büyük GPT-4 izledi, Google ise yüz milyarlarca parametreye sahip PaLM gibi modeller tanıttı. Bu devasa modeller daha akıcı ve bilgili çıktılar üretse de maliyet, verimlilik ve sürdürülebilirlik hakkında yeni sorular da ortaya çıkarıyor.

Bu tür modellerin eğitilmesi muazzam bir işlem gücü ( Nvidia bundan fazlasıyla memnun ) ve elektrik tüketiyor; bu da yapay zeka araştırmalarını bir zamanlar olduğu gibi akademik bir uğraş olmaktan çok endüstri mühendisliğine yakın bir çabaya dönüştürüyor.

Her Yerde Dikkat

ChatGPT, yapay zeka tarafından üretilen içerik hakkında yemek masası sohbetlerini başlatmak için teknoloji çevrelerinden ve endüstri tartışmalarından sıyrılıp kültürel bir fenomen haline geldi. Teknoloji konusunda bilgili olmayan kişiler bile artık “bunu benim için yazabilen bir yapay zeka var” veya “bir insan gibi” benimle konuşabilen bir yapay zeka olduğunun farkında. Bu arada lise öğrencileri cevaplar için Google veya Wikipedia yerine giderek daha fazla GPT sorgularına yöneliyor .

Ancak tüm teknolojik devrimlerin yan etkileri vardır ve Transformer’ın üretken AI üzerindeki etkisi de bir istisna değildir. Bu erken aşamada bile, GenAI modelleri sentetik medyanın yeni bir dönemini başlattı ve telif hakkı, yanlış bilgilendirme, kamu figürlerinin taklitleri ve etik dağıtım hakkında zor sorular ortaya çıkardı.

İkna edici derecede insani nesir üretebilen aynı Transformer modelleri aynı zamanda yanlış bilgi ve zehirli çıktılar da üretebilir. Eğitim verilerinde önyargılar bulunabilir ve bulunacaktır, bu önyargılar GenAI modelleri tarafından sunulan yanıtlar içinde gizlice yerleştirilebilir ve güçlendirilebilir. Sonuç olarak, hükümetler ve düzenleyici kurumlar yakından dikkat etmeye başlıyor. Bu modellerin dezenformasyon motorları haline gelmemesini nasıl sağlarız? Modeller talep üzerine metin ve resim üretebildiğinde fikri mülkiyeti nasıl koruruz?

[gömülü içerik]

Araştırmacılar ve günümüzün baskın modellerini geliştiren şirketler, adalet kontrollerini entegre etmeye, koruma bariyerleri oluşturmaya ve üretken yapay zekanın sorumlu bir şekilde dağıtımına öncelik vermeye başladı (ya da öyle söylüyorlar). Ancak bu çabalar, bu modellerin nasıl eğitildiği ve büyük teknoloji şirketlerinin eğitim verilerini nereden aldıkları konusunda önemli sorular kaldığı için belirsiz bir manzarada ortaya çıkıyor.

“Dikkat İhtiyacınız Olan Tek Şey” makalesi, açık araştırmanın küresel inovasyonu nasıl yönlendirebileceğinin bir kanıtı olmaya devam ediyor. Tüm önemli ayrıntıları yayınlayarak, makale herkesin -rakip veya işbirlikçi- fikirlerini geliştirmesine olanak sağladı. Google ekibinin bu açıklık ruhu, Transformer mimarisinin sektör genelinde yayıldığı şaşırtıcı hızı körükledi.

Bu modeller daha uzmanlaşmış, daha verimli ve daha geniş çapta erişilebilir hale geldikçe neler olacağını görmeye yeni başlıyoruz. Makine öğrenimi topluluğu, karmaşıklığı ölçeklenebilir bir şekilde ele alabilecek bir modele acil ihtiyaç duyuyordu ve şimdiye kadar öz dikkat bunu sağladı. Makine çevirisinden çeşitli konuşmaları sürdürebilen sohbet robotlarına, görüntü sınıflandırmasından kod üretimine. Dönüştürücüler, doğal dil işleme için varsayılan omurga haline geldi ve daha fazlası. Ancak araştırmacılar hala merak ediyor: Dikkat gerçekten ihtiyacımız olan tek şey mi?

Performer, Longformer ve Reformer gibi yeni mimariler, çok uzun diziler için dikkat verimliliğini artırmayı hedefleyerek ortaya çıkıyor. Diğerleri, Transformer bloklarını diğer uzmanlaşmış katmanlarla birleştirerek hibrit yaklaşımlar deniyor. Alan, durgun olmaktan çok uzak.

Bundan sonra her yeni teklif incelemeye, heyecana ve neden olmasın korkuya yol açacak.!

admin:

This website uses cookies.