“Yapay Zeka Verimliliğini Artıran Popüler Yöntemin Dezavantajları”
Yapay zeka modellerini daha verimli hale getirmek için en yaygın kullanılan tekniklerden biri olan nicelemenin sınırları var ve sektör bu sınırlara hızla yaklaşıyor olabilir.
Yapay zeka bağlamında, niceleme, bir bilgisayarın işleyebileceği en küçük birimler olan bit sayısını azaltmak anlamına gelir. Şu benzetmeyi düşünün: Birisi saati sorduğunda, muhtemelen “öğlen” derdiniz; “oh bin iki yüz, bir saniye ve dört milisaniye” değil. Bu nicelemedir; her iki cevap da doğrudur, ancak biri biraz daha kesindir. Gerçekte ne kadar kesinliğe ihtiyacınız olduğu bağlama bağlıdır.
AI modelleri nicelleştirilebilen birkaç bileşenden oluşur — özellikle parametreler, modellerin tahminlerde bulunmak veya kararlar almak için kullandığı dahili değişkenler. Modeller çalıştırıldığında milyonlarca hesaplama yaptığı düşünüldüğünde bu kullanışlıdır. Parametrelerini temsil eden daha az bit içeren nicelleştirilmiş modeller matematiksel olarak ve dolayısıyla hesaplama açısından daha az talepkardır. (Açık olmak gerekirse, bu, parametrelerin daha karmaşık ve seçici bir şekilde budanması olan “damıtmadan” farklı bir işlemdir.)
Ancak nicelemenin daha önce varsayılandan daha fazla dezavantajı olabilir.
Sürekli küçülen model
Harvard, Stanford, MIT, Databricks ve Carnegie Mellon’daki araştırmacıların yaptığı bir çalışmaya göre , niceliklendirilmiş modeller, modelin orijinal, niceliklendirilmemiş versiyonu uzun bir süre boyunca çok sayıda veri üzerinde eğitilirse daha kötü performans gösteriyor. Başka bir deyişle, belirli bir noktada, büyük bir modeli basitleştirmektense daha küçük bir modeli eğitmek aslında daha iyi olabilir.
Bu durum, son derece büyük modeller (cevap kalitesini artırdığı bilinen) eğiten ve daha sonra bunları daha az maliyetli hale getirmek için nicelikselleştiren yapay zeka şirketleri için kötü haber anlamına gelebilir.
Etkileri şimdiden kendini gösteriyor. Birkaç ay önce, geliştiriciler ve akademisyenler Meta’nın Llama 3 modelinin nicelleştirilmesinin diğer modellere kıyasla “daha zararlı” olma eğiliminde olduğunu bildirdiler, bunun nedeni muhtemelen eğitilme şekliydi.
Harvard Üniversitesi’nde matematik öğrencisi ve makalenin baş yazarı olan Tanishq Kumar, TechCrunch’a yaptığı açıklamada, “Bence yapay zekada herkes için bir numaralı maliyet çıkarımdır ve olmaya devam edecektir. Çalışmamız, bunu azaltmanın önemli bir yolunun sonsuza dek işe yaramayacağını gösteriyor.” dedi.
Yaygın inanışın aksine, AI model çıkarımı — ChatGPT’nin bir soruyu yanıtlaması gibi bir modeli çalıştırmak — genellikle toplamda model eğitiminden daha pahalıdır. Örneğin, Google’ın amiral gemisi Gemini modellerinden birini eğitmek için tahmini 191 milyon dolar harcadığını düşünün — kesinlikle fahiş bir miktar. Ancak şirket, tüm Google Arama sorgularının yarısına sadece 50 kelimelik yanıtlar üretmek için bir model kullansaydı, yılda yaklaşık 6 milyar dolar harcardı .
Büyük yapay zeka laboratuvarları, eğitimde kullanılan veri ve hesaplama miktarının artırılmasıyla giderek daha yetenekli yapay zekaların ortaya çıkacağı varsayımıyla devasa veri kümeleri üzerinde eğitim modelleri benimsedi.
Örneğin, Meta Llama 3’ü 15 trilyon token kümesi üzerinde eğitti. ( Tokenler ham veri bitlerini temsil eder; 1 milyon token yaklaşık 750.000 kelimeye eşittir.) Önceki nesil Llama 2, “sadece” 2 trilyon token üzerinde eğitildi. Aralık ayının başlarında Meta, şirketin “çekirdek performansı önemli ölçüde daha düşük bir maliyetle iyileştirdiğini” söylediği yeni bir model olan Llama 3.3 70B’yi yayınladı .
Kanıtlar, ölçeklendirmenin sonunda azalan getiriler sağladığını gösteriyor; Anthropic ve Google’ın yakın zamanda dahili kıyaslama beklentilerinin gerisinde kalan muazzam modeller eğittiği bildiriliyor . Ancak sektörün bu yerleşik ölçeklendirme yaklaşımlarından anlamlı bir şekilde uzaklaşmaya hazır olduğuna dair çok az işaret var.
Tam olarak ne kadar kesin?
Peki, laboratuvarlar daha küçük veri kümelerinde modelleri eğitmeye isteksizse, modellerin bozulmaya karşı daha az duyarlı hale getirilmesinin bir yolu var mı? Muhtemelen. Kumar, kendisinin ve ortak yazarların, modelleri “düşük hassasiyette” eğitmenin onları daha sağlam hale getirebileceğini keşfettiğini söylüyor. Biraz daha derinlemesine incelerken bir an için bize katlanın.
Burada “Kesinlik”, bir sayısal veri türünün doğru bir şekilde temsil edebileceği basamak sayısını ifade eder. Veri türleri, genellikle olası değerler ve izin verilen işlemler kümesiyle belirtilen veri değerleri koleksiyonlarıdır; örneğin, FP8 veri türü, kayan nokta sayısını temsil etmek için yalnızca 8 bit kullanır .
Günümüzdeki çoğu model 16 bit veya “yarım hassasiyette” eğitilir ve “eğitim sonrası nicemlenir” ve 8 bit hassasiyete getirilir. Belirli model bileşenleri (örneğin, parametreleri) biraz doğruluk pahasına daha düşük hassasiyetli bir biçime dönüştürülür. Bunu birkaç ondalık basamağa kadar matematik yapmak ama sonra en yakın 10’a yuvarlamak gibi düşünün, bu da size genellikle her iki dünyanın da en iyisini verir.
Nvidia gibi donanım satıcıları niceliksel model çıkarımı için daha düşük hassasiyet talep ediyor. Şirketin yeni Blackwell çipi 4 bit hassasiyeti, özellikle FP4 adı verilen bir veri türünü destekliyor; Nvidia bunu bellek ve güç kısıtlamalı veri merkezleri için bir nimet olarak sundu.
Ancak aşırı düşük niceleme hassasiyeti istenmeyebilir. Kumar’a göre, orijinal model parametre sayısı açısından inanılmaz derecede büyük olmadığı sürece, 7 veya 8 bitten düşük hassasiyetler kalitede gözle görülür bir düşüş görebilir.
Tüm bunlar biraz teknik görünüyorsa endişelenmeyin, öyle. Ancak çıkarım şu ki AI modelleri tam olarak anlaşılmıyor ve birçok hesaplama türünde işe yarayan bilinen kısayollar burada işe yaramıyor. Birisi 100 metrelik koşuya ne zaman başladığını sorsa “öğlen” demezdiniz, değil mi? Elbette o kadar da belirgin değil ama fikir aynı:
Kumar, “Çalışmamızın temel noktası, safça üstesinden gelemeyeceğiniz sınırlamaların olmasıdır,” diye sonlandırdı. “Çalışmamızın, eğitim ve çıkarım için giderek daha düşük hassasiyetli varsayılanlar arayan tartışmaya nüans katmasını umuyoruz.”
Kumar, kendisinin ve meslektaşlarının çalışmasının nispeten küçük ölçekli olduğunu kabul ediyor; gelecekte daha fazla modelle test etmeyi planlıyorlar. Ancak en azından bir içgörünün geçerli olacağına inanıyor: Çıkarım maliyetlerini azaltma konusunda bedava öğle yemeği yok.
“Bit hassasiyeti önemlidir ve ücretsiz değildir,” dedi. “Modeller zarar görmeden bunu sonsuza dek azaltamazsınız. Modellerin sınırlı kapasitesi vardır, bu nedenle bir katrilyon jetonu küçük bir modele sığdırmaya çalışmaktansa, bence çok daha fazla çaba titiz veri düzenleme ve filtrelemeye harcanacak, böylece yalnızca en yüksek kaliteli veriler daha küçük modellere konulacak. Düşük hassasiyetli eğitimi kararlı hale getirmeyi kasıtlı olarak hedefleyen yeni mimarilerin gelecekte önemli olacağı konusunda iyimserim.”
EN SON TV sitesinden daha fazla şey keşfedin
Subscribe to get the latest posts sent to your email.