“Yapay Zeka Verimliliğini Artıran Popüler Yöntemin Dezavantajları”

REKLAM ALANI

23 Aralık 2024 20:53 | Son Güncellenme: 24 Aralık 2024 10:08

Yapay zeka modellerini daha verimli hale getirmek için en yaygın kullanılan tekniklerden biri olan nicelemenin sınırları var ve sektör bu sınırlara hızla yaklaşıyor olabilir.

Yapay zeka bağlamında, niceleme, bir bilgisayarın işleyebileceği en küçük birimler olan bit sayısını azaltmak anlamına gelir. Şu benzetmeyi düşünün: Birisi saati sorduğunda, muhtemelen “öğlen” derdiniz; “oh bin iki yüz, bir saniye ve dört milisaniye” değil. Bu nicelemedir; her iki cevap da doğrudur, ancak biri biraz daha kesindir. Gerçekte ne kadar kesinliğe ihtiyacınız olduğu bağlama bağlıdır.

ARA REKLAM ALANI

AI modelleri nicelleştirilebilen birkaç bileşenden oluşur — özellikle parametreler, modellerin tahminlerde bulunmak veya kararlar almak için kullandığı dahili değişkenler. Modeller çalıştırıldığında milyonlarca hesaplama yaptığı düşünüldüğünde bu kullanışlıdır. Parametrelerini temsil eden daha az bit içeren nicelleştirilmiş modeller matematiksel olarak ve dolayısıyla hesaplama açısından daha az talepkardır. (Açık olmak gerekirse, bu, parametrelerin daha karmaşık ve seçici bir şekilde budanması olan “damıtmadan” farklı bir işlemdir.)

Ancak nicelemenin daha önce varsayılandan daha fazla dezavantajı olabilir.

Sürekli küçülen model

Harvard, Stanford, MIT, Databricks ve Carnegie Mellon’daki araştırmacıların yaptığı bir çalışmaya göre , niceliklendirilmiş modeller, modelin orijinal, niceliklendirilmemiş versiyonu uzun bir süre boyunca çok sayıda veri üzerinde eğitilirse daha kötü performans gösteriyor. Başka bir deyişle, belirli bir noktada, büyük bir modeli basitleştirmektense daha küçük bir modeli eğitmek aslında daha iyi olabilir.

Bu durum, son derece büyük modeller (cevap kalitesini artırdığı bilinen) eğiten ve daha sonra bunları daha az maliyetli hale getirmek için nicelikselleştiren yapay zeka şirketleri için kötü haber anlamına gelebilir.

Etkileri şimdiden kendini gösteriyor. Birkaç ay önce, geliştiriciler ve akademisyenler Meta’nın Llama 3 modelinin nicelleştirilmesinin diğer modellere kıyasla “daha zararlı” olma eğiliminde olduğunu bildirdiler, bunun nedeni muhtemelen eğitilme şekliydi.

Harvard Üniversitesi’nde matematik öğrencisi ve makalenin baş yazarı olan Tanishq Kumar, TechCrunch’a yaptığı açıklamada, “Bence yapay zekada herkes için bir numaralı maliyet çıkarımdır ve olmaya devam edecektir. Çalışmamız, bunu azaltmanın önemli bir yolunun sonsuza dek işe yaramayacağını gösteriyor.” dedi.

Yaygın inanışın aksine, AI model çıkarımı — ChatGPT’nin bir soruyu yanıtlaması gibi bir modeli çalıştırmak — genellikle toplamda model eğitiminden daha pahalıdır. Örneğin, Google’ın amiral gemisi Gemini modellerinden birini eğitmek için tahmini 191 milyon dolar harcadığını düşünün — kesinlikle fahiş bir miktar. Ancak şirket, tüm Google Arama sorgularının yarısına sadece 50 kelimelik yanıtlar üretmek için bir model kullansaydı, yılda yaklaşık 6 milyar dolar harcardı .

Büyük yapay zeka laboratuvarları, eğitimde kullanılan veri ve hesaplama miktarının artırılmasıyla giderek daha yetenekli yapay zekaların ortaya çıkacağı varsayımıyla devasa veri kümeleri üzerinde eğitim modelleri benimsedi.

Örneğin, Meta Llama 3’ü 15 trilyon token kümesi üzerinde eğitti. ( Tokenler ham veri bitlerini temsil eder; 1 milyon token yaklaşık 750.000 kelimeye eşittir.) Önceki nesil Llama 2, “sadece” 2 trilyon token üzerinde eğitildi. Aralık ayının başlarında Meta, şirketin “çekirdek performansı önemli ölçüde daha düşük bir maliyetle iyileştirdiğini” söylediği yeni bir model olan Llama 3.3 70B’yi yayınladı .

Kanıtlar, ölçeklendirmenin sonunda azalan getiriler sağladığını gösteriyor; Anthropic ve Google’ın yakın zamanda dahili kıyaslama beklentilerinin gerisinde kalan muazzam modeller eğittiği bildiriliyor . Ancak sektörün bu yerleşik ölçeklendirme yaklaşımlarından anlamlı bir şekilde uzaklaşmaya hazır olduğuna dair çok az işaret var.

Tam olarak ne kadar kesin?

Peki, laboratuvarlar daha küçük veri kümelerinde modelleri eğitmeye isteksizse, modellerin bozulmaya karşı daha az duyarlı hale getirilmesinin bir yolu var mı? Muhtemelen. Kumar, kendisinin ve ortak yazarların, modelleri “düşük hassasiyette” eğitmenin onları daha sağlam hale getirebileceğini keşfettiğini söylüyor. Biraz daha derinlemesine incelerken bir an için bize katlanın.

Burada “Kesinlik”, bir sayısal veri türünün doğru bir şekilde temsil edebileceği basamak sayısını ifade eder. Veri türleri, genellikle olası değerler ve izin verilen işlemler kümesiyle belirtilen veri değerleri koleksiyonlarıdır; örneğin, FP8 veri türü, kayan nokta sayısını temsil etmek için yalnızca 8 bit kullanır .

Günümüzdeki çoğu model 16 bit veya “yarım hassasiyette” eğitilir ve “eğitim sonrası nicemlenir” ve 8 bit hassasiyete getirilir. Belirli model bileşenleri (örneğin, parametreleri) biraz doğruluk pahasına daha düşük hassasiyetli bir biçime dönüştürülür. Bunu birkaç ondalık basamağa kadar matematik yapmak ama sonra en yakın 10’a yuvarlamak gibi düşünün, bu da size genellikle her iki dünyanın da en iyisini verir.

Nvidia gibi donanım satıcıları niceliksel model çıkarımı için daha düşük hassasiyet talep ediyor. Şirketin yeni Blackwell çipi 4 bit hassasiyeti, özellikle FP4 adı verilen bir veri türünü destekliyor; Nvidia bunu bellek ve güç kısıtlamalı veri merkezleri için bir nimet olarak sundu.

Ancak aşırı düşük niceleme hassasiyeti istenmeyebilir. Kumar’a göre, orijinal model parametre sayısı açısından inanılmaz derecede büyük olmadığı sürece, 7 veya 8 bitten düşük hassasiyetler kalitede gözle görülür bir düşüş görebilir.

Tüm bunlar biraz teknik görünüyorsa endişelenmeyin, öyle. Ancak çıkarım şu ki AI modelleri tam olarak anlaşılmıyor ve birçok hesaplama türünde işe yarayan bilinen kısayollar burada işe yaramıyor. Birisi 100 metrelik koşuya ne zaman başladığını sorsa “öğlen” demezdiniz, değil mi? Elbette o kadar da belirgin değil ama fikir aynı:

Kumar, “Çalışmamızın temel noktası, safça üstesinden gelemeyeceğiniz sınırlamaların olmasıdır,” diye sonlandırdı. “Çalışmamızın, eğitim ve çıkarım için giderek daha düşük hassasiyetli varsayılanlar arayan tartışmaya nüans katmasını umuyoruz.”

Kumar, kendisinin ve meslektaşlarının çalışmasının nispeten küçük ölçekli olduğunu kabul ediyor; gelecekte daha fazla modelle test etmeyi planlıyorlar. Ancak en azından bir içgörünün geçerli olacağına inanıyor: Çıkarım maliyetlerini azaltma konusunda bedava öğle yemeği yok.

“Bit hassasiyeti önemlidir ve ücretsiz değildir,” dedi. “Modeller zarar görmeden bunu sonsuza dek azaltamazsınız. Modellerin sınırlı kapasitesi vardır, bu nedenle bir katrilyon jetonu küçük bir modele sığdırmaya çalışmaktansa, bence çok daha fazla çaba titiz veri düzenleme ve filtrelemeye harcanacak, böylece yalnızca en yüksek kaliteli veriler daha küçük modellere konulacak. Düşük hassasiyetli eğitimi kararlı hale getirmeyi kasıtlı olarak hedefleyen yeni mimarilerin gelecekte önemli olacağı konusunda iyimserim.”

İlgili

EN SON TV sitesinden daha fazla şey keşfedin

Subscribe to get the latest posts sent to your email.

REKLAM ALANI

admin

YORUMLAR

Lütfen görüşlerinizi bize yazınCevabı iptal et

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.

GÜNCEL KONULAR

Eskişehir’de, Eski Karısını Bıçaklayan Saldırgan Yakalandı”

Gündem, Manşet

25 Aralık 2024 00:23

Eskişehir’de, Eski Karısını Bıçaklayan Saldırgan Yakalandı”

Aksaray’da eski karısını sokak ortasında 14 yerinden bıçaklayarak ağır yaralayan zanlı, cinayet büro ekiplerinin operasyonuyla yakalandı. EN SON TV sitesinden daha fazla şey keşfedin Subscribe to get the latest posts...

Meteoroloji’den Yeni Hava Durumu Haritası: 17 İle Uyarı

Gündem, Manşet

25 Aralık 2024 00:21

Meteoroloji’den Yeni Hava Durumu Haritası: 17 İle Uyarı

Meteoroloji Genel Müdürlüğü (MGM), yeni hava durumu raporunu yayımladı. Rapora göre, 3 il için turuncu, 14 il için sarı alarm verildi. İstanbul, Ankara ve İzmir gibi büyük şehirlerde beklenen hava...

SON DAKİKA’! 2025 Asgari, Ücreti Açıklandı!

Ekonomi, Gündem, Manşet

25 Aralık 2024 00:12

SON DAKİKA’! 2025 Asgari, Ücreti Açıklandı!

Son dakika haberine göre Çalışma ve Sosyal Güvenlik Bakanı Işıkhan, 1 Ocak 2025 tarihinden geçerli olacak asgari ücretin yüzde 30 zam yapılarak net 22 bin 104 lira olarak belirlendiğini duyurdu....

12 GB, RAM’li Poco X7 Pro Özellikleri Sızdı”

Gündem, Teknoloji

24 Aralık 2024 23:59

12 GB, RAM’li Poco X7 Pro Özellikleri Sızdı”

Poco X7 ve X7 Pro modellerinin detayları, bugün önemli bir sızıntıyla karşımıza çıktı. Xiaomi’nin alt markası Poco, iki yeni modeliyle 2024’te piyasaya sürdüğü Poco X6 ve X6 Pro’nun yerini alacak....

Apple, 2025’te MicroLED Ekran Teknolojisiyle Geliyor

Gündem, Manşet, Teknoloji

24 Aralık 2024 23:21

Apple, 2025’te MicroLED Ekran Teknolojisiyle Geliyor

Apple, LCD’den OLED’e geçişini tamamlamaya yaklaşırken daha da ileri bir teknoloji olan microLED’e yönelmeyi planladığı ortaya çıktı. Foxconn, 2025 yılının sonlarına doğru microLED ekranlarının seri üretimine başlayacağını duyurdu. Foxconn, bu...

OpenAI, Kendi İnsansı Robotunu İnşa Etmek İçin İlk Adımları Atıyor

Gündem, Manşet, Teknoloji

24 Aralık 2024 23:21

OpenAI, Kendi İnsansı Robotunu İnşa Etmek İçin İlk Adımları Atıyor

OpenAI’ın, kendi insansı robotunu inşa etmeyi düşündüğü ortaya çıktı. OpenAI ise bu alanda finansal destek sağlayarak uzun süredir faaliyet gösteriyor. Şu ana kadar Figure ve 1X gibi firmalara ve ayrıca...

Xiaomi 15 Ultra’nın Çıkış Tarihi Belli Oluyor: 2025’in En Etkileyici Telefonu

Gündem, Manşet, Teknoloji

24 Aralık 2024 23:16

Xiaomi 15 Ultra’nın Çıkış Tarihi Belli Oluyor: 2025’in En Etkileyici Telefonu

Xiaomi’nin merakla beklenen yeni amiral gemisi Xiaomi 15 Ultra’nın çıkış tarihiyle ilgili yeni detaylar ortaya çıktı. Daha önce bir Xiaomi yöneticisi yeni telefonun Şubat ayında Çin’de piyasaya sürülebileceğini belirtmişti. Bugün...

Google Drive, Videoları Anında İzleme Özelliğini Duyurdu

Gündem, Manşet, Teknoloji

24 Aralık 2024 23:02

Google Drive, Videoları Anında İzleme Özelliğini Duyurdu

Google Drive, artık yüklediğiniz videoları anında oynatma imkanı sunuyor. Yeni özellik ile videoların yükleme işlemi tamamlanır tamamlanmaz izlenebilmesini sağlayacak. Bekleme süresini ortadan kaldıran yeni özellik kullanıma sunuldu. Google, son blog...

GÜNCEL KONULAR

1 Eskişehir’de, Eski Karısını Bıçaklayan Saldırgan Yakalandı”

2 Meteoroloji’den Yeni Hava Durumu Haritası: 17 İle Uyarı

3 SON DAKİKA’! 2025 Asgari, Ücreti Açıklandı!

4 12 GB, RAM’li Poco X7 Pro Özellikleri Sızdı”

5 Apple, 2025’te MicroLED Ekran Teknolojisiyle Geliyor

6 OpenAI, Kendi İnsansı Robotunu İnşa Etmek İçin İlk Adımları Atıyor

7 Xiaomi 15 Ultra’nın Çıkış Tarihi Belli Oluyor: 2025’in En Etkileyici Telefonu

8 Google Drive, Videoları Anında İzleme Özelliğini Duyurdu

9 RTX 50 Serisi Alışveriş Sitelerinde: Fiyatlar Sızdı

10 Çerçevesiz İlk iPhone Modeli Nihayet Geliyor

“Yapay Zeka Verimliliğini Artıran Popüler Yöntemin Dezavantajları”

Sürekli küçülen model

Tam olarak ne kadar kesin?

Bunu paylaş:

Bunu beğen:

İlgili

EN SON TV sitesinden daha fazla şey keşfedin

Lütfen görüşlerinizi bize yazınCevabı iptal et

EN SON TV sitesinden daha fazla şey keşfedin