Yazılım, Aptal Yıl sona eriyor ve AMD, güçlü yeni MI300X AI çiplerinin sonunda Nvidia’ya karşı zemin kazanmasına yardımcı olacağını umuyordu. Ancak SemiAnalysis tarafından yapılan kapsamlı bir araştırma, şirketin yazılım zorluklarının Nvidia’nın rahat liderliğini sürdürmesine izin verdiğini gösteriyor.
SemiAnalysis, AMD’nin Instinct MI300X’ini Nvidia’nın H100 ve H200’üne karşı karşıya getirdi ve çipler arasındaki çeşitli farklılıkları gözlemledi. Bilmeyenler için, MI300X, AMD CDNA 3 mimarisine dayalı bir GPU hızlandırıcıdır ve özellikle AI iş yükleri olmak üzere yüksek performanslı bilgi işlem için tasarlanmıştır.
Kağıt üzerinde, AMD için performans rakamları mükemmel görünüyor: çip, 1.307 TeraFLOPS FP16 işlem gücü ve devasa 192 GB HBM3 bellek sunarak, Nvidia’nın rakip ürünlerinin her ikisini de geride bırakıyor. AMD’nin çözümleri ayrıca, Nvidia’nın pahalı çiplerine ve InfiniBand ağlarına kıyasla daha düşük genel sahip olma maliyetleri vaat ediyor.
Ancak SemiAnalysis ekibinin beş aydan uzun süren titiz testler sonucunda keşfettiği gibi, ham özellikler tüm hikaye değildir . MI300X’in etkileyici silikonuna rağmen, AMD’nin yazılım ekosistemi etkili bir şekilde kullanmak için önemli bir çaba gerektiriyordu. SemiAnalysis, kıyaslama ve testler sırasında hataları ve sorunları sürekli olarak düzeltmek için AMD mühendislerine büyük ölçüde güvenmek zorundaydı.
Bu durum, Nvidia’nın donanım ve yazılımlarından çok farklı; Nvidia çalışanlarının hiçbir desteğine ihtiyaç duymadan, kutudan çıktığı haliyle sorunsuz bir şekilde çalışıyorlar.
Dahası, yazılım sıkıntıları yalnızca SemiAnalysis’in testleriyle sınırlı değildi; AMD’nin müşterileri de acı çekiyordu. Örneğin, AMD’nin en büyük bulut sağlayıcısı Tensorwave, AMD mühendislerine Tensorwave’in satın aldığı aynı MI300X yongalarına erişim izni vermek zorundaydı, böylece AMD yazılımı hata ayıklayabiliyordu.
Ayrıca okuyun: Sadece donanım değil: Nvidia’nın yazılım hendeği ne kadar derin?
Sorunlar burada bitmiyor. PyTorch ile entegrasyon sorunlarından birden fazla çipte yetersiz ölçeklemeye kadar, AMD’nin yazılımı sürekli olarak Nvidia’nın kanıtlanmış CUDA ekosisteminin gerisinde kaldı. SemiAnalysis ayrıca birçok AMD AI Kütüphanesinin esasen Nvidia AI Kütüphanelerinin çatalları olduğunu ve bunun da yetersiz sonuçlara ve uyumluluk sorunlarına yol açtığını belirtti.
“AMD’nin beklenenden zayıf yazılım Kalite Güvencesi (QA) kültürü ve zorlu hazır deneyimi nedeniyle CUDA hendeği henüz AMD tarafından aşılamadı. AMD CUDA hendeğini doldurmaya çalıştığı kadar, Nvidia mühendisleri de söz konusu hendeği yeni özellikler, kütüphaneler ve performans güncellemeleriyle derinleştirmek için fazla mesai yapıyorlar,” analizden bir alıntı okunuyor.
Analistler, çok daha iyi performans gösteren MI300X yazılımı için ön sürüm BF16 geliştirme dallarında bir umut ışığı buldular. Ancak kod üretime girdiğinde, Nvidia muhtemelen yeni nesil Blackwell yongalarını kullanıma sunmuş olacak (ancak Nvidia’nın bu lansmanda bazı büyüme sancıları çektiği bildiriliyor).
SemiAnalysis, bu sorunları göz önünde bulundurarak AMD’ye bir dizi öneri sıraladı; bunların başında Team Red mühendislerine ekosistemi düzeltmek ve iyileştirmek için daha fazla işlem ve mühendislik kaynağı sağlanması geliyor.
SemiAnalysis kurucusu Dylan Patel, AMD CEO’su Lisa Su ile bile görüştü. X’te, AMD’nin yazılım yığınını iyileştirmek için gereken işi anladığını yazdı. Ayrıca birçok değişikliğin halihazırda geliştirilmekte olduğunu da ekledi.
Ancak, bu kritik bileşeni yıllarca ihmal ettikten sonra yokuş yukarı bir tırmanış. Analistler AMD’nin Nvidia ile meşru bir şekilde rekabet etmesini istese de, “CUDA hendeği” şimdilik Nvidia’yı kesin olarak lider konumda tutacak gibi görünüyor.