Dolar 35,2222
Euro 36,7818
Altın 2.966,51
BİST 10.027,85
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
İstanbul 9°C
Çok Bulutlu
İstanbul
9°C
Çok Bulutlu
Cts 8°C
Paz 10°C
Pts 10°C
Sal 11°C

DeepSeek’in Yeni AI Modeli, Şimdiye Kadar Görülen En İyi ‘Açık’ Rakiplerden Biri Oluyor

DeepSeek’in Yeni AI Modeli, Şimdiye Kadar Görülen En İyi ‘Açık’ Rakiplerden Biri Oluyor
REKLAM ALANI
26 Aralık 2024 22:44 | Son Güncellenme: 27 Aralık 2024 04:26
17

A Chinese lab has created what appears to be one of the most powerful “open” AI models to date.

The model, DeepSeek V3, was developed by the AI firm DeepSeek and was released on Wednesday under a permissive license that allows developers to download and modify it for most applications, including commercial ones.

ARA REKLAM ALANI

DeepSeek V3 can handle a range of text-based workloads and tasks, like coding, translating, and writing essays and emails from a descriptive prompt.

According to DeepSeek’s internal benchmark testing, DeepSeek V3 outperforms both downloadable, “openly” available models and “closed” AI models that can only be accessed through an API. In a subset of coding competitions hosted on Codeforces, a platform for programming contests, DeepSeek outperforms other models, including Meta’s Llama 3.1 405B, OpenAI’s GPT-4o, and Alibaba’s Qwen 2.5 72B.

DeepSeek V3 also crushes the competition on Aider Polyglot, a test designed to measure, among other things, whether a model can successfully write new code that integrates into existing code.

DeepSeek claims that DeepSeek V3 was trained on a dataset of 14.8 trillion tokens. In data science, tokens are used to represent bits of raw data — 1 million tokens is equal to about 750,000 words.

It’s not just the training set that’s massive. DeepSeek V3 is enormous in size: 685 billion parameters. (Parameters are the internal variables models use to make predictions or decisions.) That’s around 1.6 times the size of Llama 3.1 405B, which has 405 billion parameters.

Parameter count often (but not always) correlates with skill; models with more parameters tend to outperform models with fewer parameters. But large models also require beefier hardware in order to run. An unoptimized version of DeepSeek V3 would need a bank of high-end GPUs to answer questions at reasonable speeds.

En pratik model olmasa da DeepSeek V3 bazı açılardan bir başarıdır. DeepSeek, modeli Nvidia H800 GPU’larından oluşan bir veri merkezi kullanarak sadece iki ayda eğitebildi; bu GPU’lar Çinli şirketlerin yakın zamanda ABD Ticaret Bakanlığı tarafından tedarik edilmesinin kısıtlandığı GPU’lardı. Şirket ayrıca DeepSeek V3’ü eğitmek için sadece 5,5 milyon dolar harcadığını iddia ediyor; bu, OpenAI’nin GPT-4’ü gibi modellerin geliştirme maliyetinin bir kısmı.

Olumsuz tarafı, modelin siyasi görüşlerinin biraz filtrelenmiş olmasıdır. Örneğin, DeepSeek V3’e Tiananmen Meydanı hakkında soru sorun, cevap vermez.

DeepSeek V3
Resim Kredileri: DeepSeek

 Çinli bir şirket olan DeepSeek, modellerinin yanıtlarının “temel sosyalist değerleri somutlaştırmasını” sağlamak için Çin’in internet düzenleyicisi tarafından  kıyaslamaya tabi tutuluyor  . Birçok  Çin AI sistemi, Xi Jinping rejimi hakkındaki spekülasyonlar gibi düzenleyicilerin öfkesini çekebilecek konulara yanıt vermeyi   reddediyor  .

Yakın zamanda OpenAI’nin o1 “akıl yürütme” modeline bir cevap olan DeepSeek-R1’i tanıtan DeepSeek, ilginç bir organizasyondur. AI’yı işlem kararlarını bilgilendirmek için kullanan Çinli bir niceliksel hedge fonu olan High-Flyer Capital Management tarafından desteklenmektedir.

DeepSeek’in modelleri, ByteDance, Baidu ve Alibaba gibi rakiplerini, bazı modellerinin kullanım fiyatlarını düşürmeye, bazılarını da tamamen ücretsiz yapmaya zorladı.

High-Flyer, model eğitimi için kendi sunucu kümelerini oluşturuyor; bunlardan en sonuncusunun  10.000 Nvidia A100 GPU’su olduğu ve 1 milyar yen (~138 milyon $) maliyeti olduğu bildiriliyor  . Bilgisayar bilimleri mezunu Liang Wenfeng tarafından kurulan High-Flyer, DeepSeek kuruluşu aracılığıyla “süper zeki” AI elde etmeyi hedefliyor.

Liang, bu yılın başlarında verdiği bir röportajda açık kaynak kodluluğu “kültürel bir eylem” olarak tanımladı ve OpenAI’nin “geçici” bir hendek gibi kapalı kaynaklı AI’yı nitelendirdi. “OpenAI’nin kapalı kaynaklı yaklaşımı bile diğerlerinin yetişmesini engellemedi,” diye belirtti.

Aslında.



EN SON TV sitesinden daha fazla şey keşfedin

Subscribe to get the latest posts sent to your email.

REKLAM ALANI
YORUMLAR

Lütfen görüşlerinizi bize yazın

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.

EN SON TV sitesinden daha fazla şey keşfedin

Okumaya devam etmek ve tüm arşive erişim kazanmak için hemen abone olun.

Okumaya Devam Edin