X

DeepSeek’in Yeni AI Modeli, Şimdiye Kadar Görülen En İyi ‘Açık’ Rakiplerden Biri Oluyor

A Chinese lab has created what appears to be one of the most powerful “open” AI models to date.

The model, DeepSeek V3, was developed by the AI firm DeepSeek and was released on Wednesday under a permissive license that allows developers to download and modify it for most applications, including commercial ones.

ARA REKLAM ALANI

DeepSeek V3 can handle a range of text-based workloads and tasks, like coding, translating, and writing essays and emails from a descriptive prompt.

According to DeepSeek’s internal benchmark testing, DeepSeek V3 outperforms both downloadable, “openly” available models and “closed” AI models that can only be accessed through an API. In a subset of coding competitions hosted on Codeforces, a platform for programming contests, DeepSeek outperforms other models, including Meta’s Llama 3.1 405B, OpenAI’s GPT-4o, and Alibaba’s Qwen 2.5 72B.

DeepSeek V3 also crushes the competition on Aider Polyglot, a test designed to measure, among other things, whether a model can successfully write new code that integrates into existing code.

DeepSeek claims that DeepSeek V3 was trained on a dataset of 14.8 trillion tokens. In data science, tokens are used to represent bits of raw data — 1 million tokens is equal to about 750,000 words.

It’s not just the training set that’s massive. DeepSeek V3 is enormous in size: 685 billion parameters. (Parameters are the internal variables models use to make predictions or decisions.) That’s around 1.6 times the size of Llama 3.1 405B, which has 405 billion parameters.

https://twitter.com/karpathy/status/1872362712958906460?ref_src=twsrc%5Etfw” rel=”nofollow

Parameter count often (but not always) correlates with skill; models with more parameters tend to outperform models with fewer parameters. But large models also require beefier hardware in order to run. An unoptimized version of DeepSeek V3 would need a bank of high-end GPUs to answer questions at reasonable speeds.

En pratik model olmasa da DeepSeek V3 bazı açılardan bir başarıdır. DeepSeek, modeli Nvidia H800 GPU’larından oluşan bir veri merkezi kullanarak sadece iki ayda eğitebildi; bu GPU’lar Çinli şirketlerin yakın zamanda ABD Ticaret Bakanlığı tarafından tedarik edilmesinin kısıtlandığı GPU’lardı. Şirket ayrıca DeepSeek V3’ü eğitmek için sadece 5,5 milyon dolar harcadığını iddia ediyor; bu, OpenAI’nin GPT-4’ü gibi modellerin geliştirme maliyetinin bir kısmı.

Olumsuz tarafı, modelin siyasi görüşlerinin biraz filtrelenmiş olmasıdır. Örneğin, DeepSeek V3’e Tiananmen Meydanı hakkında soru sorun, cevap vermez.

Resim Kredileri: DeepSeek

 Çinli bir şirket olan DeepSeek, modellerinin yanıtlarının “temel sosyalist değerleri somutlaştırmasını” sağlamak için Çin’in internet düzenleyicisi tarafından  kıyaslamaya tabi tutuluyor  . Birçok  Çin AI sistemi, Xi Jinping rejimi hakkındaki spekülasyonlar gibi düzenleyicilerin öfkesini çekebilecek konulara yanıt vermeyi   reddediyor  .

Yakın zamanda OpenAI’nin o1 “akıl yürütme” modeline bir cevap olan DeepSeek-R1’i tanıtan DeepSeek, ilginç bir organizasyondur. AI’yı işlem kararlarını bilgilendirmek için kullanan Çinli bir niceliksel hedge fonu olan High-Flyer Capital Management tarafından desteklenmektedir.

DeepSeek’in modelleri, ByteDance, Baidu ve Alibaba gibi rakiplerini, bazı modellerinin kullanım fiyatlarını düşürmeye, bazılarını da tamamen ücretsiz yapmaya zorladı.

High-Flyer, model eğitimi için kendi sunucu kümelerini oluşturuyor; bunlardan en sonuncusunun  10.000 Nvidia A100 GPU’su olduğu ve 1 milyar yen (~138 milyon $) maliyeti olduğu bildiriliyor  . Bilgisayar bilimleri mezunu Liang Wenfeng tarafından kurulan High-Flyer, DeepSeek kuruluşu aracılığıyla “süper zeki” AI elde etmeyi hedefliyor.

Liang, bu yılın başlarında verdiği bir röportajda açık kaynak kodluluğu “kültürel bir eylem” olarak tanımladı ve OpenAI’nin “geçici” bir hendek gibi kapalı kaynaklı AI’yı nitelendirdi. “OpenAI’nin kapalı kaynaklı yaklaşımı bile diğerlerinin yetişmesini engellemedi,” diye belirtti.

Aslında.


admin:

This website uses cookies.