A Chinese lab has created what appears to be one of the most powerful “open” AI models to date.
The model, DeepSeek V3, was developed by the AI firm DeepSeek and was released on Wednesday under a permissive license that allows developers to download and modify it for most applications, including commercial ones.
DeepSeek V3 can handle a range of text-based workloads and tasks, like coding, translating, and writing essays and emails from a descriptive prompt.
According to DeepSeek’s internal benchmark testing, DeepSeek V3 outperforms both downloadable, “openly” available models and “closed” AI models that can only be accessed through an API. In a subset of coding competitions hosted on Codeforces, a platform for programming contests, DeepSeek outperforms other models, including Meta’s Llama 3.1 405B, OpenAI’s GPT-4o, and Alibaba’s Qwen 2.5 72B.
DeepSeek V3 also crushes the competition on Aider Polyglot, a test designed to measure, among other things, whether a model can successfully write new code that integrates into existing code.
DeepSeek-V3!
60 tokens/second (3x faster than V2!)
API compatibility intact
Fully open-source models & papers
671B MoE parameters
37B activated parameters
Trained on 14.8T high-quality tokensBeats Llama 3.1 405b on almost every benchmark https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Chubby♨️ (@kimmonismus) December 26, 2024
DeepSeek claims that DeepSeek V3 was trained on a dataset of 14.8 trillion tokens. In data science, tokens are used to represent bits of raw data — 1 million tokens is equal to about 750,000 words.
It’s not just the training set that’s massive. DeepSeek V3 is enormous in size: 685 billion parameters. (Parameters are the internal variables models use to make predictions or decisions.) That’s around 1.6 times the size of Llama 3.1 405B, which has 405 billion parameters.
Parameter count often (but not always) correlates with skill; models with more parameters tend to outperform models with fewer parameters. But large models also require beefier hardware in order to run. An unoptimized version of DeepSeek V3 would need a bank of high-end GPUs to answer questions at reasonable speeds.
En pratik model olmasa da DeepSeek V3 bazı açılardan bir başarıdır. DeepSeek, modeli Nvidia H800 GPU’larından oluşan bir veri merkezi kullanarak sadece iki ayda eğitebildi; bu GPU’lar Çinli şirketlerin yakın zamanda ABD Ticaret Bakanlığı tarafından tedarik edilmesinin kısıtlandığı GPU’lardı. Şirket ayrıca DeepSeek V3’ü eğitmek için sadece 5,5 milyon dolar harcadığını iddia ediyor; bu, OpenAI’nin GPT-4’ü gibi modellerin geliştirme maliyetinin bir kısmı.
Olumsuz tarafı, modelin siyasi görüşlerinin biraz filtrelenmiş olmasıdır. Örneğin, DeepSeek V3’e Tiananmen Meydanı hakkında soru sorun, cevap vermez.
Çinli bir şirket olan DeepSeek, modellerinin yanıtlarının “temel sosyalist değerleri somutlaştırmasını” sağlamak için Çin’in internet düzenleyicisi tarafından kıyaslamaya tabi tutuluyor . Birçok Çin AI sistemi, Xi Jinping rejimi hakkındaki spekülasyonlar gibi düzenleyicilerin öfkesini çekebilecek konulara yanıt vermeyi reddediyor .
Yakın zamanda OpenAI’nin o1 “akıl yürütme” modeline bir cevap olan DeepSeek-R1’i tanıtan DeepSeek, ilginç bir organizasyondur. AI’yı işlem kararlarını bilgilendirmek için kullanan Çinli bir niceliksel hedge fonu olan High-Flyer Capital Management tarafından desteklenmektedir.
DeepSeek’in modelleri, ByteDance, Baidu ve Alibaba gibi rakiplerini, bazı modellerinin kullanım fiyatlarını düşürmeye, bazılarını da tamamen ücretsiz yapmaya zorladı.
High-Flyer, model eğitimi için kendi sunucu kümelerini oluşturuyor; bunlardan en sonuncusunun 10.000 Nvidia A100 GPU’su olduğu ve 1 milyar yen (~138 milyon $) maliyeti olduğu bildiriliyor . Bilgisayar bilimleri mezunu Liang Wenfeng tarafından kurulan High-Flyer, DeepSeek kuruluşu aracılığıyla “süper zeki” AI elde etmeyi hedefliyor.
Liang, bu yılın başlarında verdiği bir röportajda açık kaynak kodluluğu “kültürel bir eylem” olarak tanımladı ve OpenAI’nin “geçici” bir hendek gibi kapalı kaynaklı AI’yı nitelendirdi. “OpenAI’nin kapalı kaynaklı yaklaşımı bile diğerlerinin yetişmesini engellemedi,” diye belirtti.
Aslında.