Çinli yapay zeka laboratuvarı DeepSeek, daha az kaynakla yüksek performans vadeden yeni modeli DeepSeek-R1-0528-Qwen3-8B’yi duyurdu. Model, yalnızca tek bir GPU üzerinde çalışabiliyor ve rakiplerine göre önemli avantajlar sağlıyor.
Yeni modelin temeli, Alibaba tarafından Mayıs 2025’te tanıtılan Qwen3-8B üzerine kuruldu. DeepSeek, büyük R1 modelinden ürettiği verilerle bu küçük versiyonu eğitti. Bu yöntemle geliştirilen model, Google’ın Gemini 2.5 Flash modelini zorlu matematik testlerinden biri olan AIME 2025’te geride bırakmayı başardı. Ayrıca Microsoft’un Phi 4 Reasoning Plus modeline, HMMT adlı başka bir sınavda oldukça yaklaştı.
Küçük yapay zeka modelleri genellikle sınırlı becerilere sahip olsa da, bu modelin dikkat çeken yanı düşük donanım gereksinimi. NodeShift’in verilerine göre, DeepSeek-R1-0528-Qwen3-8B, 40 ila 80 GB RAM'e sahip tek bir Nvidia H100 GPU ile çalışabiliyor. Buna karşın tam boyutlu R1 modeli, yaklaşık 12 adet 80 GB’lık GPU’ya ihtiyaç duyuyor.
Model, ticari kullanım için herhangi bir kısıtlama içermeyen MIT lisansı ile yayınlandı. Hugging Face ve LM Studio gibi platformlar üzerinden erişilebilen bu yapay zeka, hem akademik hem endüstriyel alanda kullanılabilecek şekilde tasarlandı.
