DeepSeek, Yeni Yapay Zeka Modeli DeepSeek-R1-0528-Qwen3-8B’yi Tanıttı
Çinli yapay zeka laboratuvarı DeepSeek, daha az kaynak kullanarak yüksek performans sağlayan yeni modeli DeepSeek-R1-0528-Qwen3-8B’yi duyurdu. Bu model, sadece tek bir GPU üzerinde çalışabiliyor ve diğer modellere kıyasla önemli avantajlar sunuyor.
DeepSeek’in yeni modeli, temelini Alibaba’nın Mayıs 2025’te tanıttığı Qwen3-8B modelinden almıştır. Laboratuvar, büyük R1 modelinden elde ettiği verilerle bu küçük versiyonu eğitmeyi başardı. Bu yöntemle geliştirilen model, Google’ın Gemini 2.5 Flash modelini içeren zorlu matematik testlerinden biri olan AIME 2025’te başarılı oldu. Ayrıca Microsoft’un Phi 4 Reasoning Plus modeline, HMMT sınavında da oldukça yakın bir performans sergiledi.
Küçük yapay zeka modelleri genellikle sınırlı becerilere sahip olsa da, DeepSeek-R1-0528-Qwen3-8B’nin dikkat çekici yanı düşük donanım gereksinimidir. NodeShift’in verilerine göre, bu model 40 ila 80 GB RAM’e sahip tek bir Nvidia H100 GPU ile çalışabiliyor. Oysa tam boyutlu R1 modeli, yaklaşık 12 adet 80 GB’lık GPU gerektiriyor.
Model, MIT lisansı ile ticari kullanıma sunulmuştur ve Hugging Face ve LM Studio gibi platformlardan erişilebilir durumdadır. Bu yapay zeka modeli, akademik ve endüstriyel alanda kullanım için tasarlanmıştır.