Dün itibariyle ChatGPT'nin pabucunu dama attı! Dünyayı sallayan yapay zeka DeepSeek nedir?

Dün itibariyle ChatGPT'nin pabucunu dama attı! Dünyayı sallayan yapay zeka DeepSeek nedir?

Çin'in yeni yapay zeka hamlesi olan DeepSeek, dünya çapında büyük bir rağbet gördü. iPhone'larda en çok indirilen uygulama olan DeepSeek, ChatGPT'nin pabucunu adeta dama attı. DeepSeek'in ne olduuğu ise merak ediliyor. İşte Çin menşeili yapay zeka uygulamasının detayları ve merak edilenleri...

Yapay zeka alanına hızlı ve çarpıcı bir giriş yapan Çinli yapay zeka uygulaması DeepSeek, adeta teknoloji dünyasını ters-düz etti. Tüm teknoloji meraklılarının takip ettiği ve hakkında merak ettikleri konuların bulunduğu DeepSeek için Yeniçağ olarak bilinmesi gerekenleri sizler için derledik. DeepSeek hakkında en çok merak edilen konular arasında "DeepSeek ücretli mi?, DeepSeek ücretsiz mi?, DeepSeek nedir?, DeepSeek yapay zeka uygulaması mıdır?" gibi sorular teknoloji kullanıcılarının arama motorlarından cevabını aradığı sorular içinde yer aldı. İşte DeepSeek yapay zeka aracı hakkında merak edilenler ve tüm gelişmeler...

deepseeknedir.jpg

Çin'in yapay zeka alanındaki son atılımı olan DeepSeek, hızla küresel bir talep ile ilgi odağı oldu. Gelişmiş teknolojisi ve kullanıcı dostu tasarımı ile ön plana çıkan yapay zeka uygulaması, ChatGPT gibi rakiplerini adeta ekarte ederek, en çok indirilen yapay zeka uygulaması oldu.

Hatta Çin'in ücretsiz yapay zeka uygulanması Deepseek, benchmarklarda Openai-o1'i dahi geride bıraktı.

deepseek-cin.jpg

DEEPSEEK NEDİR?

Yeni yapay zeka uygulaması DeepSeek, Çin merkezli bir yapay zeka uygulaması olarak kısa sürede küresel bir popülerlik kazandı ve yapay zeka teknolojisinde büyük bir devrime imza attı.

Diğer rakiplerine oranla daha düşük maliyetle ve daha az sayıda çip kullanılarak geliştirilen bu teknolojik model, sunduğu üstün özelliklerle ChatGPT gibi ABD merkezli rakiplerini geçmeyi başardı.

iPhone'larda en çok indirilen yapay zeka asistanı olmayı başaran DeepSeek, kullanıcı dostu arayüzüyle geniş bir kullanıcı kitlesini kendine hayran bıraktı.

deepseek-arayuz.jpg

DEEPSEEK'İ KİM KURDU?

2021 yılı boyunca Liang Wenfeng, yapay zeka projelerinden biri için binlerce Nvidia GPU satın almaya başladı. Bu hamle, sektörde milyarder bir iş insanının yeni bir hobi edinmesi olarak görüldü. Ancak Wenfeng, oyunun kurallarını değiştirecek bir şey inşa etmek istediğini söyledi.

Wenfeng şirketi 2023'te Hangzhou kentinde şirketi kurdu.

Bilgi ve elektronik mühendisliği mezunu olan 40 yaşındaki Liang, DeepSeek'i destekleyen serbest yatırım fonunu da aynı dönemde inşa etti.

İlk olarak Kasım 2023’te yazılım geliştiriciler için DeepSeek Coder’ı çıkardı. Bu başarılı denemenin ardından ChatGPT’ye rakip olabilecek bir model geliştirmeye karar verdi. Mayıs 2024’te çıkardığı V2 modeli, düşük maliyeti ve yüksek performansıyla herkesi şaşırttı. Son olarak bu ay piyasaya sürdüğü R1 modeliyle dünya çapında bir üne kavuştu.

DEEPSEEK, CHATGPT'Yİ RESMEN EKARTE ETTİ

Çinli geliştirici DeepSeek'in yapay zeka aracı 18 gün gibi kısa bir süre içinde, ChatGPT'yi geride bırakarak, dün ABD uygulama mağazalarında en çok indirilen uygulama oldu.

10 Ocak'ta kullanıma açılan ve "R1" adını taşıyan açık kaynak kodlu akıl yürütme modelini bir sohbet robotuyla entegre eden model, OpenAI'ın sürdüğü ChatGPT'den daha fazla indirilerek büyük bir başarı yakaladı.

deepseek-chatgpt.jpg

NASDAQ'TA İŞLEM GÖREN YAPAY ZEKA ÖNCÜLERİNİ SARSTI! DEEP SEEK ÜCRETLİ Mİ?

OpenAI'ın O1 entegre uygulaması 200 dolarlık ücretle satılırken, DeepSeek'in ücretsiz ve açık kaynak kodlu olarak kullanıma açılması, yapay zeka alanında büyük yatırımlar yapan teknoloji şirketlerinin NASDAQ Borsası'ndaki hisselerinin değer kaybetmesine kadar vardı.

nasdaq-yapay-zeka.jpg

DeepSeek'in sohbet robotu, Apple'ın Çin mağazasında en çok indirilen uygulama olurken, ByteDance'in "Doubao" ve Moonshot AI'ın "Kimi" adlı yapay zeka asistanları Çinli öncüyü takip etti.

DeepSeek'in R1 akıl yürütme modeli, California Üniversitesi'nin yapay zeka uygulamalarının performansını derecelendirdiği Chatbot Arena'da, Google'ın Gemini ailesinden iki modelin sonrasından gelerek üçüncü sırada yerini alırken, OpenAI'ın O1 modelini geride bırakmayı başarmıştı.

abd-cin-001.jpg

DEEPSEEK UYGULAMASINA YOĞUN İLGİ VAR

Türkiye'de ve dünyada uygulamayı kullanmak isteyenler, yoğun talep sebebiyle günlerdir bazı zaman aralıklarında uygulamaya erişemiyor. Yoğunluk sebepli erişilememe sorununun ilerleyen süreçte çözülmesi beklenirken, DeepSeek aracının popülerliğinin ve kendisine olan talebin giderek arttığı da açıkça gözlemleniyor.

İşte özetle sekiz soruda DeepSeek:

  • 1. Nereden çıktı bu DeepSeek?

Çin’in Hangzhou kentindeki şirket, Temmuz 2023’te Zhejiang Üniversitesi mezunu, bilgi ve elektronik mühendisi Liang Wenfeng tarafından kuruldu. Liang’ın 2015’te kurduğu bir fon olan High-Flyer’ın kuluçka programında yer aldı. Liang da sektörün diğer ileri gelen isimleri gibi, çeşitli görevlerde insanlara yetişebilen veya onları geçebilen “yapay genel zeka” seviyesine ulaşmayı hedefliyor.

Bağımsız faaliyet gösteren DeepSeek’in finansman modeli, dış yatırımcıların baskısı olmadan iddialı yapay zeka projelerini sürdürmesine ve uzun vadeli araştırma ve geliştirmeye öncelik vermesine olanak tanıyor. DeepSeek ekibi, Çin’in en iyi üniversitelerinden mezun genç ve yetenekli kişilerden oluşuyor ve yenilikçilik kültürünü teşvik ediyor. Şirketin işe alım sürecinde iş deneyiminden çok teknik becerilere öncelik veriliyor. Kısacası yapay zeka modelleri geliştirme sürecinde yeni bir bakış açısına sahip olduğu düşünülüyor.

DeepSeek’in yolculuğu, Kasım 2023’te kodlama görevleri için tasarlanmış açık kaynaklı bir model olan DeepSeek Coder’ın piyasaya sürülmesiyle başladı. Bunu, diğer büyük dil modelleriyle rekabet etmeyi amaçlayan DeepSeek LLM izledi. Mayıs 2024’te piyasaya sürülen DeepSeek-V2, güçlü performansı ve düşük maliyeti nedeniyle ilgi gördü. ByteDance, Tencent, Baidu ve Alibaba gibi diğer büyük Çinli teknoloji devlerini de yapay zeka modellerinin fiyatlarını düşürmeye zorladı.

  • 2. DeepSeek modellerinin kapasitesi ne durumda?

DeepSeek-V2, daha sonra 236 milyar parametreye sahip daha gelişmiş bir model olan DeepSeek-Coder-V2 ile değiştirildi. Karmaşık kodlama istemleri için tasarlanan model 128.000 token’a varan yüksek bir bağlam penceresine sahip. 128.000 token’lık bağlam penceresi, modelin aynı anda işleyebileceği maksimum giriş metni uzunluğunu ifade ediyor.

Daha geniş bir bağlam penceresi, bir modelin daha uzun metinleri anlamasına, özetlemesine veya analiz etmesine olanak tanır. Bu, örneğin uzun belgeler, kitaplar veya karmaşık diyaloglar üzerinde çalışırken büyük bir avantaj sağlar.

Token ise metindeki bir birim anlamına geliyor. Bu birim genellikle kelime, kelime parçacığı (örneğin “yapay” ve “zeka” gibi) veya hatta bir karakter olabilir. Örneğin: “Yapay zeka harika!” cümlesi dört tokendan oluşabilir: “Yapay,” “zeka,” “harika,” “!”.

Şirketin en son modelleri DeepSeek-V3 ve DeepSeek-R1 ise konumunu daha da sağlamlaştırdı. 671.000 parametreli bir model olan DeepSeek-V3, akranlarından önemli ölçüde daha az kaynak gerektirirken diğer markalarla çeşitli kıyaslama testlerinde etkileyici bir performans sergiliyor. Ocak 2025’te piyasaya sürülen DeepSeek-R1 de akıl yürütme, kodlama ve matematik gibi karmaşık görevlere odaklanıyor. Bu alandaki yetenekleriyle ChatGPT’nin son modellerinden biri olan o1’e meydan okuyor.

DeepSeek kısa sürede önemli bir başarı yakalamış olsa da Forbes, şirketin öncelikli olarak araştırmaya odaklandığını ve yakın gelecekte ticarileştirmeye yönelik detaylı planları olmadığını yazdı.

  • 3. Son kullanıcı için ücretsiz mi?

DeepSeek’in ilgi çekmeyi başarmasının temel nedenlerinden biri son kullanıcılar için ücretsiz olması. Hatta bu, kullanıcılara ücretsiz olarak sunulan bu denli gelişmiş ilk yapay zeka sistemi. OpenAI o1 ve Claude Sonnet gibi diğer güçlü sistemler ücretli abonelik gerektiriyor. Hatta bazı aboneliklerde bile kullanıcılara kota konuyor.

Google Gemini da ücretsiz olarak sunuluyor, ancak ücretsiz sürümleri eski modellerle sınırlı. DeepSeek’in şimdilik herhangi bir sınırlaması yok.

  • 4. Nasıl kullanılır?

Kullanıcılar, son kullanıcı için geliştirilen DeepSeek sohbet arayüzüne “chat.deepseek” adresinden erişebiliyor. Buradaki chat ekranına komutları girmek ve internette arama yapmak için “search” butonuna basmak yeterli oluyor.

Herhangi bir konuyla ilgili daha ayrıntılı bilgiler elde etmek içinse “deep think” seçeneği var. Bu seçenek kullanıcıların istemlerine daha detaylı yanıtlar sunarken, arama motorunda da daha fazla sitede arama yapabiliyor. Ancak sadece belirli kaynaklara güvenerek arama yapan ChatGPT’nin aksine bu özellik, bazı ufak sitelerdeki yanlış bilgileri de kullanıcıların karşısına çıkarabilir. Bu yüzden kullanıcıların bu sohbet botunda da elde ettikleri bilgileri teyit etmesi gerek.

  • 5. Güvenli mi?

DeepSeek kullanımıyla ilgili bir önemli soru başlığı da güvenli olup olmadığı. DeepSeek de tıpkı diğer hizmetlerde olduğu gibi kullanıcının verilerini istiyor ve bunlar muhtemelen Çin’deki sunucularda saklanıyor.

Kullanıcıların herhangi bir LLM’de olduğu gibi burada da sohbet botuna hassas verilerini vermemesi önemli.

DeepSeek de açık kaynaklı olduğu için bağımsız araştırmacılar modelin kodlarına bakıp güvenli olup olmadığını belirlemeye yönelik çalışmalar yapabilir. Güvenlik konusundaki endişelere yönelik daha ayrıntılı bilgilerin ilerleyen günlerde çıkması bekleniyor.

  • 6. Açık kaynak kodlu olması ne anlama geliyor?

DeepSeek-R1 dahil olmak üzere modeller, büyük ölçüde açık kaynaklı olarak yayınlandı. Yani isteyen herkes aracın kodlarına erişebiliyor ve bu kodları kullanarak LLM’i kişiselleştirebiliyor. Eğitim verileri ise patentli.

Öte yandan OpenAI, o1 modelini kapalı olarak piyasaya sürmüştü ve halihazırda sadece kullanıcılara bile aylık 20 ila 200 dolarlık paketlerle satıyor.

  • 7. ABD kısıtlamalarına rağmen nasıl böyle bir model üretti?

Şirket teknolojik yeteneklerini ve pazar erişimini geliştirmek için stratejik ortaklıklar da kurdu. Dikkat çeken iş birliklerinden biri, ABD’li çip firması AMD ile yapıldı. Forbes’a göre DeepSeek, özellikle DeepSeek-V3 için model geliştirmenin temel aşamalarında AMD Instinct GPU’larını (grafik işlem birimleri) ve ROCM yazılımını kullandı.

MIT Technology Review dergisi ise ABD’den Çin’e yönelik çip yaptırımlarının gelmesinden çok önce Liang’ın, şu anda Çin’e ihracatı yasaklanmış bir tür olan Nvidia A100 çiplerinden önemli miktarda stok satın aldığını yazdı. Çinli medya kuruluşu 36Kr, şirketin stoklarında 10.000’den fazla birim olduğunu tahmin ediyor. Bazıları bu rakamın 50.000 olduğunu söylüyor. Bu stokun yapay zeka eğitimi açısından önemini fark eden Liang, DeepSeek’i kurdu ve modellerini geliştirmek için bunları düşük güçteki çiplerle birlikte kullanmaya başladı.

Ancak burada önemli olan bir nokta da Liang’ın az sayıda kaynakla yetkin modeller inşa etmenin yolunu bulmuş olması. ABD’nin çip ihracat kısıtlamaları, DeepSeek geliştiricilerini hesaplama gücü eksikliklerini telafi etmek için daha akıllı, daha enerji verimli algoritmalar oluşturmaya zorladı. ChatGPT’nin eğitim verilerini işlemek için 10.000 Nvidia GPU’ya ihtiyaç duyduğu düşünülüyor. DeepSeek mühendisleri sadece 2.000 GPU ile benzer sonuçlara ulaştıklarını söylüyor.

  • 8. DeepSeek’in yenilikçi teknikleri neler?

DeepSeek’in başarısı birkaç önemli yeniliğe bağlanabilir.

Pekiştirmeli öğrenme: Teknolojist Janakiram MSV’ye göre, büyük ölçüde gözetimli ince ayara dayanan geleneksel yöntemlerin aksine, DeepSeek saf RL kullanıyor. Gözetimli ince ayar yönteminde ince ayar yapılmadan önce, model genellikle geniş bir veri kümesi üzerinde eğitilmiştir. Saf RL kullanmak ise bir yapay zeka sisteminin yalnızca pekiştirmeli öğrenme yöntemlerini kullanarak eğitilmesi anlamına gelir. Bu, modelin insan tarafından ayıklanmış veriler veya gözetimli öğrenme yöntemleri olmaksızın, yalnızca ödül ve ceza mekanizmaları üzerinden öğrenmesi demek. Bu yaklaşım, DeepSeek-R1’in muhakeme yeteneklerini geliştirmede özellikle etkili.

MoE mimarisi: Açılımıyla Mixture of Experts, yani Uzmanlar Karışımı mimarisi yapay zeka modellerinde farklı uzmanlardan oluşan yenilikçi bir sistem. Burada kullanıcının girdisi için en uygun birkaç uzman seçiliyor ve sadece onlar çalışıyor. Bu sayede hem büyük modellerin performansı artırılıyor hem de işlem maliyeti düşürülüyor. Bunu her biri farklı bir alanda uzmanlaşmış bir uzman ekibi olarak düşünmek mümkün. Bir görevle karşı karşıya kaldığında, yalnızca ilgili uzmanlar çağrılıyor ve kaynakların ve uzmanlığın verimli kullanımı sağlanıyor.

Multi-Head Latent Attention: Bu yöntem, bir modelin farklı dikkat başlıklarını kullanarak gizli temsiller ile girişler arasındaki ilişkileri öğrenmesini sağlıyor. Bilgiyi daha esnek, güçlü ve ayrıntılı şekilde işlemek için kullanılıyor. Bunu, girdi verilerinin farklı bölümlerine odaklanabilen ve modelin bilgiyi daha kapsamlı şekilde anlamasını sağlayan birden fazla “dikkatli kafa” olarak düşünmek mümkün.

Damıtma: DeepSeek, daha büyük modellerin bilgi ve yeteneklerini daha küçük, daha verimli olanlara aktarmak için damıtma tekniklerini kullanıyor. Bu, bir öğretmenin bilgisini bir öğrenciye aktarmasına benziyor. Öğrencinin benzer yeterlilikteki görevleri ancak daha az deneyim veya kaynakla gerçekleştirmesine olanak tanıyor. DeepSeek’in damıtma süreci, daha küçük modellerin daha büyük muadillerinin gelişmiş akıl yürütme ve dil işleme yeteneklerini devralmasını sağlayarak onları daha çok yönlü ve erişilebilir hale getiriyor.

Kısacası DeepSeek, RL ve MoE gibi verimli mimarileri kullanarak eğitim için gereken hesaplama kaynaklarını önemli ölçüde azaltıyor ve daha düşük maliyetlerle tamamlayabiliyor. Örneğin DeepSeek-V3, Meta’daki modellerin maliyetinin çok daha az bir kısmıyla eğitildi.

OpenAI ve Google gibi önemli oyuncuların yapay zeka modellerine eğitim verileri sağlayan ScaleAI firmasının CEO’su Alexandr Wang, perşembe günü İsviçre’nin Davos kentinde düzenlenen Dünya Ekonomik Forumu’nda (WEF) yaptığı konuşmada DeepSeek’in ürününü “dünyayı sarsacak bir model”diye nitelendirdi.