DeepSeek, Batı’nın geliştirdiği büyük dil modeli teknolojisini akıl almaz bir esneklikte kullanarak ölçeklenebilir hale getirip ucuzlatmış. Bu yazıyı yazmakta olduğum Çarşamba öğleden sonra itibariyle Çin ve ABD’deki durum şöyleydi: ABD haftaya büyük kayıplarla başladı; mesela en büyük çip tasarımcısı Nvidia’nın hisseleri Pazartesi günü %17 değer kaybetti. Çin’de ise yeni yıl tatili vardı. İçine girdiğimiz Çin yeni yılının ismi “yılan yılı.” Malumunuz Çin’deki her şey gibi senelerin de sembolik anlamları var: Yılan yılının uzama, esneklik, dayanıklılık ve diplomatik “kıvırma” yılı olması bekleniyor. Nitekim, görünen o ki 2024 sonu Çin’den çıkan DeepSeek isimli büyük dil yapay zekâ modeli yeni yıla damgasını vuracak. Amerikan borsasındaki düşüş de DeepSeek’in bu hafta sosyal medyada patlamasının sonucu.
ABD, yeni teknoloji çipleri sadece 18 ülkeye verecek
Malum ABD 2022’den beri Çin’e yüksek teknoloji çip ambargosu uyguluyor. Geçen hafta bu ambargonun kapsamı genişletildi. ABD artık en yeni teknolojili çipleri sadece 18 ülkeye verecek. Bunlar Beş Göz istihbarat paylaşım ittifakına dahil olan Kanada, Yeni Zelanda, Avustralya ve İngiltere; çip üretiminde önemli rolü olan birkaç Asya ülkesi ve ABD’nin kendine yakın gördüğü 10 NATO ülkesi. NATO’nun Türkiye’nin de aralarında olduğu 18 ülkesine ise ihracat kısıtı söz konusu. ABD’nin temel endişesi Çin’in üçüncü ülkeler üzerinden yapay zekâ eğitiminde stratejik öneme sahip olan çipleri ithal ederek ambargoyu delmesi. Nitekim Deepseek’in de ambargoya rağmen kaçak yollarla aldığı çiplerle yeni modelini eğittiği iddiaları var.
Peki DeepSeek ne yapıyor? Aslında en popüler büyük dil modeli olan ve ChatGPT’nin arkasında yer alan GPT-4o modeli ile aynı kalitede sonuç veriyor. Tek farkı iki kat hızlı ve %90 daha az veri ve işlemci gücü kullanarak çalışması. Yani DeepSeek, ABD’li OpenAI’ın büyük dil modeli ile aynı sonuçları veren bir modeli daha zayıf bir işlemci gücü ile daha ucuza geliştirmeyi başarmış. Çin Halk Cumhuriyeti’nden “Halkın GPT’si” çıktı desek yanlış olmaz. Çinliler daha önce Batılıların geliştirdiği güneş enerjisi ya da pil teknolojisini ölçeklendirip piyasada fiyatları hızla aşağı çekmeyi başarmıştı. Şimdi de yine Batı’nın geliştirdiği büyük dil modeli teknolojisini akıl almaz bir esneklikte kullanarak ölçeklenebilir hale getirip ucuzlatmışlar.
GPT gibi kodu halka açıklanmayan kapalı modellerin aksine, DeepSeek açık kodlu. Daha açık ifade etmek gerekirse, aslında Facebook’un geliştirdiği Llama modeli üzerine kurulmuş. Hatta eğitiminde GPT4 ile üretilen metinler kullanıldığı da iddia ediliyor. Zira bazı sorulara cevap verirken kendini GPT4 sanıyormuş!
İki sene kadar önce GPT ilk kez piyasaya çıktığında Çin’den rakibi çıkacak mı diye bekleyenler hayal kırıklığına uğramıştı. Yapay zekâ modelleri günün sonunda istatistiksel modeller. Veride varyasyon azsa sonuçlar zayıf oluyor. Çin’deki tüm teknik kapasiteye rağmen, düşünce hürriyeti sınırlı olduğu, yani eğitimde kullanılan metinler birbirine benzediği için Çince büyük dil modelleri iyi sonuç vermemişti. Sonra da Amerikan çip ambargosu geldi.
Deepseek, Çinli bir finansal fon olan High-Flyer’a ait. Malum dünyanın en kalifiye yapay zekâcıları en çok para finansta olduğu için bu alanda modeller yapıyor. High-Flyer da arada bir de büyük dil modeli yapalım ama tüketiciye yönelik değil iş dünyasına yönelik uygulamalarda kullanalım, böylelikle Çin’deki devlet kontrolleri ile uğraşmayalım deyip DeepSeek firmasını kurmuş. Çinlilerin OpenAI gibi piyasada baskın olan ABD’li firmalarla rekabetinde temel kısıt ise kullanacağı gelişmiş çiplere ambargo nedeniyle ulaşamamaları. Ancak kısıt inovasyonun esasıdır. Görüyoruz ki, ambargo sayesinde Çinliler, “halkın GPT’sini” daha az işlemci gücü kullanıp nasıl yapacağını bulmuş. Türkiye’ye de Kıbrıs Barış Harekatı sonrası ABD tarafından silah ambargosu uygulanınca bu durum Türkiye’deki savunma sanayiinin gelişmesinin itici gücü olmuştu. Çin’de de yerli ve milli yapay zekâ çalışmaları çip ambargosu sayesinde gelişiyor. Tabii şunu unutmayalım: Yapay zekânın üç önemli girdisi insan kaynağı, veri ve çip. Çin’de nitelikli insan kaynağı ve sınırsız veri var.
Görünen o ki açık kodlu büyük dil modelleri sayesinde Çinlilerin ABD’de geliştirilen modeller üzerinden teknoloji geliştirmesi ve ölçeklendirmesi kolaylaşmış durumda. ABD’nin çip ambargosu da belki bu konuda bazı yavaşlamalara neden olsa da ilerlemeyi engelleyemiyor. Hatta belki de teşvik ediyor.
Teknoloji hiçbir zaman olmadığı kadar hızla siyasileşiyor. Peki bu gelişmelerden kimler kazanacak? Çinlilerin kazandığı ortada. Ancak ben Amerikalıların kaybedeceğini zannetmiyorum. Aslında Microsoft ve Amazon gibi işlemci gücü sağlayan veya Nvidia gibi çip üreten şirketler tam tersine kazanan olabilir. Çünkü meşhur “Jevon paradoksu”na göre bir kaynak daha etkin kullanıldıkça o kaynağa talep arttığı için kullanımı da artar. Mesela sanayi devrimini başlatan buhar makinesi bulununca enerji kulllanımı daha etkin hale geldiği halde enerji talebi artmıştı. Büyük dil modelleri üzerinde uygulama geliştiren mesela hukuk veya sağlık dikeyindeki şirketlerin maliyetleri de düşecek. OpenAI gibi sadece model geliştiren şirketlere ne olacağını ise şimdiden kestirmek güç. Modeller metalaştıkça, yani basit ürünler haline geldikçe belki bunların Microsoft gibi yerleşik büyük teknoloji şirketleriyle entegrasyonu hızlanacaktır.
Ne dersiniz Türkiye’den de bir gün Deepseek çıkar mı?
Okuma önerisi: Azeem Azhar’ın her pazar yayınlanan e-posta bülteni exponentialview.com