• Forumumuza Moderatörlük ve İçerik Ekibi Alımları Başlamıştır. Başvuru İçin "Zeo" İle İrtibata Geçebilirsiniz.

Deepseek AI'sını nasıl daha az parayla inşa etti?

Teletabi

Administrator
Yetkili
Administrator
Geçen ay, ABD finansal piyasaları, Deepseek adlı Çinli bir girişimden sonra, dünyanın en güçlü yapay zeka sistemlerinden birinin mümkün olduğu düşünülen birçok uzmandan çok daha az bilgisayar çipleri oluşturduğunu söyledi.

AI şirketleri genellikle sohbet botlarını 16.000 özel cips veya daha fazla ile dolu süper bilgisayarlarla eğitiyorlar. Ancak Deepseek bunun sadece 2.000'e ihtiyacı olduğunu söyledi.

Noel'den kısa bir süre sonra yayınlanan bir araştırma makalesinde tanımlanan Deepseek mühendisleri olarak, başlangıç, sistemini oluşturma maliyetlerini önemli ölçüde azaltmak için çeşitli teknolojik hileler kullandı. Mühendisler, Meta'nın en son AI teknolojisini oluşturmak için harcadıklarının yaklaşık onda biri olan sadece yaklaşık 6 milyon dolarlık ham bilgisayar çıkışına ihtiyaç duyuyordu.

Deepseek tam olarak ne yaptı? İşte bir rehber.

AI teknolojileri nasıl oluşturulur?


Önde gelen yapay zeka teknolojileri, bilim adamlarının sinir ağları, becerilerini öğrenen matematiksel sistemlere, muazzam miktarda veri analiz ederek dediklerine dayanmaktadır.


En güçlü sistemler, neredeyse tüm İngilizce metnini internette, birçok resim, ses ve diğer multimedya analiz etmek için aylar geçiriyor. Bu muazzam miktarda bilgi işlem gücü gerektirir.

Yaklaşık 15 yıl önce AI araştırmacıları, grafik işleme birimleri veya GPU'lar olarak adlandırılan özel bilgisayar yongalarının bu tür veri analizlerini gerçekleştirmenin etkili bir yolu olduğunu fark ettiler. Silikon Valley yonga üreticisi Nvidia gibi şirketler başlangıçta bu yongaları bilgisayar video oyunları için grafik oluşturacak şekilde tasarladı. Ancak GPU'lar ayrıca sinir ağlarını işleten önde gelen matematik için bir ustalığa sahipti.

Şirketler bilgisayar verilerinde daha fazla GPU paketledikçe, AI sistemleri daha fazla veri analiz edebilir.

Ancak en iyi GPU'ların maliyeti 40.000 ABD doları ve büyük miktarda elektriğe ihtiyacınız var. Verilerin yongalar arasında gönderilmesi, yongaların yürütülmesinden daha fazla elektrik gücü tüketebilir.

Deepseek maliyetleri nasıl azalttı?


Birçok şey oldu. Her şeyden önce, “uzmanların karıştırılması” adlı bir yöntem içeriyordu.

Şirketler genellikle internetteki tüm verilerdeki tüm kalıpları öğrenen tek bir nöronal ağ oluşturdu. Bu pahalıydı çünkü GPU yongaları arasında seyahat etmek için muazzam miktarda veri gerektiriyordu.


Bir çip bir şiirin nasıl yazılacağını öğrendiğinde ve bir başkası bir bilgisayar programının nasıl yazılacağını öğrendiğinde, sadece şiir ve programlama arasında bazı örtüşme olması durumunda birbirleriyle konuşmak zorunda kaldılar.

Uzman yöntemlerin karışımı ile araştırmacılar, sistemi birçok sinir ağına bölerek bu sorunu çözmeye çalıştı: biri şiir, biri bilgisayar programlama için, biri biyoloji için, biri fizik için vb. Bu küçük “uzman” sistemlerinden 100'ü olabilir. Her uzman kendi alanına konsantre olabilir.

Birçok şirket bu yöntemle uğraşmak zorundadır, ancak Deepseek bunu iyi yapabilir. Onun hilesi bu daha küçük “uzmanlar” sistemlerini “genel” bir sistemle birleştirmekti.

Uzmanlar hala bazı bilgileri değiştirmek zorunda kaldılar ve her konu hakkında iyi ama ayrıntılı olmayan bir anlayışa sahip olan generalist, uzmanlar arasındaki etkileşimleri koordine etmeye yardımcı oldu.

Özel muhabirlerle dolu bir haber odasını denetleyen bir editör gibi.

Ve bu daha verimli mi?


Çok daha fazlası. Ama Deepseek'in yaptığı tek şey bu değil. Ayrıca, ilkokul için matematik derslerini hatırlayan herkesin anlayabileceği ondalık yerlerle basit bir numaraya hakim oldu.

Matematik dahil mi?


Matematik öğretmeninizin PI kavramını açıkladığını unutmayın. Π olarak da adlandırılan Pi, asla bitmeyen bir sayıdır: 3.14159265358979 …

Yararlı hesaplamalar yapmak için π kullanabilirsiniz, ör. B. Bir dairenin kapsamı. Bu hesaplamaları yaparsanız, π sadece birkaç ondalık basamağa kısaltın: 3.14. Bu daha basit numarayı kullanırsanız, bir dairenin kapsamı hakkında oldukça iyi bir tahmin alırsınız.

Deepseek, AI teknolojisinin eğitiminde benzer bir şey yaptı -ama çok daha büyük bir kapsam.

Nöronal bir ağın metindeki kalıpları tanımlamasını sağlayan matematik gerçekten sadece bir çarpımdır – çoğu, çok fazla çarpma. Aylarca çarpımdan binlerce bilgisayar çipinden bahsediyoruz.

Genellikle 16 bellek fırınına uyan çipleri çarpmak. Ama Deepseek her sayıya sadece 8 bit bellekte bastırdı – odanın yarısı. Esasen, her sayıdan birkaç ondalık yeri kırılmıştır.

Bu, her hesaplamanın daha az kesin olduğu anlamına geliyordu. Ama bu önemli değildi. Hesaplamalar gerçekten güçlü bir nöronal ağ üretmek için yeterliydi.

İşte bu mu?


Başka bir numara ekledin.

Deepseek 8 bit bellekte her sayıya bastıktan sonra, bu sayıları çarpmak için başka bir yol izledi. Her çarpma sorununun cevabını belirlerken -sinir ağının nasıl çalışacağına karar vermeye yardımcı olacak önemli bir hesaplama, cevap 32 bit bellek depolama alanı üzerinde gerildi. Başka bir deyişle, daha çok ondalık yer vardı. Cevabı daha kesin hale getirdi.

Yani bir öğrenci bunu yapabilir mi?


Hayır. Deepseek mühendisleri makalelerinde çok karmaşık bilgisayar kodunu yazarken çok iyi olduklarını gösterdi, GPU'lar ne yapacağını bildirdi. Bu yongalardan nasıl daha fazla verimliliğin nasıl püskürtüleceğini biliyorlardı.

Çok az insan bu tür bir beceriye sahiptir. Ancak ciddi AI laboratuvarları, Deepseek'in yaptıklarını yapmak zorunda olan yetenekli mühendislere sahiptir.

O zaman neden bunu yapmadın?


Bazı AI laboratuvarları zaten aynı hilelerin en azından bir kısmını kullanabilir. Openai gibi şirketler her zaman kapalı kapılar ardında ne yaptıklarını açıklamazlar.

Ancak diğerleri Deepseek'in çalışmasından açıkça şaşırdı. Başlangıç yapmak kolay değil. Bunun gibi bir atılım bulmak için gerekli olan denemeler, elektriksel performansta milyonlarca dolar – milyarlarca olmasa da – ile ilgilidir.


Başka bir deyişle, muazzam risk riski gerektirir.

Meta'da bir KI araştırmacısı “Yeni şeyler denemek için çok para riske atmalısınız – ve çoğu zaman başarısız olurlar”.

“Bu yüzden fazla bir yenilik görmüyoruz: insanlar sadece işe yaramayan bir şey denemek için milyonlarca insanı kaybetmekten korkuyorlar.”

Birçok uzman, Deepseek'in 6 milyon dolarının sadece girişimin sistemin son versiyonunu eğitmek için harcadığı şeyi kapsadığını belirtti. Deepseek mühendisleri gazetelerinde, son eğitim çalışmasından önce araştırma ve deneyler için ek fon harcadıklarını söyledi. Bununla birlikte, aynı şey son teknoloji ürünü AI projesi için de geçerlidir.

Deepseek denedi ve ödedi. Çinli girişim yöntemlerini diğer AI araştırmacılarıyla paylaştığından, teknolojik hileleri AI oluşturma maliyetlerini önemli ölçüde azaltmaya hazırdır.
 
Üst