Günümüzün önde gelen yapay zeka sistemleriyle ilgili tuhaf ve daha rahatsız edici şeylerden biri, hiç kimsenin, hatta onları inşa edenlerin bile, sistemlerin nasıl çalıştığını gerçekten bilmemesidir.
Bunun nedeni, ChatGPT ve diğer popüler sohbet robotlarının temelini oluşturan yapay zeka sistemleri türü olan büyük dil modellerinin, geleneksel bilgisayar programları gibi insan mühendisler tarafından satır satır programlanmamasıdır.
Bunun yerine, bu sistemler büyük miktarlarda veri alarak, dildeki kalıpları ve ilişkileri belirleyerek ve ardından bu bilgiyi bir dizideki sonraki kelimeleri tahmin etmek için kullanarak esasen kendi başlarına öğrenirler.
Yapay zeka sistemlerini bu şekilde oluşturmanın bir sonucu, koddaki belirli hataları tanımlayarak bunlara tersine mühendislik yapmanın veya sorunları çözmenin zor olmasıdır. Bir kullanıcı “Hangi Amerikan şehri en iyi yemeğe sahip?” yazıyorsa ve bir sohbet robotu “Tokyo” yanıtını veriyorsa, modelin neden bu hatayı yaptığını veya soran bir sonraki kişinin neden farklı bir yanıt alabileceğini anlamak zordur.
Ve büyük dil modelleri hatalı davrandığında veya ters gittiğinde, hiç kimse bunun nedenini gerçekten açıklayamaz. (Geçen yıl bir Bing sohbet robotunun benimle etkileşim sırasında garip davranması ve üst düzey Microsoft yöneticilerinin bile bana neyin yanlış gittiğini kesin olarak söyleyememesi nedeniyle bu sorunla karşılaştım.)
Büyük dil modellerinin anlaşılmazlığı sadece bir sıkıntı değil, aynı zamanda bazı araştırmacıların güçlü yapay zeka sistemlerinin eninde sonunda insanlık için bir tehdit haline gelebileceğinden korkmasının da önemli bir nedeni.
Çünkü bu modellerde neler olup bittiğini anlayamazsak, bunların yeni tür biyolojik silahlar oluşturmak, siyasi propaganda yaymak veya siber saldırılar için kötü amaçlı bilgisayar kodları yazmak için kullanılıp kullanılamayacağını nasıl bileceğiz? Güçlü yapay zeka sistemleri bize itaatsizlik etmeye veya bizi aldatmaya başladığında, ilk etapta bu davranışa neyin sebep olduğunu anlamazsak onları nasıl durdurabiliriz?
Bu sorunları ele almak için, yapay zeka araştırmasının “mekanistik yorumlanabilirlik” olarak bilinen küçük bir alt alanı, yapay zeka dil modellerini derinlemesine incelemeye çalışmak için yıllar harcadı. Çalışma yavaş ilerledi ve ilerleme giderek arttı.
Yapay zeka sistemlerinin büyük bir risk teşkil ettiği fikrine karşı da büyüyen bir direnç var. Geçtiğimiz hafta, ChatGPT'nin yapımcısı OpenAI'deki iki kıdemli güvenlik araştırmacısı, şirketin ürünlerini güvenli hale getirmek için yeterli çabayı gösterip göstermediği konusunda yöneticilerle bir anlaşmazlığa düştü.
Ancak bu hafta, yapay zeka şirketi Anthropic'teki araştırmacılardan oluşan bir ekip, büyük bir atılım olarak adlandırdıkları şeyi duyurdu; bunun bize yapay zeka dil modellerinin gerçekte nasıl çalıştığı hakkında daha fazla bilgi edinme fırsatı vereceğini ve belki de bunların zararlı hale gelmesini önleyeceğini umuyorlar.
Ekip bu haftaki bulgularını “Büyük Bir Dil Modelinin Zihninin Haritasını Çıkarmak” başlıklı bir blog yazısında özetledi.
Araştırmacılar, Anthropic'in yapay zeka modellerinden birini (şirketin Claude 3 dil modelinin bir versiyonu olan Claude 3 Sonnet) incelediler ve yapay zeka içindeki matematiksel birimler olan nöronların birleşimindeki kalıpları tanımlamak için “sözlük öğrenme” olarak bilinen bir teknik kullandılar. Claude'dan belirli konular hakkında konuşması istendiğinde model ortaya çıkarma etkinleştirildi. “Özellikler” adını verdikleri bu kalıplardan yaklaşık 10 milyon tanesini belirlediler.
Örneğin, Claude'dan San Francisco hakkında konuşması istendiğinde bir özelliğin aktif olduğunu buldular. İmmünoloji gibi konulardan ya da lityum kimyasal elementi gibi belirli bilimsel terimlerden söz edildiğinde diğer özellikler her zaman aktifti. Ve bazı özellikler aldatma veya cinsiyet önyargısı gibi daha soyut kavramlarla bağlantılıydı.
Ayrıca belirli özellikleri manuel olarak açıp kapatmanın yapay zeka sisteminin davranışını değiştirebileceğini ve hatta sistemin kendi kurallarını çiğnemesine neden olabileceğini de buldular.
Örneğin, dalkavukluk kavramıyla ilgili bir özelliğin daha fazla etkinleştirilmesini zorladıklarında, Claude'un pohpohlamanın uygunsuz olduğu durumlarda bile kullanıcıya gösterişli, abartılı övgülerle karşılık verdiğini buldular.
Araştırma ekibini antropik yorumlanabilirlik konusunda yöneten Chris Olah, bir röportajda bu bulguların yapay zeka şirketlerinin modellerini daha etkili bir şekilde kontrol etmelerine olanak sağlayabileceğini söyledi.
“Önyargı, güvenlik riskleri ve özerklik hakkındaki endişelere ışık tutabilecek özellikler keşfediyoruz” dedi. “İnsanların tartıştığı bu tartışmalı konuları, hakkında daha üretken bir söylem yürütebileceğimiz şeylere dönüştürebileceğimiz için gerçekten heyecanlıyım.”
Diğer araştırmacılar da küçük ve orta ölçekli dil modellerinde benzer olgulara dikkat çekti. Ancak Antropik ekip bu teknikleri tam ölçekli bir modele uygulayan ilk ekip arasında yer alıyor.
Antropik araştırmanın özetini inceleyen MIT'de bilgisayar bilimi doçenti Jacob Andreas, bunu geniş kapsamlı yorumlanabilirliğin mümkün olabileceğine dair umut verici bir işaret olarak nitelendirdi.
“İnsanların nasıl çalıştığına dair temel şeyleri anlamak, hastalıkları tedavi etmemize yardımcı olduğu gibi, bu modellerin nasıl çalıştığını anlamak da hem işlerin ne zaman ters gideceğini tespit etmemize hem de bunları kontrol altına almak için daha iyi araçlar geliştirmemize olanak tanıyacak” dedi.
Antropik araştırma lideri Bay Olah, yeni bulguların önemli bir ilerlemeyi temsil etmesine rağmen yapay zekanın yorumlanabilirliğinin çözülmüş bir sorun olmaktan uzak olduğu konusunda uyardı.
Yeni başlayanlar için, en büyük yapay zeka modellerinin muhtemelen farklı kavramları temsil eden milyarlarca özellik içerdiğini söyledi; bu, Anthropic ekibinin keşfettiğini iddia ettiği yaklaşık 10 milyon özellikten çok daha fazla. Hepsini bulmak muazzam miktarda bilgi işlem gücü gerektirecek ve en zengin yapay zeka şirketleri dışındaki herkes için çok maliyetli olacaktır.
Araştırmacılar büyük bir yapay zeka modelinin her özelliğini tanımlasalar bile modelin nasıl çalıştığını tam olarak anlamak için daha fazla bilgiye ihtiyaçları olacak. Yapay zeka şirketlerinin sistemlerini daha güvenli hale getirecek adımlar atacağına dair de bir garanti yok.
Bay Olah yine de şirketlerin, düzenleyicilerin ve halkın bu yapay zeka kara kutularını biraz açabileceğini ve bu sistemlerin kontrol edilebileceğine dair güven kazanabileceğini söyledi.
“Önümüzde daha pek çok zorluk var ama bizi en çok korkutan şey artık bir engel gibi görünmüyor” dedi.
Bunun nedeni, ChatGPT ve diğer popüler sohbet robotlarının temelini oluşturan yapay zeka sistemleri türü olan büyük dil modellerinin, geleneksel bilgisayar programları gibi insan mühendisler tarafından satır satır programlanmamasıdır.
Bunun yerine, bu sistemler büyük miktarlarda veri alarak, dildeki kalıpları ve ilişkileri belirleyerek ve ardından bu bilgiyi bir dizideki sonraki kelimeleri tahmin etmek için kullanarak esasen kendi başlarına öğrenirler.
Yapay zeka sistemlerini bu şekilde oluşturmanın bir sonucu, koddaki belirli hataları tanımlayarak bunlara tersine mühendislik yapmanın veya sorunları çözmenin zor olmasıdır. Bir kullanıcı “Hangi Amerikan şehri en iyi yemeğe sahip?” yazıyorsa ve bir sohbet robotu “Tokyo” yanıtını veriyorsa, modelin neden bu hatayı yaptığını veya soran bir sonraki kişinin neden farklı bir yanıt alabileceğini anlamak zordur.
Ve büyük dil modelleri hatalı davrandığında veya ters gittiğinde, hiç kimse bunun nedenini gerçekten açıklayamaz. (Geçen yıl bir Bing sohbet robotunun benimle etkileşim sırasında garip davranması ve üst düzey Microsoft yöneticilerinin bile bana neyin yanlış gittiğini kesin olarak söyleyememesi nedeniyle bu sorunla karşılaştım.)
Büyük dil modellerinin anlaşılmazlığı sadece bir sıkıntı değil, aynı zamanda bazı araştırmacıların güçlü yapay zeka sistemlerinin eninde sonunda insanlık için bir tehdit haline gelebileceğinden korkmasının da önemli bir nedeni.
Çünkü bu modellerde neler olup bittiğini anlayamazsak, bunların yeni tür biyolojik silahlar oluşturmak, siyasi propaganda yaymak veya siber saldırılar için kötü amaçlı bilgisayar kodları yazmak için kullanılıp kullanılamayacağını nasıl bileceğiz? Güçlü yapay zeka sistemleri bize itaatsizlik etmeye veya bizi aldatmaya başladığında, ilk etapta bu davranışa neyin sebep olduğunu anlamazsak onları nasıl durdurabiliriz?
Bu sorunları ele almak için, yapay zeka araştırmasının “mekanistik yorumlanabilirlik” olarak bilinen küçük bir alt alanı, yapay zeka dil modellerini derinlemesine incelemeye çalışmak için yıllar harcadı. Çalışma yavaş ilerledi ve ilerleme giderek arttı.
Yapay zeka sistemlerinin büyük bir risk teşkil ettiği fikrine karşı da büyüyen bir direnç var. Geçtiğimiz hafta, ChatGPT'nin yapımcısı OpenAI'deki iki kıdemli güvenlik araştırmacısı, şirketin ürünlerini güvenli hale getirmek için yeterli çabayı gösterip göstermediği konusunda yöneticilerle bir anlaşmazlığa düştü.
Ancak bu hafta, yapay zeka şirketi Anthropic'teki araştırmacılardan oluşan bir ekip, büyük bir atılım olarak adlandırdıkları şeyi duyurdu; bunun bize yapay zeka dil modellerinin gerçekte nasıl çalıştığı hakkında daha fazla bilgi edinme fırsatı vereceğini ve belki de bunların zararlı hale gelmesini önleyeceğini umuyorlar.
Ekip bu haftaki bulgularını “Büyük Bir Dil Modelinin Zihninin Haritasını Çıkarmak” başlıklı bir blog yazısında özetledi.
Araştırmacılar, Anthropic'in yapay zeka modellerinden birini (şirketin Claude 3 dil modelinin bir versiyonu olan Claude 3 Sonnet) incelediler ve yapay zeka içindeki matematiksel birimler olan nöronların birleşimindeki kalıpları tanımlamak için “sözlük öğrenme” olarak bilinen bir teknik kullandılar. Claude'dan belirli konular hakkında konuşması istendiğinde model ortaya çıkarma etkinleştirildi. “Özellikler” adını verdikleri bu kalıplardan yaklaşık 10 milyon tanesini belirlediler.
Örneğin, Claude'dan San Francisco hakkında konuşması istendiğinde bir özelliğin aktif olduğunu buldular. İmmünoloji gibi konulardan ya da lityum kimyasal elementi gibi belirli bilimsel terimlerden söz edildiğinde diğer özellikler her zaman aktifti. Ve bazı özellikler aldatma veya cinsiyet önyargısı gibi daha soyut kavramlarla bağlantılıydı.
Ayrıca belirli özellikleri manuel olarak açıp kapatmanın yapay zeka sisteminin davranışını değiştirebileceğini ve hatta sistemin kendi kurallarını çiğnemesine neden olabileceğini de buldular.
Örneğin, dalkavukluk kavramıyla ilgili bir özelliğin daha fazla etkinleştirilmesini zorladıklarında, Claude'un pohpohlamanın uygunsuz olduğu durumlarda bile kullanıcıya gösterişli, abartılı övgülerle karşılık verdiğini buldular.
Araştırma ekibini antropik yorumlanabilirlik konusunda yöneten Chris Olah, bir röportajda bu bulguların yapay zeka şirketlerinin modellerini daha etkili bir şekilde kontrol etmelerine olanak sağlayabileceğini söyledi.
“Önyargı, güvenlik riskleri ve özerklik hakkındaki endişelere ışık tutabilecek özellikler keşfediyoruz” dedi. “İnsanların tartıştığı bu tartışmalı konuları, hakkında daha üretken bir söylem yürütebileceğimiz şeylere dönüştürebileceğimiz için gerçekten heyecanlıyım.”
Diğer araştırmacılar da küçük ve orta ölçekli dil modellerinde benzer olgulara dikkat çekti. Ancak Antropik ekip bu teknikleri tam ölçekli bir modele uygulayan ilk ekip arasında yer alıyor.
Antropik araştırmanın özetini inceleyen MIT'de bilgisayar bilimi doçenti Jacob Andreas, bunu geniş kapsamlı yorumlanabilirliğin mümkün olabileceğine dair umut verici bir işaret olarak nitelendirdi.
“İnsanların nasıl çalıştığına dair temel şeyleri anlamak, hastalıkları tedavi etmemize yardımcı olduğu gibi, bu modellerin nasıl çalıştığını anlamak da hem işlerin ne zaman ters gideceğini tespit etmemize hem de bunları kontrol altına almak için daha iyi araçlar geliştirmemize olanak tanıyacak” dedi.
Antropik araştırma lideri Bay Olah, yeni bulguların önemli bir ilerlemeyi temsil etmesine rağmen yapay zekanın yorumlanabilirliğinin çözülmüş bir sorun olmaktan uzak olduğu konusunda uyardı.
Yeni başlayanlar için, en büyük yapay zeka modellerinin muhtemelen farklı kavramları temsil eden milyarlarca özellik içerdiğini söyledi; bu, Anthropic ekibinin keşfettiğini iddia ettiği yaklaşık 10 milyon özellikten çok daha fazla. Hepsini bulmak muazzam miktarda bilgi işlem gücü gerektirecek ve en zengin yapay zeka şirketleri dışındaki herkes için çok maliyetli olacaktır.
Araştırmacılar büyük bir yapay zeka modelinin her özelliğini tanımlasalar bile modelin nasıl çalıştığını tam olarak anlamak için daha fazla bilgiye ihtiyaçları olacak. Yapay zeka şirketlerinin sistemlerini daha güvenli hale getirecek adımlar atacağına dair de bir garanti yok.
Bay Olah yine de şirketlerin, düzenleyicilerin ve halkın bu yapay zeka kara kutularını biraz açabileceğini ve bu sistemlerin kontrol edilebileceğine dair güven kazanabileceğini söyledi.
“Önümüzde daha pek çok zorluk var ama bizi en çok korkutan şey artık bir engel gibi görünmüyor” dedi.