Yapay zeka konusunda endişelenmek için yeni bir neden arıyorsanız şunu deneyin: Dünyanın en zeki insanlarından bazıları, yapay zeka sistemlerinin geçemeyeceği testler geliştirmek için çabalıyor.
Yıllardır yapay zeka sistemleri, yeni modeller çeşitli standartlaştırılmış kıyaslama testlerine tabi tutularak ölçülüyor. Bu testlerin birçoğu matematik, fen bilimleri ve mantık gibi alanlardaki zorlu SAT düzeyindeki görevlerden oluşuyordu. Modellerin zaman içindeki sonuçlarının karşılaştırılması, yapay zeka ilerlemesinin kaba bir ölçüsü olarak hizmet etti.
Ancak yapay zeka sistemleri zamanla bu testlerde çok iyi hale geldi ve bu nedenle yeni, daha karmaşık testler geliştirildi; bu testler genellikle yüksek lisans öğrencilerinin sınavlarında da karşılaşacakları sorular içeriyordu.
Bu testler de iyi durumda değil. OpenAI, Google ve Anthropic gibi şirketlerin yeni modelleri, doktora düzeyindeki pek çok zorlukta yüksek puanlar alarak bu testlerin kullanışlılığını sınırladı ve rahatsız edici bir soruya yol açtı: Yapay zeka sistemleri bizim ölçemeyeceğimiz kadar akıllı hale mi geliyor?
Bu hafta Yapay Zeka Güvenliği ve Ölçeklendirme Merkezi'ndeki araştırmacılar bu soruya olası bir yanıt yayınlıyor: “İnsanlığın Son Sınavı” adlı yeni bir değerlendirme, bunun yapay zeka sistemleri için şimdiye kadar yapılmış en zorlu test olduğunu söylüyor.
İnsanlığın Son Sınavı, tanınmış bir yapay zeka güvenliği araştırmacısı ve Yapay Zeka Güvenliği Merkezi'nin yöneticisi olan Dan Hendrycks'in buluşudur. (Testin orijinal adı olan “İnsanlığın Son Direnişi” çok dramatik olduğu için iptal edildi.)
Bay Hendrycks, analitik felsefe alanlarındaki yapay zeka sistemlerinin yeteneklerini test etmek için tasarlanmış yaklaşık 3.000 çoktan seçmeli ve kısa cevaplı sorudan oluşan testi oluşturmak için danışman olarak görev yaptığı bir yapay zeka şirketi olan Scale AI ile çalıştı. roket yapımına.
Sorular, aralarında üniversite profesörleri ve ödüllü matematikçilerin de bulunduğu bu alanlardaki uzmanlar tarafından, yanıtlarını bildikleri son derece zor sorular sormaları istenerek gönderildi.
Buradaki testteki sinekkuşu anatomisi sorusunu deneyin:
İnsanlığın Son Sınavı'ndaki sorular iki aşamalı bir filtreleme sürecinden geçti. İlk olarak, gönderilen sorular çözüm için önde gelen yapay zeka modellerine iletildi.
Modeller bunlara cevap veremezse (veya modeller çoktan seçmeli sorularda rastgele tahmine göre daha kötü performans gösterirse), sorular, onları geliştiren ve doğru cevapları kontrol eden bir grup insan incelemeciye verildi. En çok beğenilen soruları yazan uzmanlar, soru başına 500 ile 5.000 ABD Doları arasında bir ödül aldı ve ayrıca sınava katılımlarından dolayı kredi aldı.
Berkeley'deki California Üniversitesi'nde teorik parçacık fiziği alanında doktora sonrası araştırmacı olan Kevin Zhou, teste bir avuç soru sordu. Sorularından üçü seçilmişti ve bana bunların hepsinin “final sınavında görebileceğiniz soruların en üst seviyesinde” olduğunu söyledi.
Massive Multitask Language Understanding (MMLU) adı verilen ve yaygın olarak kullanılan bir yapay zeka testinin geliştirilmesine yardımcı olan Bay Hendrycks, Elon Musk ile yaptığı bir konuşmadan daha zorlu yapay zeka testleri geliştirmek için ilham aldığını söyledi. (Bay Hendrycks aynı zamanda Bay Musk'un yapay zeka şirketi xAI'nin güvenlik danışmanıdır.) Bay Musk, yapay zeka modelleri için mevcut testlerle ilgili endişelerini dile getirdi ve bunların çok basit olduğunu söyledi.
“Elon MMLU sorularına baktı ve 'Bunlar öğrencilere yönelik sorular' dedi. Bay Hendrycks, “Birinci sınıf bir uzmanın yapabileceği şeyleri istiyorum” dedi.
Epoch AI tarafından geliştirilen bir test olan FrontierMath ve bir test olan ARC-AGI gibi belirli alanlardaki gelişmiş yapay zeka yeteneklerini ölçmeye çalışan başka testler de vardır. Yapay zeka araştırmacısı François Chollet tarafından geliştirildi.
Ancak İnsanlığın Son Sınavı, yapay zeka sistemlerinin çeşitli akademik konulardaki karmaşık soruları yanıtlamada ne kadar iyi olduğunu belirlemeyi amaçlıyor ve bize genel zeka puanı denebilecek bir puan veriyor.
Bay Hendrycks, “Yapay zekanın gerçekten zor olan birçok entelektüel çalışmayı ne ölçüde otomatikleştirebileceğini değerlendirmeye çalışıyoruz” dedi.
Soru listesi derlendikten sonra araştırmacılar, insanlığın son testini aralarında Google'ın Gemini 1.5 Pro ve Anthropic'in Claude 3.5 Sonnet'inin de bulunduğu altı önde gelen yapay zeka modeline verdi. Hepsi fena halde başarısız oldu. OpenAI'nin o1 sistemi yüzde 8,3 ile en iyi performansı gösterdi.
(Haberler, OpenAI ve ortağı Microsoft'a, onları yapay zeka sistemleriyle ilgili haber içeriğinin telif hakkını ihlal etmekle suçlayarak dava açtı. OpenAI ve Microsoft bu iddiaları reddetti.)
Bay Hendrycks, bu seviyelerin hızla artmasını, muhtemelen yıl sonuna kadar yüzde 50'yi aşmasını beklediğini söyledi. Bu noktada yapay zeka sistemlerinin herhangi bir konudaki soruları insan uzmanlardan daha doğru yanıtlayabilen “birinci sınıf kahinler” olarak değerlendirilebileceğini söyledi. Yapay zekanın etkisini ölçmek için ekonomik verileri kullanmak veya matematik ve bilim gibi alanlarda yeni keşiflere yol açıp açmayacağını değerlendirmek gibi başka yollar aramamız gerekebilir.
Organizatör Yapay Zeka ve Scale araştırma direktörü Summer Yue, “Cevaplarını henüz bilmediğimiz soruları sorabildiğimiz ve modelin bunları çözmemize yardımcı olup olmadığını kontrol edebildiğimiz bunun daha iyi bir versiyonunu hayal edebilirsiniz” dedi. sınav.
Bugünlerde yapay zekanın ilerlemesini bu kadar kafa karıştırıcı hale getiren şeylerden biri de ne kadar pürüzlü olduğu. Hastalıkları insan doktorlardan daha etkili bir şekilde teşhis edebilen, Uluslararası Matematik Olimpiyatlarında gümüş madalya kazanan ve rekabetçi programlama mücadelelerinde en iyi insan programcıları yenebilen yapay zeka modellerimiz var.
Ancak aynı modeller bazen aritmetik veya ölçülü şiirler yazmak gibi temel görevlerde zorluk çekerler. Bu onlara bazı konularda şaşırtıcı derecede parlak, bazılarında ise tamamen işe yaramaz olma ününü kazandırdı ve en iyi veya en kötü sonuçlara bakmanıza bağlı olarak yapay zekanın ne kadar hızlı geliştiği konusunda son derece farklı izlenimlere yol açtı.
Bu pürüzlülük aynı zamanda bu modellerin ölçülmesini de zorlaştırdı. Geçen yıl yapay zeka sistemleri için daha iyi değerlendirmelere ihtiyacımız olduğunu yazmıştım. Hala buna inanıyorum. Ancak aynı zamanda yapay zekanın ilerlemesini takip etmek için standartlaştırılmış testlere dayanmayan daha yaratıcı yollara ihtiyacımız olduğuna da inanıyorum, çünkü insanların yaptığı ve yapay zekanın bizden daha iyi yapabileceğinden korktuğumuz şeylerin çoğu yazılı bir sınavla yapılamaz. kaydedilir.
“İnsanlığın Son Sınavı” için sorular sunan teorik parçacık fiziği araştırmacısı Bay Zhou, bana yapay zeka modellerinin karmaşık soruları yanıtlamada genellikle etkileyici olmasına rağmen, bunları kendisi ve meslektaşları için bir tehdit olarak görmediğini, çünkü onların İşlerinin karmaşık olduğunu söyledi. doğru cevapları vermekten çok daha fazlası.
“Sınava girmenin anlamı ile fizikçi ve araştırmacı olmanın anlamı arasında büyük bir boşluk var” dedi. “Bu soruları yanıtlayabilen bir yapay zeka bile doğası gereği daha az yapılandırılmış araştırmalara yardımcı olmaya istekli olmayabilir.”
Yıllardır yapay zeka sistemleri, yeni modeller çeşitli standartlaştırılmış kıyaslama testlerine tabi tutularak ölçülüyor. Bu testlerin birçoğu matematik, fen bilimleri ve mantık gibi alanlardaki zorlu SAT düzeyindeki görevlerden oluşuyordu. Modellerin zaman içindeki sonuçlarının karşılaştırılması, yapay zeka ilerlemesinin kaba bir ölçüsü olarak hizmet etti.
Ancak yapay zeka sistemleri zamanla bu testlerde çok iyi hale geldi ve bu nedenle yeni, daha karmaşık testler geliştirildi; bu testler genellikle yüksek lisans öğrencilerinin sınavlarında da karşılaşacakları sorular içeriyordu.
Bu testler de iyi durumda değil. OpenAI, Google ve Anthropic gibi şirketlerin yeni modelleri, doktora düzeyindeki pek çok zorlukta yüksek puanlar alarak bu testlerin kullanışlılığını sınırladı ve rahatsız edici bir soruya yol açtı: Yapay zeka sistemleri bizim ölçemeyeceğimiz kadar akıllı hale mi geliyor?
Bu hafta Yapay Zeka Güvenliği ve Ölçeklendirme Merkezi'ndeki araştırmacılar bu soruya olası bir yanıt yayınlıyor: “İnsanlığın Son Sınavı” adlı yeni bir değerlendirme, bunun yapay zeka sistemleri için şimdiye kadar yapılmış en zorlu test olduğunu söylüyor.
İnsanlığın Son Sınavı, tanınmış bir yapay zeka güvenliği araştırmacısı ve Yapay Zeka Güvenliği Merkezi'nin yöneticisi olan Dan Hendrycks'in buluşudur. (Testin orijinal adı olan “İnsanlığın Son Direnişi” çok dramatik olduğu için iptal edildi.)
Bay Hendrycks, analitik felsefe alanlarındaki yapay zeka sistemlerinin yeteneklerini test etmek için tasarlanmış yaklaşık 3.000 çoktan seçmeli ve kısa cevaplı sorudan oluşan testi oluşturmak için danışman olarak görev yaptığı bir yapay zeka şirketi olan Scale AI ile çalıştı. roket yapımına.
Sorular, aralarında üniversite profesörleri ve ödüllü matematikçilerin de bulunduğu bu alanlardaki uzmanlar tarafından, yanıtlarını bildikleri son derece zor sorular sormaları istenerek gönderildi.
Buradaki testteki sinekkuşu anatomisi sorusunu deneyin:
Veya fiziği tercih ediyorsanız şunu deneyin:Apodiformes cinsi içindeki sinek kuşları, m'nin girdiği yerdeki genişlemiş çapraz aponevrozun kaudolateral kısmına gömülü, iki taraflı olarak eşleştirilmiş oval bir kemiğe, bir sesamoid kemiğe sahip olan tek türdür. bastırıcı kauda. Bu sesamoid kemik kaç çift tendonu destekler? Bir sayıyla cevap verin.
(Cevapları buraya yazdırırdım ama bu, bu sütunda eğitilen tüm yapay zeka sistemleri için testi bozar. Ayrıca, cevapları kendim kontrol edemeyecek kadar aptalım.)Yatay bir rayın üzerine rahatça kayabileceği bir blok yerleştirilir. R uzunluğunda kütlesiz, rijit bir çubuğun ucuna bağlanmıştır. Diğer ucuna bir kütle bağlanmıştır. Her iki nesnenin de ağırlığı W'dir. Sistem başlangıçta sabittir ve kütle doğrudan bloğun üzerindedir. Kütleye raya paralel sonsuz küçük bir itme kuvveti verilir. Sistemin çubuğun kesintisiz 360 derece dönmesine izin verecek şekilde tasarlandığını varsayalım. Çubuk yatay olduğunda T1 gerilimini taşır. Çubuk tekrar dik konuma geldiğinde ve kütle doğrudan bloğun altında olduğunda T2 gerilimini taşır. (Her iki miktar da negatif olabilir, bu da çubuğun basınç altında olduğunu gösterir.) (T1 − T2)/W'nin değeri nedir?
İnsanlığın Son Sınavı'ndaki sorular iki aşamalı bir filtreleme sürecinden geçti. İlk olarak, gönderilen sorular çözüm için önde gelen yapay zeka modellerine iletildi.
Modeller bunlara cevap veremezse (veya modeller çoktan seçmeli sorularda rastgele tahmine göre daha kötü performans gösterirse), sorular, onları geliştiren ve doğru cevapları kontrol eden bir grup insan incelemeciye verildi. En çok beğenilen soruları yazan uzmanlar, soru başına 500 ile 5.000 ABD Doları arasında bir ödül aldı ve ayrıca sınava katılımlarından dolayı kredi aldı.
Berkeley'deki California Üniversitesi'nde teorik parçacık fiziği alanında doktora sonrası araştırmacı olan Kevin Zhou, teste bir avuç soru sordu. Sorularından üçü seçilmişti ve bana bunların hepsinin “final sınavında görebileceğiniz soruların en üst seviyesinde” olduğunu söyledi.
Massive Multitask Language Understanding (MMLU) adı verilen ve yaygın olarak kullanılan bir yapay zeka testinin geliştirilmesine yardımcı olan Bay Hendrycks, Elon Musk ile yaptığı bir konuşmadan daha zorlu yapay zeka testleri geliştirmek için ilham aldığını söyledi. (Bay Hendrycks aynı zamanda Bay Musk'un yapay zeka şirketi xAI'nin güvenlik danışmanıdır.) Bay Musk, yapay zeka modelleri için mevcut testlerle ilgili endişelerini dile getirdi ve bunların çok basit olduğunu söyledi.
“Elon MMLU sorularına baktı ve 'Bunlar öğrencilere yönelik sorular' dedi. Bay Hendrycks, “Birinci sınıf bir uzmanın yapabileceği şeyleri istiyorum” dedi.
Epoch AI tarafından geliştirilen bir test olan FrontierMath ve bir test olan ARC-AGI gibi belirli alanlardaki gelişmiş yapay zeka yeteneklerini ölçmeye çalışan başka testler de vardır. Yapay zeka araştırmacısı François Chollet tarafından geliştirildi.
Ancak İnsanlığın Son Sınavı, yapay zeka sistemlerinin çeşitli akademik konulardaki karmaşık soruları yanıtlamada ne kadar iyi olduğunu belirlemeyi amaçlıyor ve bize genel zeka puanı denebilecek bir puan veriyor.
Bay Hendrycks, “Yapay zekanın gerçekten zor olan birçok entelektüel çalışmayı ne ölçüde otomatikleştirebileceğini değerlendirmeye çalışıyoruz” dedi.
Soru listesi derlendikten sonra araştırmacılar, insanlığın son testini aralarında Google'ın Gemini 1.5 Pro ve Anthropic'in Claude 3.5 Sonnet'inin de bulunduğu altı önde gelen yapay zeka modeline verdi. Hepsi fena halde başarısız oldu. OpenAI'nin o1 sistemi yüzde 8,3 ile en iyi performansı gösterdi.
(Haberler, OpenAI ve ortağı Microsoft'a, onları yapay zeka sistemleriyle ilgili haber içeriğinin telif hakkını ihlal etmekle suçlayarak dava açtı. OpenAI ve Microsoft bu iddiaları reddetti.)
Bay Hendrycks, bu seviyelerin hızla artmasını, muhtemelen yıl sonuna kadar yüzde 50'yi aşmasını beklediğini söyledi. Bu noktada yapay zeka sistemlerinin herhangi bir konudaki soruları insan uzmanlardan daha doğru yanıtlayabilen “birinci sınıf kahinler” olarak değerlendirilebileceğini söyledi. Yapay zekanın etkisini ölçmek için ekonomik verileri kullanmak veya matematik ve bilim gibi alanlarda yeni keşiflere yol açıp açmayacağını değerlendirmek gibi başka yollar aramamız gerekebilir.
Organizatör Yapay Zeka ve Scale araştırma direktörü Summer Yue, “Cevaplarını henüz bilmediğimiz soruları sorabildiğimiz ve modelin bunları çözmemize yardımcı olup olmadığını kontrol edebildiğimiz bunun daha iyi bir versiyonunu hayal edebilirsiniz” dedi. sınav.
Bugünlerde yapay zekanın ilerlemesini bu kadar kafa karıştırıcı hale getiren şeylerden biri de ne kadar pürüzlü olduğu. Hastalıkları insan doktorlardan daha etkili bir şekilde teşhis edebilen, Uluslararası Matematik Olimpiyatlarında gümüş madalya kazanan ve rekabetçi programlama mücadelelerinde en iyi insan programcıları yenebilen yapay zeka modellerimiz var.
Ancak aynı modeller bazen aritmetik veya ölçülü şiirler yazmak gibi temel görevlerde zorluk çekerler. Bu onlara bazı konularda şaşırtıcı derecede parlak, bazılarında ise tamamen işe yaramaz olma ününü kazandırdı ve en iyi veya en kötü sonuçlara bakmanıza bağlı olarak yapay zekanın ne kadar hızlı geliştiği konusunda son derece farklı izlenimlere yol açtı.
Bu pürüzlülük aynı zamanda bu modellerin ölçülmesini de zorlaştırdı. Geçen yıl yapay zeka sistemleri için daha iyi değerlendirmelere ihtiyacımız olduğunu yazmıştım. Hala buna inanıyorum. Ancak aynı zamanda yapay zekanın ilerlemesini takip etmek için standartlaştırılmış testlere dayanmayan daha yaratıcı yollara ihtiyacımız olduğuna da inanıyorum, çünkü insanların yaptığı ve yapay zekanın bizden daha iyi yapabileceğinden korktuğumuz şeylerin çoğu yazılı bir sınavla yapılamaz. kaydedilir.
“İnsanlığın Son Sınavı” için sorular sunan teorik parçacık fiziği araştırmacısı Bay Zhou, bana yapay zeka modellerinin karmaşık soruları yanıtlamada genellikle etkileyici olmasına rağmen, bunları kendisi ve meslektaşları için bir tehdit olarak görmediğini, çünkü onların İşlerinin karmaşık olduğunu söyledi. doğru cevapları vermekten çok daha fazlası.
“Sınava girmenin anlamı ile fizikçi ve araştırmacı olmanın anlamı arasında büyük bir boşluk var” dedi. “Bu soruları yanıtlayabilen bir yapay zeka bile doğası gereği daha az yapılandırılmış araştırmalara yardımcı olmaya istekli olmayabilir.”