GPT-4’ün etkileyici ama yine de sorunlu olmasının 10 nedeni

Teletabi · 14 Mar 2023

Sistem uygun şekilde yanıt veriyor gibiydi. Ancak cevap, bir tankın veya arabanın geçmesini de engelleyebilecek olan kapı aralığının yüksekliğini hesaba katmadı.

OpenAI CEO’su Sam Altman, yeni botun “biraz” akıl yürütebileceğini söyledi. Ancak mantıksal düşüncesi birçok durumda bozulur. ChatGPT’nin önceki sürümü, yüksekliğin ve genişliğin önemli olduğunu kabul ettiği için soruyu biraz daha iyi ele aldı.

Standart testleri geçebilir.

OpenAI’ye göre, yeni sistem, 41 eyalet ve bölgede avukatları nitelendiren Tek Tip Baro Sınavında öğrencilerin ilk yüzde 10’u arasında yer alabilir. Şirketin testlerine göre biyoloji, matematik, makroekonomi, psikoloji, istatistik ve tarih alanlarında SAT’ta 1.300 (1.600 üzerinden) ve Lise İleri Düzey Yerleştirme sınavlarında 5 (5 üzerinden) puan alabilmektedir.

Teknolojinin önceki sürümleri, Tek Tip Çubuk Sınavında başarısız oldu ve çoğu Gelişmiş Yerleştirme testinde neredeyse aynı performansı göstermedi.

Geçenlerde bir öğleden sonra, test yeteneklerini göstermek için, Bay Brockman yeni bota dizel kamyon tamir işi yürüten bir adam hakkında paragraf uzunluğunda bir bar sınavı sorusu verdi.

Cevap doğruydu, ancak hukuk diliyle doluydu. Bu yüzden Bay Brockman, robottan cevabı basit bir İngilizce ile meslekten olmayan biri için açıklamasını istedi. O yaptı.

Geleceği tartışmak iyi değil.

Yeni bot zaten olmuş olan şeyleri düşünüyor gibi görünse de, gelecek hakkında hipotezler oluşturması istendiğinde daha az ustaydı. Yeni varsayımlar yapmaktansa, başkalarının söylediklerini temel alıyor gibiydi.

Dr olarak Etzioni, ChatGPT gibi sistemlerin gelişimini yönlendiren doğal dil işleme araştırmasının türüne atıfta bulunarak, yeni robota “Önümüzdeki on yıl içinde NLP araştırmalarında çözülmesi gereken önemli sorunlar nelerdir?” diye sordu, tamamen yeni fikirler formüle edemedi. .

Ve hala halüsinasyon görüyor.

Yeni bot hala bir şeyler yapıyor. “Halüsinasyon” olarak adlandırılan sorun, önde gelen tüm sohbet robotlarını rahatsız ediyor. Sistemler neyin doğru neyin yanlış olduğunu bilmediği için tamamen yanlış olan metinler üretebilirler.

En son kanser araştırmalarını açıklayan web sitelerinin adresleri sorulduğunda, bazen var olmayan internet adresleri oluşturuldu.

GPT-4’ün etkileyici ama yine de sorunlu olmasının 10 nedeni

Teletabi

Administrator