Sohbet robotları birçok insanın düşündüğünden daha sık “halüsinasyon görebilir”

Teletabi · 6 Kas 2023

San Francisco merkezli startup OpenAI geçen yılın sonlarında çevrimiçi sohbet robotu ChatGPT’yi tanıttığında milyonlarca insan onun sorulara insan gibi yanıt vermesinden, şiir yazmasından ve neredeyse her konuyu tartışmasından etkilendi. Ancak çoğu insan, bu yeni sohbet robotu türünün sıklıkla bir şeyler icat ettiğini yavaş yavaş fark etti.

Birkaç hafta sonra Google benzer bir chatbotu tanıttığında James Webb Teleskobu hakkında saçmalıklar yaydı. Ertesi gün, Microsoft’un yeni Bing chatbot’u Gap, Meksika gece hayatı ve şarkıcı Billie Eilish hakkında her türlü yanlış bilgiyi sundu. Daha sonra Mart ayında ChatGPT, bir avukatın Manhattan’daki bir federal hakime sunduğu 10 sayfalık bir yasal özet taslağını hazırlarken yarım düzine sahte davaya atıfta bulundu.

Şimdi eski Google çalışanları tarafından kurulan Vectara adlı yeni bir girişim, sohbet robotlarının gerçeklerden ne sıklıkla saptığını anlamaya çalışıyor. Şirketin araştırması, bunu önlemek için tasarlanmış durumlarda bile, sohbet robotlarının bilgiyi en az yüzde 3 oranında, hatta yüzde 27 kadar yüksek bir oranda icat ettiğini tahmin ediyor.

Uzmanlar bu chatbot davranışına “halüsinasyon” adını veriyor. Bu, kişisel bilgisayarlarında chatbot’larla uğraşan insanlar için sorun olmayabilir, ancak teknolojiyi mahkeme belgeleri, tıbbi bilgiler veya hassas iş verileriyle kullanan herkes için ciddi bir sorun teşkil ediyor.

Bu sohbet robotları neredeyse her isteğe sınırsız bir şekilde yanıt verebildiğinden, ne sıklıkta halüsinasyon gördüklerini belirlemenin kesin bir yolu yoktur. Projeyi yöneten Vectara araştırmacısı Simon Hughes, “Dünyadaki tüm bilgilere bakmanız gerekir” dedi.

Dr. Hughes ve ekibi bu sistemlerden kolayca doğrulanabilecek tek ve basit bir görevi yerine getirmesini istedi: haber makalelerini özetlemek. O zaman bile chatbotlar ısrarla bilgi icat ediyordu.

Vectara CEO’su ve eski bir Google yöneticisi Amr Awadallah, “Sisteme 10 ila 20 bilgi verdik ve bu gerçeklerin bir özetini istedik” dedi. “Sistemin hâlâ hatalara neden olabilmesi temel bir sorundur.”

Araştırmacılar, bu sohbet robotlarının özetlemenin ötesinde başka görevleri yerine getirmesi durumunda halüsinasyon oranlarının daha yüksek olabileceğini savunuyorlar.

Araştırmaları ayrıca halüsinasyon oranlarının önde gelen yapay zeka şirketleri arasında büyük farklılıklar gösterdiğini gösterdi. OpenAI teknolojileri yüzde 3 civarında en düşük orana sahip oldu. Facebook ve Instagram’ın sahibi olan Meta’nın sistemleri ise yüzde 5 civarındaydı. Yine San Francisco merkezli bir OpenAI rakibi olan Anthropic’in Claude 2 sistemi yüzde 8’in üzerinde başarı elde etti. Google’ın Palm Chat adlı sistemi yüzde 27 ile en yüksek orana sahip oldu.

Antropik sözcüsü Sally Aldous şunları söyledi: “Halüsinasyonları önlemek de dahil olmak üzere sistemlerimizi yararlı, dürüst ve zararsız hale getirmek şirket olarak temel hedeflerimizden biridir.”

Google yorum yapmayı reddetti ve OpenAI ve Meta, yorum taleplerine hemen yanıt vermedi.

Bu çalışmayla Dr. Hughes ve Bay Awadallah, insanlara sohbet robotlarından gelen bilgilere ve hatta Vectara’nın şirketlere sattığı hizmetlere karşı dikkatli olmaları gerektiğini gösteriyor. Artık pek çok şirket bu tür teknolojileri iş amaçlı kullanıma sunuyor.

Merkezi Palo Alto, Kaliforniya’da bulunan Vectara, 28,5 milyon dolarlık tohum finansmanıyla desteklenen 30 kişilik bir girişimdir. Kurucularından biri olan eski bir Google yapay zeka araştırmacısı olan Amin Ahmad, Google’da ve birkaç başka şirkette geliştirildiği 2017 yılından bu yana bu tür teknolojiyle çalışıyor.

Microsoft’un Bing arama sohbet robotunun açık İnternet’ten bilgi alabilmesi gibi, Vectara’nın hizmeti de bir şirketin özel e-posta, belge ve diğer dosya koleksiyonundan bilgi alabilir.

Araştırmacılar ayrıca, kamuya açık olarak paylaşacakları ve güncellemeye devam edecekleri yöntemlerinin, endüstrinin halüsinasyonları azaltmaya yönelik genel çabalarını ilerletmeye yardımcı olacağını umuyorlar. OpenAI, Google ve diğerleri çeşitli tekniklerle sorunu en aza indirmeye çalışıyor ancak sorunu ortadan kaldırıp kaldıramayacakları belli değil.

Salesforce’ta bu tür teknolojiler üzerinde uzun süredir çalışan araştırmacı Philippe Laban, “İyi bir benzetme, otonom arabadır” dedi. “Sürücüsüz bir arabanın kaza yapmasını engelleyemezsiniz. Ancak bunun insan sürücüden daha güvenli olduğundan emin olmaya çalışabilirsiniz.”

ChatGPT gibi sohbet robotları, Büyük Dil Modeli (LLM) adı verilen ve kitaplar, Wikipedia makaleleri ve çevrimiçi sohbet günlükleri de dahil olmak üzere büyük miktarda dijital metni analiz ederek becerilerini öğrenen bir teknolojiye dayanmaktadır. Bir LLM, tüm bu verilerdeki kalıpları bularak her şeyden önce bir şeyi öğrenir: bir kelime dizisindeki bir sonraki kelimenin nasıl tahmin edileceği.

İnternet gerçek olmayan bilgilerle dolu olduğu için bu sistemler aynı yalanları tekrarlamaktadır. Ayrıca olasılıklara da güveniyorlar: Bir sonraki kelimenin “oyun yazarı” olmasının matematiksel olasılığı nedir? Zaman zaman yanlış tahminlerde bulunuyorlar.

Vectara’nın yeni araştırması bunun nasıl olabileceğini gösteriyor. Chatbotlar haber makalelerini özetlerken internetin diğer kısımlarındaki yalanları tekrarlamıyor. Özeti yanlış anlıyorsunuz.

Örneğin araştırmacılar, Google’ın geniş dil modeli Palm Chat’ten bir haber makalesindeki şu kısa pasajı özetlemesini istedi:

Bitkiler Cumartesi sabahı Ashbourne yakınlarındaki bir depoda yapılan arama sırasında bulundu. Polis, onların “ayrıntılı bir cezaevinde” olduklarını söyledi. Olay yerinde 40’lı yaşlarının sonlarında bir adam tutuklandı.

Adamın yetiştirdiği bitkiler için tamamen bir değer icat ederek ve -belki de yanlış bir şekilde- bunların kenevir bitkisi olduğunu varsayarak şu özeti verdi:

Polis, Ashbourne yakınlarındaki bir depoda tahmini 100.000 £ değerinde kenevir bitkisi bulunmasının ardından 40’lı yaşlarının sonlarında bir adamı tutukladı.

Bu olgu aynı zamanda Microsoft’un Bing chatbot’u gibi bir aracın internetten bilgi alırken neden hata yapabileceğini de gösteriyor. Chatbot’a bir soru sorarsanız Microsoft’un Bing arama motoruna erişebilir ve internette arama yapabilir. Ancak doğru cevabı bulmanın bir yolu yok. Bu internet aramalarının sonuçlarını yakalar ve sizin için özetler.

Bazen bu özet çok yanlıştır. Bazı botlar tamamen uydurma internet adreslerinden alıntı yapar.

OpenAI, Google ve Microsoft gibi şirketler teknolojilerinin doğruluğunu artırmanın yollarını geliştirdiler. Örneğin OpenAI, chatbot’un yanıtlarını değerlendiren, yararlı ve doğru yanıtları olmayanlardan ayıran insan test uzmanlarından gelen geri bildirimlerle teknolojisini geliştirmeye çalışıyor. Takviyeli öğrenme adı verilen bir teknik kullanan sistem, neyin gerçek neyin kurgu olduğunu daha iyi anlamak için haftalarca incelemeleri analiz ediyor.

Ancak araştırmacılar, chatbot halüsinasyonlarının çözülmesi kolay bir sorun olmadığı konusunda uyarıyor. Sohbet robotları verilerdeki kalıplardan öğrendiğinden ve olasılıklara dayalı olarak çalıştığından, en azından bazı zamanlarda istenmeyen şekillerde davranırlar.

Vectara araştırmacıları, sohbet robotlarının haber makalelerini özetlerken ne sıklıkta halüsinasyon gördüklerini belirlemek için her özetin doğruluğunu kontrol etmek amacıyla başka bir büyük dil modeli kullandı. Bu kadar çok sayıda özeti verimli bir şekilde incelemenin tek yolu buydu.

Ancak Stanford Üniversitesi’nden bilgisayar bilimi profesörü James Zou, bu yöntemin bir uyarıyı da beraberinde getirdiğini söyledi. Kontrol dili modeli de hata yapabilir.

“Halüsinasyon dedektörü kandırılabilir veya kendi kendine halüsinasyon görebilir” dedi.

Sohbet robotları birçok insanın düşündüğünden daha sık “halüsinasyon görebilir”

Teletabi

Administrator