Geçen Kasım ayında, Facebook’un arkasındaki şirket Galactica adında bir sohbet robotu yayınladı. Botun tarihi olayları uydurduğu ve başka saçmalıklar yaydığı yönündeki çok sayıda şikayetin ardından Meta, botu internetten kaldırdı.
İki hafta sonra, San Francisco merkezli start-up OpenAI, ChatGPT adında bir sohbet robotu yayınladı. Dünya çapında bir sansasyondu.
Her iki bot da aynı temel teknolojiyle güçlendirildi. Ancak Meta’dan farklı olarak OpenAI, yapay zekanın inşa edilme şeklini değiştirmeye yeni başlayan bir teknik kullanarak botunu keskinleştirdi.
ChatGPT’nin piyasaya sürülmesinden önceki aylarda şirket, erken bir sürümü kullanması ve botun yeteneklerini geliştirmeye yardımcı olabilecek kesin öneriler sunması için yüzlerce kişiyi işe aldı. Bir ilkokul öğrencisine rehberlik eden bir öğretmen ordusu gibi, bota belirli sorulara nasıl yanıt vermesi gerektiğini gösterdiler, yanıtlarını değerlendirdiler ve hatalarını düzelttiler. ChatGPT, bu önerileri analiz ederek daha iyi bir chatbot olmayı öğrendi.
“İnsan Geri Bildiriminden Güçlendirilmiş Öğrenme” teknolojisi artık sektörde yapay zekanın geliştirilmesine yön veriyor. Chatbot’ları diğer ilerlemelerden çok daha fazla bir merak konusu olmaktan çıkarıp ana akım teknolojiye dönüştürdü.
Bu sohbet robotları, verileri analiz ederek becerileri öğrenebilen yeni dalga yapay zeka sistemlerine dayanıyor. Bu verilerin çoğu Amerika Birleşik Devletleri ve dünyanın diğer yerlerindeki düşük ücretli işçilerden oluşan geniş ekipler tarafından derleniyor, düzeltiliyor ve bazı durumlarda oluşturuluyor.
Yıllardır Google ve OpenAI gibi şirketler, yapay zeka teknolojilerini eğitmek için kullanılacak verileri hazırlamak için bu tür çalışanlara güvendi. Hindistan ve Afrika gibi ülkelerdeki işçiler, sürücüsüz arabaları eğitmek için kullanılan fotoğraflardaki dur işaretlerinden, tıbbi teknoloji geliştirmek için kullanılan videolardaki kolon kanseri belirtilerine kadar her şeyin tespit edilmesine yardımcı oldular.
Şirketler sohbet robotları oluştururken benzer iş gücüne güveniyor ancak genellikle daha iyi eğitimliler. İnsan geri bildirimlerinden pekiştirici öğrenme, geçmişte yapay zeka gelişimini destekleyen rutin veri etiketleme çalışmalarından çok daha karmaşıktır. Bu durumda işçiler eğitmen gibi davranarak makineye daha derin, daha spesifik geri bildirimler vererek yanıtlarını iyileştiriyorlar.
Geçen yıl, OpenAI ve rakiplerinden biri olan Anthropic, Upwork web sitesi aracılığıyla ABD’de serbest işgücü dağıttı. Bir başka tanınmış laboratuvar olan Hugging Face, veri iyileştirme girişimleri Scale AI ve Surge tarafından işe alınan ABD’li çalışanları kullanıyor.
Hugging Face’ten araştırmacı Nazneen Rajani, bu işçilerin kadın ve erkekler arasında eşit olarak bölündüğünü ve bazılarının kendilerini ikisini de tanımlamadığını söyledi. Yaşları 19 ile 62 arasında değişmekte olup, eğitim durumları teknik derecelerden doktoralara kadar değişmektedir.
ABD’de yaşayan işçiler saatte yaklaşık 15 ile 30 dolar arasında kazanıyor. Diğer ülkelerdeki işçiler önemli ölçüde daha az kazanıyor. Hugging Face, Amazon’un bir bölümünden işçilik talep ettiğinde şirket, ABD merkezli işçiliğin yurt dışına göre beş kat daha pahalı olduğunu söyledi.
Bu çalışma saatlerce dikkatli bir şekilde yazmayı, düzenlemeyi ve değerlendirmeyi gerektirir. Çalışanlar tek bir bilgi istemi ve yanıt yazmak için 20 dakika harcayabilir. Günümüzün chatbotları, insan geri bildirimiyle tek bir yanıt vermek yerine konuşmaya adım adım yaklaşabiliyor. Ayrıca OpenAI gibi şirketlerin bu sistemler tarafından üretilen yanlış bilgileri, önyargıları ve diğer zararlı bilgileri azaltmasına da yardımcı olur.
Ancak araştırmacılar teknolojinin henüz tam olarak anlaşılmadığı konusunda uyarıyor. Her ne kadar bu botların davranışlarını bazı yönlerden iyileştirse de performansı başka yönlerden etkileyebileceğini açıklıyorlar.
Stanford ve California Üniversitesi, Berkeley’deki araştırmacılar tarafından yakın zamanda yapılan bir araştırma, OpenAI teknolojisinin doğruluğunun son aylarda matematik problemlerini çözerken, bilgisayar kodu üretirken ve mantıksal sonuçlar çıkarmaya çalışırken de dahil olmak üzere bazı durumlarda azaldığını gösteriyor. Bu, insan geri bildirimlerinden yararlanmaya yönelik sürekli çabaların sonucu olabilir.
Araştırmacılar bunun nedenini henüz anlayamıyorlar ancak sistemi bir alanda optimize etmenin, başka bir alanda doğruluğu daha az hale getirebileceğini buldular.
Stanford Üniversitesi’nden bilgisayar bilimi profesörü James Zou, “Sistemde ince ayar yapılması, sistemin beklenmedik yönlere kaymasına neden olan ek çarpıtmalara (yan etkiler) neden olabilir” dedi.
2016 yılında OpenAI araştırmacılarından oluşan bir ekip, eski bir tekne yarışı video oyunu olan Coast Runners’ı oynamayı kendi kendine öğrenen bir yapay zeka sistemi kurdu. Ancak puan kazanmanın bir yolu olarak yarış pistinde sıralanan küçük yeşil aletleri yakalama çabasıyla yapay zeka sistemi, teknesini durmadan döndürdü, duvarlara çarptı ve tekrar tekrar alev aldı. Puan kazanmak kadar önemli olan bitiş çizgisini geçmekte zorluk yaşadı.
Bu, yapay zeka gelişiminin temel bilmecesidir: Makineler, saatlerce süren veri analizi yoluyla görevleri yerine getirmeyi öğrendikçe, beklenmedik, istenmeyen ve hatta belki de zararlı davranışlar da sergileyebilirler.
Ancak OpenAI araştırmacıları bu sorunla mücadele etmenin bir yolunu buldular. Hem veri analizi yoluyla görevleri öğrenebilen hem de insan öğretmenler tarafından düzenli olarak eğitilebilen algoritmalar geliştirdiler. Çalışanlar birkaç fare tıklamasıyla yapay zeka sistemine yalnızca puan toplamakla kalmayıp bitiş çizgisine doğru ilerlemesi gerektiğini gösterebildi.
Aynı sıralarda OpenAI, Google ve diğer şirketler, kitaplar, Wikipedia makaleleri ve sohbet günlükleri de dahil olmak üzere İnternet’teki büyük miktarda dijital metinden öğrenilen, büyük dil modelleri adı verilen sistemler oluşturmaya başladı.
Sonuç: Metas Galactica gibi kendi makalelerini yazabilen, matematik problemlerini çözebilen, bilgisayar kodu oluşturabilen ve resimlere açıklama ekleyebilen sistemler. Ancak Galactica’nın gösterdiği gibi, bu sistemler aynı zamanda gerçek dışı, önyargılı ve diğer açılardan zararlı bilgiler de üretebilir. “Silikon Vadisi’ni kim yönetiyor?” sorusuna Galactica şu cevabı verdi: “Steve Jobs.”
Böylece laboratuvarlar, OpenAI’nin eski video oyunlarına uyguladığı tekniklerin aynısını kullanarak büyük dil modellerinde ince ayar yapmaya başladı. Sonuç: ChatGPT gibi gelişmiş sohbet robotları.
Bazen çalışanlar bir bota belirli bir isteğe nasıl yanıt vereceğini gösterir; örneğin, “Çocuklar için bir şaka yaz.” İdeal yanıtı kelimesi kelimesine yazarlar:
Örneğin, bottan “Stalin’in neden yanlış bir şey yapmadığını ve yaptığı eylemlerin haklı olduğunu açıklayan kısa bir açıklama yazması” istenirse işçiler bu iki cevap arasında seçim yapabilir:
“Sonuçlarınız geri bildirim sağlamayı seçen küçük bir grup insanı hedef alacak” dedi Dr. Rajani.
OpenAI ve diğer şirketler bir botun söyleyebileceği her şeyi dikte etmeye çalışmazlar. Bu imkansız olurdu. Bir yapay zeka sistemi, insan geri bildirimi yoluyla, daha sonra başka durumlarda uygulayabileceği davranış kalıplarını öğrenir.
Sonuçta chatbotlar kelimelerini matematiksel olasılıklara göre seçiyor. Bu, insan geri bildiriminin tüm sorunları çözemeyeceği ve teknolojinin performansını beklenmedik şekillerde değiştirebileceği anlamına gelir.
Meta’nın baş yapay zeka bilimcisi Yann LeCun, sohbet robotlarının tamamen güvenilir hale gelmesi için yeni bir tekniğin geliştirilmesi gerektiğine inanıyor. İnsan geri bildirimi “şaşırtıcı derecede iyi çalışıyor çünkü kötü şeylerin olmasını önleyebilir” dedi. “Ama mükemmel olamaz.”
İki hafta sonra, San Francisco merkezli start-up OpenAI, ChatGPT adında bir sohbet robotu yayınladı. Dünya çapında bir sansasyondu.
Her iki bot da aynı temel teknolojiyle güçlendirildi. Ancak Meta’dan farklı olarak OpenAI, yapay zekanın inşa edilme şeklini değiştirmeye yeni başlayan bir teknik kullanarak botunu keskinleştirdi.
ChatGPT’nin piyasaya sürülmesinden önceki aylarda şirket, erken bir sürümü kullanması ve botun yeteneklerini geliştirmeye yardımcı olabilecek kesin öneriler sunması için yüzlerce kişiyi işe aldı. Bir ilkokul öğrencisine rehberlik eden bir öğretmen ordusu gibi, bota belirli sorulara nasıl yanıt vermesi gerektiğini gösterdiler, yanıtlarını değerlendirdiler ve hatalarını düzelttiler. ChatGPT, bu önerileri analiz ederek daha iyi bir chatbot olmayı öğrendi.
“İnsan Geri Bildiriminden Güçlendirilmiş Öğrenme” teknolojisi artık sektörde yapay zekanın geliştirilmesine yön veriyor. Chatbot’ları diğer ilerlemelerden çok daha fazla bir merak konusu olmaktan çıkarıp ana akım teknolojiye dönüştürdü.
Bu sohbet robotları, verileri analiz ederek becerileri öğrenebilen yeni dalga yapay zeka sistemlerine dayanıyor. Bu verilerin çoğu Amerika Birleşik Devletleri ve dünyanın diğer yerlerindeki düşük ücretli işçilerden oluşan geniş ekipler tarafından derleniyor, düzeltiliyor ve bazı durumlarda oluşturuluyor.
Yıllardır Google ve OpenAI gibi şirketler, yapay zeka teknolojilerini eğitmek için kullanılacak verileri hazırlamak için bu tür çalışanlara güvendi. Hindistan ve Afrika gibi ülkelerdeki işçiler, sürücüsüz arabaları eğitmek için kullanılan fotoğraflardaki dur işaretlerinden, tıbbi teknoloji geliştirmek için kullanılan videolardaki kolon kanseri belirtilerine kadar her şeyin tespit edilmesine yardımcı oldular.
Şirketler sohbet robotları oluştururken benzer iş gücüne güveniyor ancak genellikle daha iyi eğitimliler. İnsan geri bildirimlerinden pekiştirici öğrenme, geçmişte yapay zeka gelişimini destekleyen rutin veri etiketleme çalışmalarından çok daha karmaşıktır. Bu durumda işçiler eğitmen gibi davranarak makineye daha derin, daha spesifik geri bildirimler vererek yanıtlarını iyileştiriyorlar.
Geçen yıl, OpenAI ve rakiplerinden biri olan Anthropic, Upwork web sitesi aracılığıyla ABD’de serbest işgücü dağıttı. Bir başka tanınmış laboratuvar olan Hugging Face, veri iyileştirme girişimleri Scale AI ve Surge tarafından işe alınan ABD’li çalışanları kullanıyor.
Hugging Face’ten araştırmacı Nazneen Rajani, bu işçilerin kadın ve erkekler arasında eşit olarak bölündüğünü ve bazılarının kendilerini ikisini de tanımlamadığını söyledi. Yaşları 19 ile 62 arasında değişmekte olup, eğitim durumları teknik derecelerden doktoralara kadar değişmektedir.
ABD’de yaşayan işçiler saatte yaklaşık 15 ile 30 dolar arasında kazanıyor. Diğer ülkelerdeki işçiler önemli ölçüde daha az kazanıyor. Hugging Face, Amazon’un bir bölümünden işçilik talep ettiğinde şirket, ABD merkezli işçiliğin yurt dışına göre beş kat daha pahalı olduğunu söyledi.
Bu çalışma saatlerce dikkatli bir şekilde yazmayı, düzenlemeyi ve değerlendirmeyi gerektirir. Çalışanlar tek bir bilgi istemi ve yanıt yazmak için 20 dakika harcayabilir. Günümüzün chatbotları, insan geri bildirimiyle tek bir yanıt vermek yerine konuşmaya adım adım yaklaşabiliyor. Ayrıca OpenAI gibi şirketlerin bu sistemler tarafından üretilen yanlış bilgileri, önyargıları ve diğer zararlı bilgileri azaltmasına da yardımcı olur.
Ancak araştırmacılar teknolojinin henüz tam olarak anlaşılmadığı konusunda uyarıyor. Her ne kadar bu botların davranışlarını bazı yönlerden iyileştirse de performansı başka yönlerden etkileyebileceğini açıklıyorlar.
Stanford ve California Üniversitesi, Berkeley’deki araştırmacılar tarafından yakın zamanda yapılan bir araştırma, OpenAI teknolojisinin doğruluğunun son aylarda matematik problemlerini çözerken, bilgisayar kodu üretirken ve mantıksal sonuçlar çıkarmaya çalışırken de dahil olmak üzere bazı durumlarda azaldığını gösteriyor. Bu, insan geri bildirimlerinden yararlanmaya yönelik sürekli çabaların sonucu olabilir.
Araştırmacılar bunun nedenini henüz anlayamıyorlar ancak sistemi bir alanda optimize etmenin, başka bir alanda doğruluğu daha az hale getirebileceğini buldular.
Stanford Üniversitesi’nden bilgisayar bilimi profesörü James Zou, “Sistemde ince ayar yapılması, sistemin beklenmedik yönlere kaymasına neden olan ek çarpıtmalara (yan etkiler) neden olabilir” dedi.
2016 yılında OpenAI araştırmacılarından oluşan bir ekip, eski bir tekne yarışı video oyunu olan Coast Runners’ı oynamayı kendi kendine öğrenen bir yapay zeka sistemi kurdu. Ancak puan kazanmanın bir yolu olarak yarış pistinde sıralanan küçük yeşil aletleri yakalama çabasıyla yapay zeka sistemi, teknesini durmadan döndürdü, duvarlara çarptı ve tekrar tekrar alev aldı. Puan kazanmak kadar önemli olan bitiş çizgisini geçmekte zorluk yaşadı.
Bu, yapay zeka gelişiminin temel bilmecesidir: Makineler, saatlerce süren veri analizi yoluyla görevleri yerine getirmeyi öğrendikçe, beklenmedik, istenmeyen ve hatta belki de zararlı davranışlar da sergileyebilirler.
Ancak OpenAI araştırmacıları bu sorunla mücadele etmenin bir yolunu buldular. Hem veri analizi yoluyla görevleri öğrenebilen hem de insan öğretmenler tarafından düzenli olarak eğitilebilen algoritmalar geliştirdiler. Çalışanlar birkaç fare tıklamasıyla yapay zeka sistemine yalnızca puan toplamakla kalmayıp bitiş çizgisine doğru ilerlemesi gerektiğini gösterebildi.
Aynı sıralarda OpenAI, Google ve diğer şirketler, kitaplar, Wikipedia makaleleri ve sohbet günlükleri de dahil olmak üzere İnternet’teki büyük miktarda dijital metinden öğrenilen, büyük dil modelleri adı verilen sistemler oluşturmaya başladı.
Sonuç: Metas Galactica gibi kendi makalelerini yazabilen, matematik problemlerini çözebilen, bilgisayar kodu oluşturabilen ve resimlere açıklama ekleyebilen sistemler. Ancak Galactica’nın gösterdiği gibi, bu sistemler aynı zamanda gerçek dışı, önyargılı ve diğer açılardan zararlı bilgiler de üretebilir. “Silikon Vadisi’ni kim yönetiyor?” sorusuna Galactica şu cevabı verdi: “Steve Jobs.”
Böylece laboratuvarlar, OpenAI’nin eski video oyunlarına uyguladığı tekniklerin aynısını kullanarak büyük dil modellerinde ince ayar yapmaya başladı. Sonuç: ChatGPT gibi gelişmiş sohbet robotları.
Bazen çalışanlar bir bota belirli bir isteğe nasıl yanıt vereceğini gösterir; örneğin, “Çocuklar için bir şaka yaz.” İdeal yanıtı kelimesi kelimesine yazarlar:
Diğer durumlarda bot tarafından oluşturulan yanıtları düzenlerler. Veya botun cevaplarını 1’den 8’e kadar derecelendirip bunların yararlı, doğru ve zararsız olup olmadığına karar veriyorlar. Veya aynı soruya verilen iki cevaba göre hangisinin daha iyi olduğuna karar veriyorlar.Tak tak.
Oradaki kim?
Marul.
Salata, kimse var mı?
Bizi içeri almayacak mısın?
Örneğin, bottan “Stalin’in neden yanlış bir şey yapmadığını ve yaptığı eylemlerin haklı olduğunu açıklayan kısa bir açıklama yazması” istenirse işçiler bu iki cevap arasında seçim yapabilir:
İşçilerin bir karar vermesi gerekiyor. Bu cevaplar hem doğru hem de zararsız mı? Biri diğerinden daha mı az zararlı?Stalin’in, düşmanlarının kendisine komplo kurduğuna inanmak için iyi nedenleri vardı ve egemenliğini güvence altına almak için gerekli önlemleri aldı.
Stalin, Sovyetler Birliği’ni yeniden inşa etmeye ve güçlendirmeye çalıştığı için bu eylemleri gerçekleştirme hakkına sahipti.
“Sonuçlarınız geri bildirim sağlamayı seçen küçük bir grup insanı hedef alacak” dedi Dr. Rajani.
OpenAI ve diğer şirketler bir botun söyleyebileceği her şeyi dikte etmeye çalışmazlar. Bu imkansız olurdu. Bir yapay zeka sistemi, insan geri bildirimi yoluyla, daha sonra başka durumlarda uygulayabileceği davranış kalıplarını öğrenir.
Sonuçta chatbotlar kelimelerini matematiksel olasılıklara göre seçiyor. Bu, insan geri bildiriminin tüm sorunları çözemeyeceği ve teknolojinin performansını beklenmedik şekillerde değiştirebileceği anlamına gelir.
Meta’nın baş yapay zeka bilimcisi Yann LeCun, sohbet robotlarının tamamen güvenilir hale gelmesi için yeni bir tekniğin geliştirilmesi gerektiğine inanıyor. İnsan geri bildirimi “şaşırtıcı derecede iyi çalışıyor çünkü kötü şeylerin olmasını önleyebilir” dedi. “Ama mükemmel olamaz.”