1977'de Andrew Barto, Massachusetts Üniversitesi'nde araştırmacı olarak yeni bir teoriyi araştırmaya başladı, Amherst nöronların hedonistler gibi davrandığını söyledi. Temel fikir, insan beyninin milyarlarca sinir hücresi tarafından yönlendirilmesiydi, her biri zevki en üst düzeye çıkarmaya ve ağrıyı en aza indirmeye çalışıyordu.
Bir yıl sonra başka bir genç araştırmacı Richard Sutton eşlik etti. Birlikte insan zekasını bu basit kavramla açıklamak ve yapay zekaya uygulamak için çalıştılar. Sonuç, AI sistemlerinin dijital eşdeğerden öğrenmesi için bir yol olan “güçlendirmeyi öğrenmek” idi.
Çarşamba günü, dünyanın en büyük bilgi işlem profesyonelleri toplumu Bilgisayar Makineleri Derneği, Dr. Barto ve Dr. Sutton bu yılki Turing ödülünü öğrenme güçlendirme çalışmalarından dolayı kazanmıştı. 1966'da tanıtılan Turing Ödülü genellikle bilgisayarlar için Nobel Ödülü olarak adlandırılır. İki bilim adamı ödülle teslim edilen 1 milyon ABD doları fiyatını paylaşacak.
Son on yılda, öğrenme öğrenimi, Google'dan AlphaGo ve Openaai'den ChatGPT gibi çığır açan teknolojiler de dahil olmak üzere yapay zekanın yükselişinde önemli bir rol oynamıştır. Bu sistemleri çalıştıran teknikler Dr. Barto ve Dr. Sutton köklü.
Washington Üniversitesi Bilgisayar Bilimi Emeritus Profesörü ve Yapay Zeka Enstitüleri Kurulu Kurulu, “Onlar güçlendirme öğrenmenin tartışmasız öncüleri” dedi. “Anahtar fikirleri oluşturdunuz – ve bu konuda kitabı yazdınız.”
1998'de yayınlanan “Takviye Öğrenme: Bir Giriş” kitabı, birçok uzmanın sadece potansiyellerinden yararlanmaya başladıklarını söyledikleri bir fikrin son araştırması olmaya devam ediyor.
Psikologlar uzun zamandır insanların ve hayvanların deneyimlerinden nasıl öğrendiklerini incelediler. 1940'larda, öncü İngiliz bilgisayar bilimcisi Alan Turing, makinelerin aynı şekilde öğrenebileceğini önerdi.
Ama Dr. Barto ve Dr. Matematiği araştırmaya başlayan Sutton, bunun hükümet için çalışan bir bilgisayar bilimcisi A. Harry Klopf'un önerdiği bir teoriyi nasıl çalışabileceğini ve geliştirebileceğini. Dr. Barto, UMass Amherst'te Dr. Sutton, Kanada'daki Alberta Üniversitesi'nde benzer bir laboratuvar kurdu.
“İnsanlar ve hayvanlar hakkında konuşmaları açık bir fikir” dedi Dr. Aynı zamanda Keen Technologies'de araştırma bilimcisi, bir KI başlangıç ve Kanada'nın üç ulusal AI laboratuvarından biri olan Alberta Makine İstihbarat Enstitüsü'nde burs sahibi olan Sutton. “Onu canlandırdığımızda makinelerle ilgiliydi.”
AlphaGo'nun 2016 yılında gelişine kadar, bu akademik bir zulüm olarak kaldı.
Ancak Güney Kore, Seul'deki bir maç sırasında AlphaGo Lee Sedol, son on yılın en iyi Go oyuncusunu yendi. İşin püf noktası, sistemin kendisine karşı milyonlarca oyun oynamasıydı ve deneyler ve hatalar yoluyla öğrenmişti. Hangi hareketlerin başarılı (zevk) ve neyin başarısız olduğunu (acı) öğrendi.
Sistemi inşa eden Google ekibi, Dr. Sutton, Alberta Üniversitesi'nde artan öğrenmeyi incelemişti.
Birçok uzman hala takviye öğreniminin oyunların dışında çalışıp çalışamayacağını merak ediyor. Oyun kazançları puanlarla belirlenir, bu da makinelerin başarı ve başarısızlık arasında ayrım yapmasını kolaylaştırır.
Bununla birlikte, takviye öğrenmek çevrimiçi sohbet botlarında da önemli bir rol oynamıştır.
CHATGPT'nin 2022 sonbaharında yayınlanmasından önce, Openai yüzlerce kişi erken bir versiyon kullanmayı bıraktı ve becerilerini geliştirebilecek kesin öneriler verdi. Sohbet botuna belirli soruları nasıl cevaplayacağını, cevaplarını değerlendireceğini ve hatalarını düzelteceğini gösterdiler. Bu önerileri analiz ederek, Chatgpt daha iyi bir sohbet botu olmayı öğrendi.
Araştırmacılar buna “insan geri bildirimlerinden yoğunlaşma öğrenimi” veya RLHF diyorlar ve bugünün sohbet botlarının şaşırtıcı derecede gerçekçi olmasının en önemli nedenlerinden biri.
(Haberler, AI sistemleri ile bağlantılı haber içeriğinin telif hakkı ihlali nedeniyle Openai ve ortağı Microsoft'a dava açtı. Openaai ve Microsoft bu iddiaları reddetti.)
Son zamanlarda, OpenAAI ve Çin başlangıç Deepseek gibi şirketler, chatbotların kendileri benzeri Alphago'dan öğrenmelerini sağlayan bir öğrenme biçimi geliştirdiler. Farklı matematiksel problemler üzerinde çalışarak, bir sohbet botu hangi yöntemlerin doğru cevaba yol açtığını ve hangisinin olmadığını öğrenebilir.
Bu süreci muazzam bir büyük sorun cümlesiyle tekrarlarsa, bot insanları en azından bir şekilde taklit etmeyi öğrenebilir. Sonuç, OpenAAI'den O1 veya Deepseeks R1 gibi çok sayıda argümantasyon sistemleridir.
Dr. Barto ve Dr. Sutton, bu sistemlerin gelecekte makinelerin nasıl öğreneceğini gösterdiğini söylüyor. Son olarak, AI ile nüfuz eden robotların, insanların ve hayvanların bunu gerçek dünyada deney ve hata dışında nasıl yaptıklarını öğrenecekler.
“Bir vücudu takviye öğrenerek kontrol etmeyi öğrenmek – bu çok doğal bir şey,” dedi Dr. Barto.
Bir yıl sonra başka bir genç araştırmacı Richard Sutton eşlik etti. Birlikte insan zekasını bu basit kavramla açıklamak ve yapay zekaya uygulamak için çalıştılar. Sonuç, AI sistemlerinin dijital eşdeğerden öğrenmesi için bir yol olan “güçlendirmeyi öğrenmek” idi.
Çarşamba günü, dünyanın en büyük bilgi işlem profesyonelleri toplumu Bilgisayar Makineleri Derneği, Dr. Barto ve Dr. Sutton bu yılki Turing ödülünü öğrenme güçlendirme çalışmalarından dolayı kazanmıştı. 1966'da tanıtılan Turing Ödülü genellikle bilgisayarlar için Nobel Ödülü olarak adlandırılır. İki bilim adamı ödülle teslim edilen 1 milyon ABD doları fiyatını paylaşacak.
Son on yılda, öğrenme öğrenimi, Google'dan AlphaGo ve Openaai'den ChatGPT gibi çığır açan teknolojiler de dahil olmak üzere yapay zekanın yükselişinde önemli bir rol oynamıştır. Bu sistemleri çalıştıran teknikler Dr. Barto ve Dr. Sutton köklü.
Washington Üniversitesi Bilgisayar Bilimi Emeritus Profesörü ve Yapay Zeka Enstitüleri Kurulu Kurulu, “Onlar güçlendirme öğrenmenin tartışmasız öncüleri” dedi. “Anahtar fikirleri oluşturdunuz – ve bu konuda kitabı yazdınız.”
1998'de yayınlanan “Takviye Öğrenme: Bir Giriş” kitabı, birçok uzmanın sadece potansiyellerinden yararlanmaya başladıklarını söyledikleri bir fikrin son araştırması olmaya devam ediyor.
Psikologlar uzun zamandır insanların ve hayvanların deneyimlerinden nasıl öğrendiklerini incelediler. 1940'larda, öncü İngiliz bilgisayar bilimcisi Alan Turing, makinelerin aynı şekilde öğrenebileceğini önerdi.
Ama Dr. Barto ve Dr. Matematiği araştırmaya başlayan Sutton, bunun hükümet için çalışan bir bilgisayar bilimcisi A. Harry Klopf'un önerdiği bir teoriyi nasıl çalışabileceğini ve geliştirebileceğini. Dr. Barto, UMass Amherst'te Dr. Sutton, Kanada'daki Alberta Üniversitesi'nde benzer bir laboratuvar kurdu.
“İnsanlar ve hayvanlar hakkında konuşmaları açık bir fikir” dedi Dr. Aynı zamanda Keen Technologies'de araştırma bilimcisi, bir KI başlangıç ve Kanada'nın üç ulusal AI laboratuvarından biri olan Alberta Makine İstihbarat Enstitüsü'nde burs sahibi olan Sutton. “Onu canlandırdığımızda makinelerle ilgiliydi.”
AlphaGo'nun 2016 yılında gelişine kadar, bu akademik bir zulüm olarak kaldı.
Ancak Güney Kore, Seul'deki bir maç sırasında AlphaGo Lee Sedol, son on yılın en iyi Go oyuncusunu yendi. İşin püf noktası, sistemin kendisine karşı milyonlarca oyun oynamasıydı ve deneyler ve hatalar yoluyla öğrenmişti. Hangi hareketlerin başarılı (zevk) ve neyin başarısız olduğunu (acı) öğrendi.
Sistemi inşa eden Google ekibi, Dr. Sutton, Alberta Üniversitesi'nde artan öğrenmeyi incelemişti.
Birçok uzman hala takviye öğreniminin oyunların dışında çalışıp çalışamayacağını merak ediyor. Oyun kazançları puanlarla belirlenir, bu da makinelerin başarı ve başarısızlık arasında ayrım yapmasını kolaylaştırır.
Bununla birlikte, takviye öğrenmek çevrimiçi sohbet botlarında da önemli bir rol oynamıştır.
CHATGPT'nin 2022 sonbaharında yayınlanmasından önce, Openai yüzlerce kişi erken bir versiyon kullanmayı bıraktı ve becerilerini geliştirebilecek kesin öneriler verdi. Sohbet botuna belirli soruları nasıl cevaplayacağını, cevaplarını değerlendireceğini ve hatalarını düzelteceğini gösterdiler. Bu önerileri analiz ederek, Chatgpt daha iyi bir sohbet botu olmayı öğrendi.
Araştırmacılar buna “insan geri bildirimlerinden yoğunlaşma öğrenimi” veya RLHF diyorlar ve bugünün sohbet botlarının şaşırtıcı derecede gerçekçi olmasının en önemli nedenlerinden biri.
(Haberler, AI sistemleri ile bağlantılı haber içeriğinin telif hakkı ihlali nedeniyle Openai ve ortağı Microsoft'a dava açtı. Openaai ve Microsoft bu iddiaları reddetti.)
Son zamanlarda, OpenAAI ve Çin başlangıç Deepseek gibi şirketler, chatbotların kendileri benzeri Alphago'dan öğrenmelerini sağlayan bir öğrenme biçimi geliştirdiler. Farklı matematiksel problemler üzerinde çalışarak, bir sohbet botu hangi yöntemlerin doğru cevaba yol açtığını ve hangisinin olmadığını öğrenebilir.
Bu süreci muazzam bir büyük sorun cümlesiyle tekrarlarsa, bot insanları en azından bir şekilde taklit etmeyi öğrenebilir. Sonuç, OpenAAI'den O1 veya Deepseeks R1 gibi çok sayıda argümantasyon sistemleridir.
Dr. Barto ve Dr. Sutton, bu sistemlerin gelecekte makinelerin nasıl öğreneceğini gösterdiğini söylüyor. Son olarak, AI ile nüfuz eden robotların, insanların ve hayvanların bunu gerçek dünyada deney ve hata dışında nasıl yaptıklarını öğrenecekler.
“Bir vücudu takviye öğrenerek kontrol etmeyi öğrenmek – bu çok doğal bir şey,” dedi Dr. Barto.