OpenAI dinleyen, bakan ve konuşan yeni ChatGPT'yi tanıtıyor

Teletabi · 14 May 2024

Apple ve Google sesli asistanlarını chatbotlara dönüştürürken OpenAI de chatbotunu sesli asistana dönüştürüyor.

Pazartesi günü, San Francisco'daki yapay zeka girişimi, sesli komutları, görüntüleri ve videoları alabilen ve bunlara yanıt verebilen ChatGPT sohbet robotunun yeni bir versiyonunu tanıttı.

Şirket, GPT-4o adı verilen yapay zeka sistemini temel alan yeni uygulamanın ses, görüntü ve video arasında teknolojinin önceki sürümlerinden çok daha hızlı bir şekilde denge kurduğunu söyledi. Uygulama Pazartesi gününden itibaren hem akıllı telefonlarda hem de masaüstü bilgisayarlarda ücretsiz olarak kullanıma sunulacak.

Şirketin baş teknoloji sorumlusu Mira Murati, “Bizim ve makineler arasındaki etkileşimin geleceğine bakıyoruz” dedi.

Yeni uygulama, ChatGPT gibi sohbet robotlarını Google Asistan ve Apple'ın Siri'si gibi sesli asistanlarla birleştirmeye yönelik daha geniş bir çabanın parçası. Google, Gemini sohbet robotunu Google Asistan ile birleştirirken, Apple da Siri'nin daha konuşkan yeni bir sürümünü hazırlıyor.

OpenAI, teknolojiyi “önümüzdeki haftalarda” yavaş yavaş kullanıcılarla paylaşacağını söyledi. Bu, ChatGPT'nin masaüstü uygulaması olarak ilk kez sunulmasıdır.

Şirket daha önce benzer teknolojileri çeşitli ücretsiz ve ücretli ürünlerde sunmuştu. Artık bunları tüm ürünlerinde kullanılabilen tek bir sistemde birleştirdi.

Çevrimiçi olarak yayınlanan bir etkinlik sırasında Bayan Murati ve meslektaşları, sesli komutlara yanıt veren, bir kağıt parçasına yazılan matematik problemlerini analiz etmek için canlı bir video akışı kullanan ve kendiliğinden yazılan eğlenceli hikayeleri okuyan yeni uygulamayı gösterdiler.

Yeni uygulama video oluşturamıyor. Ancak bir videonun ayrı ayrı karelerini temsil eden hareketsiz görüntüler oluşturulabilir.

2022'nin sonunda ChatGPT'nin piyasaya sürülmesiyle OpenAI, makinelerin istekleri daha çok insanlar gibi işleyebildiğini gösterdi. Konuşma metni yönlendirmelerine yanıt olarak soruları yanıtlayabilir, dönem ödevleri yazabilir ve hatta bilgisayar kodu oluşturabilir.

ChatGPT bir dizi kurala dayanmıyordu. Becerilerini, Wikipedia makaleleri, kitaplar ve sohbet kayıtları da dahil olmak üzere internetteki muazzam miktardaki metni analiz ederek öğrendi. Uzmanlar, teknolojiyi Google gibi arama motorlarına ve Siri gibi sesli asistanlara olası bir alternatif olarak memnuniyetle karşıladılar.

Teknolojinin daha yeni versiyonları da seslerden, görüntülerden ve videolardan ders aldı. Araştırmacılar buna “çok modlu yapay zeka” adını veriyor. Temel olarak OpenAI gibi şirketler, sohbet robotlarını yapay zeka görüntü, ses ve video oluşturucularıyla birleştirmeye başladı.

(Haberler, Aralık ayında OpenAI ve ortağı Microsoft'a, AI sistemleriyle ilgili haber içeriğinin telif hakkı ihlali nedeniyle dava açtı.)

Şirketler chatbotları sesli asistanlarla birleştirdikçe birçok engel varlığını sürdürüyor. Chatbotlar becerilerini internet verilerinden öğrendikleri için hata yapmaya eğilimlidirler. Bazen bilgiyi tamamen uydururlar; bu, yapay zeka araştırmacılarının “halüsinasyon” dediği bir olgudur. Bu eksiklikler sesli asistanlara da yansıyor.

Sohbet robotları ikna edici bir dil üretebilse de, toplantı planlamak veya uçuş rezervasyonu yapmak gibi eylemleri gerçekleştirme konusunda daha az beceriklidirler. Ancak OpenAI gibi şirketler, onları bu tür görevleri güvenilir bir şekilde tamamlayabilecek “Yapay Zeka aracılarına” dönüştürmeye çalışıyor.

OpenAI daha önce sesli komutları kabul edebilen ve sesle yanıt verebilen bir ChatGPT sürümü sunmuştu. Ancak bu, üç farklı yapay zeka teknolojisinin bir karışımıydı: Biri konuşmayı metne dönüştürüyordu, diğeri metin yanıtı üretiyordu ve diğeri de bu metni sentezlenmiş bir sese dönüştürüyordu.

Yeni uygulama, metinleri, sesleri ve görüntüleri kabul edip oluşturabilen tek bir yapay zeka teknolojisine (GPT-4o) dayanıyor. Bayan Murati, bunun, teknolojinin daha verimli olduğu ve şirketin bunu kullanıcılara ücretsiz olarak sunabileceği anlamına geldiğini söyledi.

Bayan Murati, The Times'a verdiği röportajda “Eskiden üç modelin birlikte çalışmasının sonucu olan bir gecikme yaşanıyordu” dedi. “Bizim sahip olduğumuz deneyime, bu çok doğal diyaloğu yaşayabileceğimiz bir yere sahip olmak istiyorlar.”

OpenAI dinleyen, bakan ve konuşan yeni ChatGPT'yi tanıtıyor

Teletabi

Administrator