ChatGPT artık görseller de oluşturabiliyor

Teletabi · 23 Eyl 2023

ChatGPT artık görüntüler oluşturabiliyor ve bunlar şaşırtıcı derecede ayrıntılı.

Çarşamba günü, San Francisco’daki yapay zeka girişimi OpenAI, DALL-E görüntü oluşturucusunun yeni bir versiyonunu küçük bir test uzmanı grubuna yayınladı ve teknolojiyi popüler çevrimiçi sohbet robotu ChatGPT’ye entegre etti.

Şirket, DALL-E 3 olarak adlandırılan cihazın, teknolojinin önceki versiyonlarına göre daha inandırıcı görüntüler üretebildiğini ve harf, rakam ve insan eli içeren görüntülere karşı özel bir hassasiyet gösterdiğini söylüyor.

OpenAI araştırmacısı Aditya Ramesh, “Kullanıcının isteklerini anlama ve temsil etme konusunda çok daha iyi” dedi ve teknolojinin İngilizce dilinin daha kesin bir şekilde anlaşılmasını sağlamak için geliştirildiğini ekledi.

OpenAI, DALL-E’nin en son sürümünü ChatGPT’ye ekleyerek, sohbet robotunu kendisi metin, resim, ses, yazılım ve diğer dijital medyaları üretebilen üretken bir yapay zeka merkezi olarak sağlamlaştırıyor. ChatGPT geçen yıl viral hale geldiğinden beri Silikon Vadisi’nin teknoloji devleri arasında yapay zeka ilerlemelerinde ön sıralarda yer almak için bir yarış başlattı.

Salı günü Google, aralarında Gmail, YouTube ve Dokümanlar’ın da bulunduğu şirketin en popüler hizmetlerinden bazılarına bağlanan Bard sohbet robotunun yeni bir sürümünü yayınladı. Diğer iki görüntü oluşturucu olan Midjourney ve Stable Diffusion bu yaz modellerini güncelledi.

OpenAI, uzun zamandır sohbet robotunu Expedia, OpenTable ve Wikipedia gibi diğer çevrimiçi hizmetlere bağlamanın yollarını sunuyor. Ancak start-up ilk kez bir chatbot’u bir görüntü oluşturucuyla birleştiriyor.

DALL-E ve ChatGPT önceden ayrı uygulamalardı. Ancak en son sürümle birlikte kullanıcılar artık ChatGPT’nin hizmetini kullanarak sadece görmek istediklerini anlatarak dijital görüntüler oluşturabilecekler. Veya chatbot tarafından oluşturulan açıklamalara dayalı olarak görseller oluşturarak grafiklerin, çizimlerin ve diğer medyaların oluşturulmasını daha da otomatik hale getirebilirler.

Bu hafta yapılan bir gösteride OpenAI araştırmacısı Gabriel Goh, ChatGPT’nin artık nasıl daha sonra görsel oluşturmak için kullanılacak ayrıntılı metin açıklamaları oluşturabildiğini gösterdi. Örneğin bot, Mountain Ramen adlı bir restoranın logosunun açıklamalarını oluşturduktan sonra, saniyeler içinde bu açıklamalardan birden fazla resim oluşturdu.

Bay Goh, DALL-E’nin yeni versiyonunun çok paragraflı açıklamalardan görüntüler oluşturabildiğini ve en ince ayrıntısına kadar ortaya konan talimatları yakından takip edebildiğini söyledi. Tüm görüntü oluşturucular ve diğer yapay zeka sistemleri gibi bunun da hatalara açık olduğunu söyledi.

OpenAI teknolojiyi geliştirmeye çalışırken, DALL-E 3’ü önümüzdeki aya kadar genel kullanıma sunmayacak. DALL-E 3 daha sonra ayda 20 ABD doları tutarında bir hizmet olan ChatGPT Plus aracılığıyla satışa sunulacak.

Uzmanlar, görüntü oluşturma teknolojilerinin çevrimiçi ortamda büyük miktarda dezenformasyonu yaymak için kullanılabileceği konusunda uyarıyor. Bunu önlemek için OpenAI, cinsel içerikli görseller ve tanınmış kişilerin tasvirleri gibi sorunlu konuların önlenmesi için DALL-E ile 3 aracı entegre etti. Şirket ayrıca DALL-E’nin belirli sanatçıların tarzını taklit etme yeteneğini de sınırlamaya çalışıyor.

Yapay zeka son aylarda görsel yanlış bilgi kaynağı olarak kullanıldı. Diğer şeylerin yanı sıra, Pentagon’daki bariz bir patlamanın sentetik ve çok da karmaşık olmayan bir parodisi, borsanın Mayıs ayında kısa bir süreliğine düşmesine neden oldu. Seçim uzmanları ayrıca teknolojinin büyük seçimlerde kötü niyetli olarak kullanılabileceğinden endişe ediyor.

Güvenlik ve politikaya odaklanan OpenAI araştırmacısı Sandhini Agarwal, DALL-E 3’ün fotogerçekçi olmaktan ziyade stilize edilmiş görüntüler üretme eğiliminde olduğunu söyledi. Yine de modelin, güvenlik kameralarının yakaladığı grenli görüntüler gibi ilgi çekici sahneler üretecek şekilde yapılabileceğini kabul etti.

Çoğunlukla, OpenAI’nin DALL-E 3’teki potansiyel olarak sorunlu içeriği engelleme planı yoktur. Bayan Agarwal, görüntülerin göründükleri bağlama bağlı olarak zararsız veya tehlikeli olabileceğinden böyle bir yaklaşımın “çok geniş” olduğunu söyledi.

“Bu gerçekten nerede kullanıldığına ve insanların bunun hakkında nasıl konuştuğuna bağlı” dedi.

ChatGPT artık görseller de oluşturabiliyor

Teletabi

Administrator