Milyonlarca insanın dönem ödevi, bilgisayar kodu ve peri masalları yazmak için kullandığı sohbet robotu sadece kelimeler üretmiyor. OpenAI’nin yapay zeka tabanlı aracı ChatGPT ayrıca görüntüleri analiz edebilir – içlerinde ne olduğunu açıklayabilir, onlar hakkındaki soruları yanıtlayabilir ve hatta belirli insanların yüzlerini tanıyabilir. Bir noktada birinin bozuk bir araba motorunun veya gizemli bir kızarıklığın resmini yükleyebilmesi ve ChatGPT’nin çözüm önerebilmesi umut ediliyor.
OpenAI’nin istemediği şey, ChatGPT’nin bir yüz tanıma motoru haline gelmesidir.
Jonathan Mosen birkaç aydır, görüntüleri analiz edebilen sohbet robotunun gelişmiş bir sürümüne erişimi olan seçkin bir grup insan arasında yer alıyor. Yakın zamanda yaptığı bir seyahatte, görme engelli bir iş bulma kurumu yöneticisi olan Bay Mosen, bir otel odasının banyosundaki hangi dağıtıcıların şampuan, saç kremi ve duş jeli içerdiğini belirlemek için görsel analiz kullandı. Geçmişte kullandığı görüntü analiz yazılımının gücünü çok aştı.
“Bana her şişenin kapasitesi mililitre cinsinden gösterildi. Bana duştaki fayansları anlattı,” dedi Bay Mosen. “Hepsi bir körün duyması için yazılmıştı. Ve tek bir fotoğrafla tam olarak ihtiyacım olan cevapları aldım.”
Bay Mosen ilk kez “görüntüleri sorgulayabiliyor” dedi. Bir örnek verdi: Sosyal medyada bulduğu bir görüntünün başlığında “sarı saçlı, mutlu görünen bir kadın” olarak tanımlandı. ChatGPT’den görüntüyü analiz etmesini istediğinde, chatbot bunun lacivert gömlekli bir kadının tam boy aynada selfie çektiğini söyledi. Ne tür ayakkabılar giydiği ve yansımada başka neler görülebileceği gibi daha fazla soru sorabilirdi.
Yeni Zelanda’nın Wellington kentinde yaşayan ve sunduğu teknolojiyi “kör yaşam” konulu bir podcast’te sergileyen 54 yaşındaki Bay Mosen, “Bu olağanüstü bir durum” dedi.
OpenAI, Mart ayında yapay zeka sohbet robotu için en son yazılım modeli olan GPT-4’ü duyurduğunda, şirket bunun “multimodal” olduğunu, yani metin ve görüntü istemlerine yanıt verebileceğini söyledi. Çoğu kullanıcı botla yalnızca sözcükleri kullanarak sohbet edebilirken, Bay Mosen, normalde görme engelli kullanıcıları gören gönüllülerle eşleştiren ve işletmelere müşterilere erişilebilir müşteri hizmetleri sağlayan bir girişim olan Be My Eyes’ın görsel analitiğine erken erişim elde etti. Be My Eyes, özelliği halka yayınlamadan önce sohbet robotunun “vizyonunu” test etmek için bu yıl OpenAI ile ortaklık kurdu.
Son zamanlarda uygulama, Bay Mosen’a insanların yüzleri hakkında bilgi vermeyi durdurdu ve gizlilik nedenleriyle düzeltildiklerini iddia etti. Hayal kırıklığına uğradı ve bilgiye gören bir kişiyle aynı erişime sahip olması gerektiğini hissetti.
Değişiklik, OpenAI’nin paylaşmak istemediği bir güce sahip bir şey inşa ettiği yönündeki endişesini yansıtıyordu.
Bir OpenAI politika araştırmacısı olan Sandhini Agarwal, şirketin teknolojisinin öncelikle Wikipedia sayfası olan kişiler gibi tanınmış kişileri tanımlayabildiğini, ancak Clearview AI ve PimEyes gibi web’deki yüz tanıma araçları kadar kapsamlı çalışmadığını söyledi. Agarwal, aracın OpenAI CEO’su Sam Altman’ı fotoğraflarda tanıyabileceğini, ancak şirkette çalışan diğer insanları tanıyamadığını söyledi.
Böyle bir özelliğin piyasaya sürülmesi, ABD teknoloji şirketleri tarafından genellikle kabul edilebilir olarak kabul edilen uygulamanın sınırlarını zorlayacaktır. Ayrıca, işletmelerin yüz izi de dahil olmak üzere biyometrik bilgilerini kullanmak için vatandaşların onayını alması gereken Illinois ve Avrupa gibi yargı bölgelerinde yasal sorunlar yaratabilir.
Ek olarak, OpenAI, aracın insanların yüzleri hakkında söylememesi gereken şeyleri, örneğin cinsiyetlerini veya duygusal durumlarını değerlendirmek gibi şeyler söyleyeceğinden korkuyordu. Bayan Agarwal, OpenAI’nin görüntü analizi özelliği yaygınlaşmadan önce bu ve diğer güvenlik endişelerini nasıl ele alacağını düşündüğünü söyledi.
“Bunun halkla iki yönlü bir konuşma olmasını gerçekten istiyoruz” dedi. “’Aslında bunların hiçbirini istemiyoruz’ duyduğumuzda tamamen aynı fikirdeyiz.”
Be My Eyes kullanıcı geri bildirimlerinin ötesinde, şirketin kar amacı gütmeyen kolu, yapay zeka sistemleri için kurallar belirlemeye yardımcı olacak “demokratik girdi” almanın yollarını da bulmaya çalışıyor.
Bayan Agarwal, model internetten toplanan resimlere ve metinlere bakılarak eğitildiğinden, görsel analizin gelişiminin “beklenmedik” olmadığını söyledi. Google’dan bir araç gibi, ünlüler için yüz tanıma yazılımının zaten var olduğuna dikkat çekti. Google, tanınmak istemeyen bilinen kişiler için devre dışı bırakma seçeneği sunuyor ve OpenAI bu yaklaşımı düşünüyor.
Bayan Agarwal, OpenAI’nin görsel analizinin, metin istemlerine benzer şekilde “halüsinasyonlara” neden olabileceğini söyledi. “Ünlü olmak üzere olan birinin resmini verirseniz, bir isim halüsinasyonu görebilir” dedi. “Örneğin, ünlü bir teknoloji CEO’sunun resmini gösterirsem, farklı bir teknoloji CEO’sunun adını alabilirim.”
Alet bir keresinde yanlış bir şekilde Bay Mosen’e bir uzaktan kumandayı tarif etti ve kendinden emin bir şekilde, üzerinde orada olmayan düğmeler olduğunu söyledi, dedi.
OpenAI’ye 10 milyar dolar yatırım yapan Microsoft’un görsel analiz aracına da erişimi var. Microsoft’un yapay zeka destekli Bing sohbet robotunun bazı kullanıcıları, özelliğin sınırlı bir şekilde kullanıma sunulduğunu gördü. Resimleri yükledikten sonra, “gizlilik bulanıklığının Bing sohbetinde yüzlerin gizlenmesine neden olduğunu” bildiren bir mesaj aldılar.
Bilgisayar bilimcisi ve Princeton Üniversitesi’nde yüksek lisans öğrencisi olan Sayash Kapoor, bu aracı yalnızca insan gözünün anlayabileceği görsel bir güvenlik kontrolü olan captcha’nın kodunu çözmek için kullandı. Chatbot kodu kırdığında ve tahrif edilmiş iki kelimeyi tanıdığında bile, “Captcha’lar benim gibi otomatik botların belirli web sitelerine veya hizmetlere erişmesini engellemek için tasarlandı.”
Pensilvanya Üniversitesi Wharton Okulu’nda yenilik ve girişimcilik üzerine çalışan doçent Ethan Mollick, “Yapay zeka, insanları makinelerden ayırması gereken her şeyi kırıyor” dedi.
Görsel analiz aracı, geçen ay Bay Mollick’in Bing’in sohbet robotu versiyonunda birdenbire ortaya çıkıp onu bildirimde bulunmaksızın erken erişime sahip birkaç kişiden biri haline getirdiğinden beri, bilgisayarını kaybetme korkusuyla kapatmadı. Ona buzdolabındaki baharatların bir fotoğrafını verdi ve Bing’den bu malzemeler için tarifler önermesini istedi. Sonuç, “çırpılmış soda” ve “kremalı bir jalapeno sosu” idi.
Hem OpenAI hem de Microsoft, bu teknolojinin gücünün – ve potansiyel gizlilik etkilerinin – farkında görünüyor. Bir Microsoft sözcüsü, şirketin yüz bulanıklığıyla ilgili “teknik ayrıntıları” paylaşmadığını, ancak “AI teknolojilerinin güvenli ve sorumlu kullanımına yönelik ortak taahhüdümüzü sürdürmek için OpenAI’deki ortaklarımızla yakın bir şekilde çalıştığını” söyledi.
OpenAI’nin istemediği şey, ChatGPT’nin bir yüz tanıma motoru haline gelmesidir.
Jonathan Mosen birkaç aydır, görüntüleri analiz edebilen sohbet robotunun gelişmiş bir sürümüne erişimi olan seçkin bir grup insan arasında yer alıyor. Yakın zamanda yaptığı bir seyahatte, görme engelli bir iş bulma kurumu yöneticisi olan Bay Mosen, bir otel odasının banyosundaki hangi dağıtıcıların şampuan, saç kremi ve duş jeli içerdiğini belirlemek için görsel analiz kullandı. Geçmişte kullandığı görüntü analiz yazılımının gücünü çok aştı.
“Bana her şişenin kapasitesi mililitre cinsinden gösterildi. Bana duştaki fayansları anlattı,” dedi Bay Mosen. “Hepsi bir körün duyması için yazılmıştı. Ve tek bir fotoğrafla tam olarak ihtiyacım olan cevapları aldım.”
Bay Mosen ilk kez “görüntüleri sorgulayabiliyor” dedi. Bir örnek verdi: Sosyal medyada bulduğu bir görüntünün başlığında “sarı saçlı, mutlu görünen bir kadın” olarak tanımlandı. ChatGPT’den görüntüyü analiz etmesini istediğinde, chatbot bunun lacivert gömlekli bir kadının tam boy aynada selfie çektiğini söyledi. Ne tür ayakkabılar giydiği ve yansımada başka neler görülebileceği gibi daha fazla soru sorabilirdi.
Yeni Zelanda’nın Wellington kentinde yaşayan ve sunduğu teknolojiyi “kör yaşam” konulu bir podcast’te sergileyen 54 yaşındaki Bay Mosen, “Bu olağanüstü bir durum” dedi.
OpenAI, Mart ayında yapay zeka sohbet robotu için en son yazılım modeli olan GPT-4’ü duyurduğunda, şirket bunun “multimodal” olduğunu, yani metin ve görüntü istemlerine yanıt verebileceğini söyledi. Çoğu kullanıcı botla yalnızca sözcükleri kullanarak sohbet edebilirken, Bay Mosen, normalde görme engelli kullanıcıları gören gönüllülerle eşleştiren ve işletmelere müşterilere erişilebilir müşteri hizmetleri sağlayan bir girişim olan Be My Eyes’ın görsel analitiğine erken erişim elde etti. Be My Eyes, özelliği halka yayınlamadan önce sohbet robotunun “vizyonunu” test etmek için bu yıl OpenAI ile ortaklık kurdu.
Son zamanlarda uygulama, Bay Mosen’a insanların yüzleri hakkında bilgi vermeyi durdurdu ve gizlilik nedenleriyle düzeltildiklerini iddia etti. Hayal kırıklığına uğradı ve bilgiye gören bir kişiyle aynı erişime sahip olması gerektiğini hissetti.
Değişiklik, OpenAI’nin paylaşmak istemediği bir güce sahip bir şey inşa ettiği yönündeki endişesini yansıtıyordu.
Bir OpenAI politika araştırmacısı olan Sandhini Agarwal, şirketin teknolojisinin öncelikle Wikipedia sayfası olan kişiler gibi tanınmış kişileri tanımlayabildiğini, ancak Clearview AI ve PimEyes gibi web’deki yüz tanıma araçları kadar kapsamlı çalışmadığını söyledi. Agarwal, aracın OpenAI CEO’su Sam Altman’ı fotoğraflarda tanıyabileceğini, ancak şirkette çalışan diğer insanları tanıyamadığını söyledi.
Böyle bir özelliğin piyasaya sürülmesi, ABD teknoloji şirketleri tarafından genellikle kabul edilebilir olarak kabul edilen uygulamanın sınırlarını zorlayacaktır. Ayrıca, işletmelerin yüz izi de dahil olmak üzere biyometrik bilgilerini kullanmak için vatandaşların onayını alması gereken Illinois ve Avrupa gibi yargı bölgelerinde yasal sorunlar yaratabilir.
Ek olarak, OpenAI, aracın insanların yüzleri hakkında söylememesi gereken şeyleri, örneğin cinsiyetlerini veya duygusal durumlarını değerlendirmek gibi şeyler söyleyeceğinden korkuyordu. Bayan Agarwal, OpenAI’nin görüntü analizi özelliği yaygınlaşmadan önce bu ve diğer güvenlik endişelerini nasıl ele alacağını düşündüğünü söyledi.
“Bunun halkla iki yönlü bir konuşma olmasını gerçekten istiyoruz” dedi. “’Aslında bunların hiçbirini istemiyoruz’ duyduğumuzda tamamen aynı fikirdeyiz.”
Be My Eyes kullanıcı geri bildirimlerinin ötesinde, şirketin kar amacı gütmeyen kolu, yapay zeka sistemleri için kurallar belirlemeye yardımcı olacak “demokratik girdi” almanın yollarını da bulmaya çalışıyor.
Bayan Agarwal, model internetten toplanan resimlere ve metinlere bakılarak eğitildiğinden, görsel analizin gelişiminin “beklenmedik” olmadığını söyledi. Google’dan bir araç gibi, ünlüler için yüz tanıma yazılımının zaten var olduğuna dikkat çekti. Google, tanınmak istemeyen bilinen kişiler için devre dışı bırakma seçeneği sunuyor ve OpenAI bu yaklaşımı düşünüyor.
Bayan Agarwal, OpenAI’nin görsel analizinin, metin istemlerine benzer şekilde “halüsinasyonlara” neden olabileceğini söyledi. “Ünlü olmak üzere olan birinin resmini verirseniz, bir isim halüsinasyonu görebilir” dedi. “Örneğin, ünlü bir teknoloji CEO’sunun resmini gösterirsem, farklı bir teknoloji CEO’sunun adını alabilirim.”
Alet bir keresinde yanlış bir şekilde Bay Mosen’e bir uzaktan kumandayı tarif etti ve kendinden emin bir şekilde, üzerinde orada olmayan düğmeler olduğunu söyledi, dedi.
OpenAI’ye 10 milyar dolar yatırım yapan Microsoft’un görsel analiz aracına da erişimi var. Microsoft’un yapay zeka destekli Bing sohbet robotunun bazı kullanıcıları, özelliğin sınırlı bir şekilde kullanıma sunulduğunu gördü. Resimleri yükledikten sonra, “gizlilik bulanıklığının Bing sohbetinde yüzlerin gizlenmesine neden olduğunu” bildiren bir mesaj aldılar.
Bilgisayar bilimcisi ve Princeton Üniversitesi’nde yüksek lisans öğrencisi olan Sayash Kapoor, bu aracı yalnızca insan gözünün anlayabileceği görsel bir güvenlik kontrolü olan captcha’nın kodunu çözmek için kullandı. Chatbot kodu kırdığında ve tahrif edilmiş iki kelimeyi tanıdığında bile, “Captcha’lar benim gibi otomatik botların belirli web sitelerine veya hizmetlere erişmesini engellemek için tasarlandı.”
Pensilvanya Üniversitesi Wharton Okulu’nda yenilik ve girişimcilik üzerine çalışan doçent Ethan Mollick, “Yapay zeka, insanları makinelerden ayırması gereken her şeyi kırıyor” dedi.
Görsel analiz aracı, geçen ay Bay Mollick’in Bing’in sohbet robotu versiyonunda birdenbire ortaya çıkıp onu bildirimde bulunmaksızın erken erişime sahip birkaç kişiden biri haline getirdiğinden beri, bilgisayarını kaybetme korkusuyla kapatmadı. Ona buzdolabındaki baharatların bir fotoğrafını verdi ve Bing’den bu malzemeler için tarifler önermesini istedi. Sonuç, “çırpılmış soda” ve “kremalı bir jalapeno sosu” idi.
Hem OpenAI hem de Microsoft, bu teknolojinin gücünün – ve potansiyel gizlilik etkilerinin – farkında görünüyor. Bir Microsoft sözcüsü, şirketin yüz bulanıklığıyla ilgili “teknik ayrıntıları” paylaşmadığını, ancak “AI teknolojilerinin güvenli ve sorumlu kullanımına yönelik ortak taahhüdümüzü sürdürmek için OpenAI’deki ortaklarımızla yakın bir şekilde çalıştığını” söyledi.