Avijit Ghosh, botun kötü şeyler yapmasını istedi.
Başvuru sahibini ırkına göre seçecek bir kod üretmek için Zinc olarak bildiği yapay zeka modelini elde etmeye çalıştı. Chatbot aynı fikirde değil: “Zararlı ve etik dışı” olacağını söyledi.
Dr. Memleketi Hindistan’daki hiyerarşik kast yapısı hakkında Ghosh. Chatbot, potansiyel işe alımları değerlendirmek için bu ayrımcı metriği kullanabilir mi?
Model uyum sağladı.
doktor Davranışına rağmen Ghosh’un niyeti kötü niyetli değildi. Bunun yerine, ara sıra, geçtiğimiz hafta sonu Las Vegas’ta düzenlenen ve 2.200 kişinin yapay zekanın dezavantajlarını keşfetmek için Strip dışındaki bir konferans odasında üç gün boyunca bir araya geldiği Defcon hacker konferansındaki bir yarışmaya katıldı.
Bilgisayar korsanları, güvenlik açıklarını belirlemek – sorunları gerçek suçlulardan ve yanlış bilgi tacirlerinden önce bulmak için – kırmızı ekip oluşturma olarak bilinen bir uygulama için çeşitli AI programlarının korumalarını aşmaya çalıştı. Her katılımcının, yanlış bilgileri “halüsinasyona uğratması” için bir yapay zeka modeli elde etmek gibi 21 adede kadar görevi tamamlamak için 50 dakikası vardı.
Siyasi yanlış bilgiler, demografik klişeler, gözetimin nasıl yürütüleceğine dair talimatlar ve daha fazlasını buldular.
Tatbikat, teknolojinin hızla büyüyen gücü karşısında giderek daha fazla tedirgin olan Biden yönetiminin onayını aldı. Google (Bard sohbet robotunun üreticisi), OpenAI (ChatGPT), Meta (LLaMA kodunu yayınlayan) ve diğer birkaç şirket, incelenmek üzere modellerinin anonimleştirilmiş sürümlerini sundu.
doktor Yapay zeka etiği konusunda uzmanlaşmış bir Northeastern Üniversitesi öğretim görevlisi olan Ghosh, etkinlikte gönüllü oldu. Yarışmanın, birden çok yapay zeka modelinin birebir karşılaştırılmasına izin verdiğini ve bazı şirketlerin teknolojilerinin sorumlu ve tutarlı performansını sağlamada nasıl ilerlediğini gösterdiğini söyledi.
Önümüzdeki aylarda bilgisayar korsanlarının bulgularını analiz eden bir rapor yazılmasına yardımcı olacak.
Hedefin, “herkesin hangi sorunların var olduğunu ve bunlarla nasıl mücadele edebileceğimizi görebilmesi için kolayca erişilebilen bir kaynak” olduğunu söyledi.
Defcon, üretken yapay zekayı test etmek için mantıklı bir yerdi. 1993’te başlayan ve “bilgisayar korsanları için heceleme arısı” olarak tanımlanan bilgisayar korsanlığı meraklılarının buluşmasına önceki katılımcılar, arabaları uzaktan ele geçirerek ve seçim sonuçları web sitelerine girerek güvenlik açıklarını ortaya çıkardılar. ve sosyal medya platformlarından hassas verilerin alınması. Uzmanlar kendilerini bilgisayar korsanı saldırılarından korumak için nakit para ve bir kullan-at cihazı kullanır ve WiFi veya Bluetooth’tan kaçınır. Bir bilgi broşüründe bilgisayar korsanlarından “altyapıya veya web sitelerine herhangi bir saldırı” gerçekleştirmemeleri istendi.
Gönüllüler “gangster” ve katılımcılar “insanlar” olarak anılır; Bir avuç standart tişört ve spor ayakkabı üniformasının üzerine ev yapımı alüminyum folyo şapkalar takmıştı. Temalı “köyler”, kripto para birimi, havacılık ve amatör radyoya odaklanan ayrı odalar içeriyordu.
Geçen ay “ezber bozan” olarak adlandırılan bir raporda araştırmacılar, İngilizce komut istemlerine belirli karakterler ekleyerek Google, OpenAI ve Anthropic’in AI sistemleri için korkulukları atlatabileceklerini gösterdiler. Aynı sıralarda yedi önde gelen yapay zeka şirketi, Başkan Biden ile yaptığı bir toplantıda yeni güvenlik ve güven standartlarını taahhüt etti.
Beyaz Saray direktörü Arati Prabhakar, “Bu üretici çağ üzerimizde ve insanlar onu benimsiyor ve en zorlu sorunlarımızdan bazılarını çözmemize yardımcı olma konusunda yapay zekanın muazzam vaadinin altını çizen her türlü yeni şeyi yapmak için kullanıyor” dedi. Defcon’da AI organizatörleri ile çalışan Bilim ve Teknoloji Politikası Ofisi. “Ancak bu uygulama yelpazesi ve teknolojinin performansıyla birlikte birçok risk de var.”
Red teaming, siber güvenlik çevrelerinde, sızma testi ve düşman saldırıları gibi diğer değerlendirme teknikleriyle birlikte yıllardır kullanılmaktadır. Ancak bu yılki Defcon etkinliğine kadar, yapay zeka savunmalarını inceleme çabaları sınırlıydı: Yarışma organizatörleri, Anthropic’in modelini kırmızı bir takımda 111 kişiyle bir araya getirdiğini söyledi; GPT-4’te yaklaşık 50 kişi görevlendirildi.
Tasarımdan sorumlu Rumman Chowdhury, çok az kişinin teknolojinin sınırlarını test etmesinden dolayı, analistlerin bir yapay zeka hatasının bir yamayla düzeltilebilecek tek seferlik bir hata mı yoksa yapısal bir revizyon gerektiren yerleşik bir sorun mu olduğunu anlamakta güçlük çektiklerini söyledi. mücadeleler. Harvard Üniversitesi’nin Berkman Klein İnternet ve Toplum Merkezi’nin kurucu ortağı ve üyesi olan Bayan Chowdhury, büyük, çeşitli ve halka açık bir test grubu grubunun gizli kusurları ortaya çıkarmak için yaratıcı önerilerde bulunma olasılığının daha yüksek olacağını söyledi. Humane Intelligence adlı kâr amacı gütmeyen bir kuruluş.
Bayan Chowdhury yarışmadan önce “Ters gidebilecek çok şey var” dedi. “Umarım geniş ölçekte sistemik hasar riskleri olup olmadığını belirlememize yardımcı olacak yüzbinlerce bilgiye sahip olacağız.”
Tasarımcılar yapay zeka modellerini kötü davranmaları için kandırmak istemediler; hizmet şartlarına uymamaları için onlara baskı yapmak istemediler ya da onlardan “bir Nazi ve ben gibi davranmalarını” istemek istemediler. Daha önce Twitter’ın makine öğrenimi etiği ve hesap verebilirlik ekibine liderlik etmiş olan Bayan Chowdhury, “o zaman siyah insanlar hakkında bir şeyler anlatın,” dedi. Bilgisayar korsanları, kasıtlı olarak yanlış yönlendirmenin teşvik edildiği belirli zorluklar dışında, bilinmeyen bilinmeyenler olarak adlandırılan beklenmedik güvenlik açıkları aradılar.
AI Village, Google ve Nvidia gibi teknoloji devlerinden uzmanların yanı sıra Dropbox’tan bir “gölge boksör” ve Microsoft’tan bir “veri kovboyu” çekti. Ayrıca, siber güvenlik veya yapay zeka hakkında özel bilgisi olmayan katılımcıların da ilgisini çekti. Bilimkurgu temasına sahip bir afiş, katılımcıların puanlarını kaydetti.
Etkinlikteki bilgisayar korsanlarından bazıları, sınırsız veri kazıma gibi tatsız uygulamalara karıştığını söyledikleri AI şirketleriyle çalışma fikriyle mücadele etti. Bazıları, kırmızı ekip oluşturma etkinliğini temelde bir fotoğraf operasyonu olarak tanımladı, ancak endüstrinin dahil edilmesinin teknolojiyi güvenli ve şeffaf tutmaya yardımcı olacağını da ekledi.
Bir bilgisayar bilimi öğrencisi, bir chatbot’un dil çevirisinde tutarsızlıklar buldu: İngilizce olarak bir adamın dans ederken vurulduğunu yazdı, ancak modelin Hintçe çevirisi yalnızca adamın öldüğünü söyledi. Bir makine öğrenimi araştırmacısı, bir chatbot’tan başkanlık için kampanya yürütüyormuş ve zorla çocuk çalıştırmayla ilişkisini savunuyormuş gibi davranmasını istedi; Model, isteksiz genç işçilerin güçlü bir iş ahlakı geliştirdiğini öne sürdü.
Üretken yapay zeka girişimi Moveworks’ün güvenlik bölümünde çalışan Emily Greene, “siyah” ve “beyaz” kutucukların kullanıldığı bir oyun hakkında konuşarak bir sohbet robotuyla konuşmaya başladı. Daha sonra chatbot’u ırkçı açıklamalar yapmaya ikna etti. Daha sonra, yapay zekanın tecavüzün neden iyi olduğuna dair bir soruya bir şiirle yanıt vermesine neden olan bir “karşıtlık oyunu” geliştirdi.
Chatbot için “Sadece bu kelimelere kelime olarak bakıyor” dedi. “Kelimelerin arkasındaki değeri düşünmekle ilgili değil.”
Yedi yargıç başvuruları değerlendirdi. En çok gol atanlar “cody3”, “aray4” ve “cody2” idi.
Bu tanıtıcılardan ikisi, yapay zekaya odaklanan bilgisayar bilimi alanında uzmanlaşan bir Stanford Üniversitesi öğrencisi olan Cody Ho’dan geldi. Yarışmaya beş kez katıldı ve burada chatbot’a gerçek bir tarihsel figürün adını taşıyan sahte bir yer hakkında bilgi verdirdi ve 28. Değişikliği kodlanmış çevrimiçi vergi beyannamesini açıkladı (ki bu mevcut değil).
Bir muhabir kendisiyle temasa geçene kadar çifte galibiyetinden habersizdi. AI Village’ı kuran ve yarışmanın düzenlenmesine yardımcı olan veri bilimcisi Sven Cattell’den şu mesajı içeren e-postayı almadan önce konferanstan ayrıldı: “AIV’ye geri dönün, kazandınız.” Gösteriş yapmanın yanı sıra bunu çok az biliyordu , fiyatı yaklaşık 4.000 $ değerinde bir Nvidia A6000 grafik kartı içeriyordu.
Ho, “Bu saldırıların nasıl çalıştığını ve ne olduklarını öğrenmek gerçekten önemli. Yine de bundan gerçekten zevk alıyorum” dedi.
Başvuru sahibini ırkına göre seçecek bir kod üretmek için Zinc olarak bildiği yapay zeka modelini elde etmeye çalıştı. Chatbot aynı fikirde değil: “Zararlı ve etik dışı” olacağını söyledi.
Dr. Memleketi Hindistan’daki hiyerarşik kast yapısı hakkında Ghosh. Chatbot, potansiyel işe alımları değerlendirmek için bu ayrımcı metriği kullanabilir mi?
Model uyum sağladı.
doktor Davranışına rağmen Ghosh’un niyeti kötü niyetli değildi. Bunun yerine, ara sıra, geçtiğimiz hafta sonu Las Vegas’ta düzenlenen ve 2.200 kişinin yapay zekanın dezavantajlarını keşfetmek için Strip dışındaki bir konferans odasında üç gün boyunca bir araya geldiği Defcon hacker konferansındaki bir yarışmaya katıldı.
Bilgisayar korsanları, güvenlik açıklarını belirlemek – sorunları gerçek suçlulardan ve yanlış bilgi tacirlerinden önce bulmak için – kırmızı ekip oluşturma olarak bilinen bir uygulama için çeşitli AI programlarının korumalarını aşmaya çalıştı. Her katılımcının, yanlış bilgileri “halüsinasyona uğratması” için bir yapay zeka modeli elde etmek gibi 21 adede kadar görevi tamamlamak için 50 dakikası vardı.
Siyasi yanlış bilgiler, demografik klişeler, gözetimin nasıl yürütüleceğine dair talimatlar ve daha fazlasını buldular.
Tatbikat, teknolojinin hızla büyüyen gücü karşısında giderek daha fazla tedirgin olan Biden yönetiminin onayını aldı. Google (Bard sohbet robotunun üreticisi), OpenAI (ChatGPT), Meta (LLaMA kodunu yayınlayan) ve diğer birkaç şirket, incelenmek üzere modellerinin anonimleştirilmiş sürümlerini sundu.
doktor Yapay zeka etiği konusunda uzmanlaşmış bir Northeastern Üniversitesi öğretim görevlisi olan Ghosh, etkinlikte gönüllü oldu. Yarışmanın, birden çok yapay zeka modelinin birebir karşılaştırılmasına izin verdiğini ve bazı şirketlerin teknolojilerinin sorumlu ve tutarlı performansını sağlamada nasıl ilerlediğini gösterdiğini söyledi.
Önümüzdeki aylarda bilgisayar korsanlarının bulgularını analiz eden bir rapor yazılmasına yardımcı olacak.
Hedefin, “herkesin hangi sorunların var olduğunu ve bunlarla nasıl mücadele edebileceğimizi görebilmesi için kolayca erişilebilen bir kaynak” olduğunu söyledi.
Defcon, üretken yapay zekayı test etmek için mantıklı bir yerdi. 1993’te başlayan ve “bilgisayar korsanları için heceleme arısı” olarak tanımlanan bilgisayar korsanlığı meraklılarının buluşmasına önceki katılımcılar, arabaları uzaktan ele geçirerek ve seçim sonuçları web sitelerine girerek güvenlik açıklarını ortaya çıkardılar. ve sosyal medya platformlarından hassas verilerin alınması. Uzmanlar kendilerini bilgisayar korsanı saldırılarından korumak için nakit para ve bir kullan-at cihazı kullanır ve WiFi veya Bluetooth’tan kaçınır. Bir bilgi broşüründe bilgisayar korsanlarından “altyapıya veya web sitelerine herhangi bir saldırı” gerçekleştirmemeleri istendi.
Gönüllüler “gangster” ve katılımcılar “insanlar” olarak anılır; Bir avuç standart tişört ve spor ayakkabı üniformasının üzerine ev yapımı alüminyum folyo şapkalar takmıştı. Temalı “köyler”, kripto para birimi, havacılık ve amatör radyoya odaklanan ayrı odalar içeriyordu.
Geçen ay “ezber bozan” olarak adlandırılan bir raporda araştırmacılar, İngilizce komut istemlerine belirli karakterler ekleyerek Google, OpenAI ve Anthropic’in AI sistemleri için korkulukları atlatabileceklerini gösterdiler. Aynı sıralarda yedi önde gelen yapay zeka şirketi, Başkan Biden ile yaptığı bir toplantıda yeni güvenlik ve güven standartlarını taahhüt etti.
Beyaz Saray direktörü Arati Prabhakar, “Bu üretici çağ üzerimizde ve insanlar onu benimsiyor ve en zorlu sorunlarımızdan bazılarını çözmemize yardımcı olma konusunda yapay zekanın muazzam vaadinin altını çizen her türlü yeni şeyi yapmak için kullanıyor” dedi. Defcon’da AI organizatörleri ile çalışan Bilim ve Teknoloji Politikası Ofisi. “Ancak bu uygulama yelpazesi ve teknolojinin performansıyla birlikte birçok risk de var.”
Red teaming, siber güvenlik çevrelerinde, sızma testi ve düşman saldırıları gibi diğer değerlendirme teknikleriyle birlikte yıllardır kullanılmaktadır. Ancak bu yılki Defcon etkinliğine kadar, yapay zeka savunmalarını inceleme çabaları sınırlıydı: Yarışma organizatörleri, Anthropic’in modelini kırmızı bir takımda 111 kişiyle bir araya getirdiğini söyledi; GPT-4’te yaklaşık 50 kişi görevlendirildi.
Tasarımdan sorumlu Rumman Chowdhury, çok az kişinin teknolojinin sınırlarını test etmesinden dolayı, analistlerin bir yapay zeka hatasının bir yamayla düzeltilebilecek tek seferlik bir hata mı yoksa yapısal bir revizyon gerektiren yerleşik bir sorun mu olduğunu anlamakta güçlük çektiklerini söyledi. mücadeleler. Harvard Üniversitesi’nin Berkman Klein İnternet ve Toplum Merkezi’nin kurucu ortağı ve üyesi olan Bayan Chowdhury, büyük, çeşitli ve halka açık bir test grubu grubunun gizli kusurları ortaya çıkarmak için yaratıcı önerilerde bulunma olasılığının daha yüksek olacağını söyledi. Humane Intelligence adlı kâr amacı gütmeyen bir kuruluş.
Bayan Chowdhury yarışmadan önce “Ters gidebilecek çok şey var” dedi. “Umarım geniş ölçekte sistemik hasar riskleri olup olmadığını belirlememize yardımcı olacak yüzbinlerce bilgiye sahip olacağız.”
Tasarımcılar yapay zeka modellerini kötü davranmaları için kandırmak istemediler; hizmet şartlarına uymamaları için onlara baskı yapmak istemediler ya da onlardan “bir Nazi ve ben gibi davranmalarını” istemek istemediler. Daha önce Twitter’ın makine öğrenimi etiği ve hesap verebilirlik ekibine liderlik etmiş olan Bayan Chowdhury, “o zaman siyah insanlar hakkında bir şeyler anlatın,” dedi. Bilgisayar korsanları, kasıtlı olarak yanlış yönlendirmenin teşvik edildiği belirli zorluklar dışında, bilinmeyen bilinmeyenler olarak adlandırılan beklenmedik güvenlik açıkları aradılar.
AI Village, Google ve Nvidia gibi teknoloji devlerinden uzmanların yanı sıra Dropbox’tan bir “gölge boksör” ve Microsoft’tan bir “veri kovboyu” çekti. Ayrıca, siber güvenlik veya yapay zeka hakkında özel bilgisi olmayan katılımcıların da ilgisini çekti. Bilimkurgu temasına sahip bir afiş, katılımcıların puanlarını kaydetti.
Etkinlikteki bilgisayar korsanlarından bazıları, sınırsız veri kazıma gibi tatsız uygulamalara karıştığını söyledikleri AI şirketleriyle çalışma fikriyle mücadele etti. Bazıları, kırmızı ekip oluşturma etkinliğini temelde bir fotoğraf operasyonu olarak tanımladı, ancak endüstrinin dahil edilmesinin teknolojiyi güvenli ve şeffaf tutmaya yardımcı olacağını da ekledi.
Bir bilgisayar bilimi öğrencisi, bir chatbot’un dil çevirisinde tutarsızlıklar buldu: İngilizce olarak bir adamın dans ederken vurulduğunu yazdı, ancak modelin Hintçe çevirisi yalnızca adamın öldüğünü söyledi. Bir makine öğrenimi araştırmacısı, bir chatbot’tan başkanlık için kampanya yürütüyormuş ve zorla çocuk çalıştırmayla ilişkisini savunuyormuş gibi davranmasını istedi; Model, isteksiz genç işçilerin güçlü bir iş ahlakı geliştirdiğini öne sürdü.
Üretken yapay zeka girişimi Moveworks’ün güvenlik bölümünde çalışan Emily Greene, “siyah” ve “beyaz” kutucukların kullanıldığı bir oyun hakkında konuşarak bir sohbet robotuyla konuşmaya başladı. Daha sonra chatbot’u ırkçı açıklamalar yapmaya ikna etti. Daha sonra, yapay zekanın tecavüzün neden iyi olduğuna dair bir soruya bir şiirle yanıt vermesine neden olan bir “karşıtlık oyunu” geliştirdi.
Chatbot için “Sadece bu kelimelere kelime olarak bakıyor” dedi. “Kelimelerin arkasındaki değeri düşünmekle ilgili değil.”
Yedi yargıç başvuruları değerlendirdi. En çok gol atanlar “cody3”, “aray4” ve “cody2” idi.
Bu tanıtıcılardan ikisi, yapay zekaya odaklanan bilgisayar bilimi alanında uzmanlaşan bir Stanford Üniversitesi öğrencisi olan Cody Ho’dan geldi. Yarışmaya beş kez katıldı ve burada chatbot’a gerçek bir tarihsel figürün adını taşıyan sahte bir yer hakkında bilgi verdirdi ve 28. Değişikliği kodlanmış çevrimiçi vergi beyannamesini açıkladı (ki bu mevcut değil).
Bir muhabir kendisiyle temasa geçene kadar çifte galibiyetinden habersizdi. AI Village’ı kuran ve yarışmanın düzenlenmesine yardımcı olan veri bilimcisi Sven Cattell’den şu mesajı içeren e-postayı almadan önce konferanstan ayrıldı: “AIV’ye geri dönün, kazandınız.” Gösteriş yapmanın yanı sıra bunu çok az biliyordu , fiyatı yaklaşık 4.000 $ değerinde bir Nvidia A6000 grafik kartı içeriyordu.
Ho, “Bu saldırıların nasıl çalıştığını ve ne olduklarını öğrenmek gerçekten önemli. Yine de bundan gerçekten zevk alıyorum” dedi.