Yapay zeka için veri toplama yarışına ilişkin dört bilgi

Teletabi · 7 Nis 2024

Çevrimiçi veriler uzun zamandır değerli bir ürün olmuştur. Meta ve Google, yıllardır çevrimiçi reklamlarını hedeflemek için verileri kullanıyor. Netflix ve Spotify bunu daha fazla film ve müzik önermek için kullandı. Siyasi adaylar hangi seçmen gruplarını hedeflemeleri gerektiğini belirlemek için verilere başvurdu.

Son 18 ayda dijital verilerin yapay zekanın gelişimi için de hayati önem taşıdığı giderek daha açık hale geldi. İşte bilmeniz gerekenler.

Ne kadar çok veri olursa o kadar iyi.

Yapay zekanın başarısı verilere bağlıdır. Bunun nedeni, yapay zeka modellerinin daha fazla veriyle daha doğru ve daha insani hale gelmesidir.

Tıpkı bir öğrencinin daha fazla kitap, makale ve diğer bilgileri okuyarak öğrenmesi gibi, sohbet robotlarının temelini oluşturan sistemler olan büyük dil modelleri de daha fazla veriyle beslendikçe daha doğru ve güçlü hale gelir.

OpenAI'nin 2020'de piyasaya sürülen GPT-3'ü gibi bazı büyük dil modelleri, esasen kelimeler veya kelimelerin parçaları olan yüz milyarlarca “belirteç” üzerinde eğitilmiştir. Son zamanlardaki büyük dil modelleri üç trilyondan fazla jetonla eğitildi.

Çevrimiçi veriler değerli ve sınırlı bir kaynaktır.

Teknoloji şirketleri, yeni verilerin üretilmesinden daha hızlı bir şekilde yapay zeka modellerini geliştirmek için halka açık çevrimiçi verileri kullanıyor. Bir tahmine göre, yüksek kaliteli dijital veriler 2026 yılına kadar tükenecek.

Teknoloji şirketleri daha fazla veri elde etmek için büyük çaba harcıyor.

Daha fazla veri yarışında OpenAI, Google ve Meta yeni araçlar kullanıyor, kullanım koşullarını değiştiriyor ve iç tartışmalar yaşıyor.

Konuya aşina olan kişiler, OpenAI'deki araştırmacıların 2021 yılında YouTube videolarının sesini metne dönüştüren ve daha sonra transkriptleri yapay zeka modellerinden birine besleyen bir program geliştirdiğini ve bu durumun YouTube'un hizmet şartlarını ihlal ettiğini söyledi.

(Haberler, OpenAI ve Microsoft'a, telif hakkıyla korunan haber makalelerini yapay zeka geliştirme izni olmadan kullandıkları için dava açtı. OpenAI ve Microsoft, haber makalelerini telif hakkını ihlal etmeyen dönüştürücü şekillerde kullandıklarını söyledi.)

Eylem hakkında bilgi sahibi kişiler, YouTube'un sahibi Google'ın da YouTube verilerini kullanarak yapay zeka modellerini geliştirerek telif hakkı konusunda yasal gri alana girdiğini söyledi. Google, daha fazla yapay zeka ürünü geliştirmek için kamuya açık materyalleri kullanmasına izin vermek amacıyla geçen yıl gizlilik politikasını revize etti.

Geçen yıl Meta'da yöneticiler ve avukatlar yapay zeka gelişimi için nasıl daha fazla veri elde edilebileceklerini tartıştılar ve Simon & Schuster gibi büyük bir yayıncıyı satın almayı tartıştılar. Times'ın elde ettiği toplantı kayıtlarına göre, özel toplantılarda, daha sonra dava edilmeleri anlamına gelse bile, telif hakkıyla korunan eserleri yapay zeka modellerine dahil etme olasılığını değerlendirdiler.

Çözümlerden biri “sentetik” veriler olabilir.

OpenAI, Google ve diğer şirketler daha fazla veri üretmek için yapay zekalarını kullanmayı araştırıyor. Sonuç, sözde “sentetik” veriler olacaktır. Buradaki fikir, yapay zeka modellerinin daha sonra daha iyi yapay zeka oluşturmak için kullanılabilecek yeni metinler üretmesidir.

Sentetik veriler risklidir çünkü yapay zeka modelleri hata yapabilir. Bu tür verilere güvenmek bu hataları daha da artırabilir.

Yapay zeka için veri toplama yarışına ilişkin dört bilgi

Teletabi

Administrator