Yapay Zekâ Firmalarını Düzenlemeler de Durduramadı: İnternetten Veri Toplamaya Devam Ediyorlar

Yapay zekâ firmalarının, robots.txt olarak da bilinen yönergeleri atladığı ortaya çıktı.

Hayati Karagöz 22 Haziran 2024

Yapay zekânın yükselişi ile birlikte bu alana giren firmalar, kendi araçlarını geliştirmek için çok büyük miktarda verilere ihtiyaç duyuyorlar. Bu verileri bulmak için akla gelen ilk alternatif ise elbette ki internet oluyor. Öte yandan internetteki her veri, her yazı yapay zekâ eğitmekte kullanılamıyor. İnternet siteleri, kendilerinden verilerin alınıp alınamayacağını robots.txt adlı bir dosya ile belirtiyor.

Reuters’ın haberine göre çok sayıda yapay zekâ geliştiricisi bu dosyada yer alan yönlendirmeleri aşmayı tercih ediyor ve bu sitelerden de veriler topluyorlar. Özellikle kendisini “ücretsiz yapay zekâ arama motoru” olarak tanıtan Perplexity bu konuda tepkileri en çok üzerine çeken firmalardan biri olsa da bu uygulamada yalnız değil.

OpenAI, Anthropic…

Gelen raporlara göre pek çok yapay zekâ geliştiricisi robots.txt dosyalarını pas geçerek sitelerden içerik almaya devam ediyor. Raporda isim verilmese de bu firmalar arasında OpenAI ve Anthropic’in de yer aldığı öğrenildi. Perplexity tarafından kullanılan bir sunucunun da bu yönergeleri takip etmediği ortaya çıktı. Perplexity CEO’su Aravind Srinivas daha önce yaptığı açıklamada ise firmanın “önce protokolü pas geçip sonradan da bu konuda yalan söyleme durumunun olmadığını” söylemişti.

Öte yandan robots.txt protokolü 1990’lı yıllardan beri kullanılıyor ve aslında yasal bir bağlayıcılığı yok. Belki de bu konuda daha sıkı ve daha detaylı yeni bir protokol oluşturmak sorunun çözümüne katkıda bulunacaktır.