Perplexity'nin robots.txt ihlali iddiaları gündemde

Kendisini “ücretsiz bir AI arama motoru” olarak tanımlayan bir şirket olan Perplexity, son günlerde çeşitli eleştirilerle karşı karşıya. Forbes’un, Perplexity’yi haberlerini çalmakla ve çeşitli platformlarda yeniden yayınlamakla suçlamasının hemen ardından, Wired da şirketin Robots.txt Protokolü’nü görmezden geldiğini ve Condé Nast yayınları dahil olmak üzere çeşitli web sitelerini kazıdığını haberleştirdi. Teknoloji sitesi The Shortcut da şirketin makalelerini aldığını iddia etti. Son olarak da Reuters, Perplexity’nin bu ihlalleri yapan tek AI şirketi olmadığını bildirdi.

Reuters, AI firmaları ile yayıncıları lisans anlaşmaları yapmaları için eşleştiren bir girişim olan TollBit’ten yayıncılara gönderilen bir mektubu gördüğünü belirtti. Bu mektup, “birçok kaynaktan gelen AI ajanlarının (sadece bir şirket değil) içerik toplamak için robots.txt protokolünü atlamayı tercih ettikleri” hususunda uyarıyordu. Robots.txt dosyası, web tarayıcılarına hangi sayfalara erişebilecekleri ve hangilerine erişemeyecekleri konusunda talimatlar içerir. Web geliştiriciler bu protokolü 1994 yılından beri kullanıyor, ancak uyumluluk tamamen gönüllülük esasına dayanıyor.

TollBit’in mektubunda herhangi bir şirket ismi verilmemiş olsa da, Business Insider’ın öğrendiğine göre sırasıyla ChatGPT ve Claude chatbotlarının geliştiricileri olan OpenAI ve Anthropic de robots.txt sinyallerini görmezden geliyor. Her iki şirket de daha önce web sitelerinin robots.txt dosyalarına ekledikleri “tarama yapma” talimatlarına saygı gösterdiklerini iddia etmişti.

Wired’ın araştırması sırasında, bir Amazon sunucusunda “kesinlikle Perplexity tarafından işletilen” bir makinenin web sitesinin robots.txt talimatlarını görmezden geldiği ortaya çıktı. Wired, Perplexity’nin içeriğini alıntılayıp alıntılamadığını doğrulamak için, şirketin aracına makalelerinin başlıklarını veya hikayelerinin kısa açıklamalarını sağladı. Araç, makalelerini “minimum atıfla” yakın biçimde yeniden yazan sonuçlar üretti. Hatta zaman zaman hikayelerinin yanlış özetlerini bile oluşturdu. Wired, chatbot’un belirli bir Kaliforniya polisinin suç işlediğini iddia eden yanlış bir haber oluşturduğunu belirtti.

Fast Company ile yaptığı röportajda, Perplexity CEO’su Aravind Srinivas, şirketinin “Robot Exclusions Protokolü’nü görmezden gelmediğini ve sonra bu konuda yalan söylemediğini” söyledi. Ancak, bu, protokolü görmezden gelen tarayıcılardan fayda sağlamadığı anlamına gelmiyor. Srinivas, şirketin kendi tarayıcılarının yanı sıra üçüncü taraf web tarayıcılarını da kullandığını ve Wired’ın belirlediği tarayıcının bunlardan biri olduğunu açıkladı. Fast Company, Perplexity’nin tarayıcı sağlayıcısına Wired’ın web sitesini kazımayı bırakmasını söyleyip söylemediğini sorduğunda, Srinivas yalnızca “bu karmaşık” yanıtını verdi.

Srinivas, şirketinin uygulamalarını savunarak, Robots.txt Protokolü’nün “yasal bir çerçeve olmadığını” belirtti ve yayıncılar ile şirketler arasında yeni bir tür ilişkinin kurulması gerekebileceğini önerdi. Ayrıca Wired’ın, Perplexity’nin chatbot’unun bu şekilde davranmasını sağlamak için kasıtlı olarak belirli girdiler kullandığını ima etti, bu nedenle sıradan kullanıcılar aynı sonuçları alamayacaklar. Aracın ürettiği yanlış özetler hakkında ise Srinivas, “Hiçbir zaman halüsinasyon görmediğimizi söylemedik.” dedi.