Teknoloji

Teknoloji şirketlerinin yapay zekâ eğitiminde YouTube altyazılarını kullanması sorun yaratıyor

youtube yapay zeka

Apple, Anthropic, Nvidia ve Salesforce gibi büyük teknoloji firmaları, yapay zekâ (AI) sistemlerini eğitmek için YouTube’dan izin alınmadan çekilmiş büyük bir altyazı veri setini kullandı. Proof News ve Wired‘ın ortak araştırmasına göre, bu veri kümesi 170.000’den fazla YouTube videosundan alınan altyazılardan oluşuyor ve 48.000’den fazla kanalın içeriğini kapsıyor. Ancak, bu veri seti yalnızca videolardan alınan altyazılardan ibaret olup görsel içerik içermiyor.

MrBeast ve Marques Brownlee gibi popüler YouTuber’ların videoları, ABC News, BBC ve The New York Times gibi haber kaynaklarının yanı sıra The Verge ve Vox gibi birçok kaynağın videoları bu veri kümesinde yer alıyor. Marques Brownlee, X platformunda yaptığı bir paylaşımda Apple’ın çeşitli şirketlerden yapay zekâları için veri topladığını ve bu şirketlerden birinin YouTube videolarından büyük miktarda veri ve alt yazı topladığını belirtti.

YouTube, bu veri setiyle ilgili yorum yapmayı reddetti. Ancak YouTube CEO’su Neal Mohan, yapay zekâ eğitiminde video içeriği ve transkriptlerin kullanımının platformun kullanım şartlarını ihlal ettiğini söyledi. Google CEO’su Sundar Pichai de bu görüşü destekledi ve yapay zekâ geliştiren şirketlerin YouTube’un kullanım şartlarına uyması gerektiğini belirtti.

Bu altyazı veri seti, EleutherAI tarafından oluşturulan The Pile adlı daha büyük bir açık kaynak koleksiyonunun bir parçası. The Pile, kitaplar, Wikipedia makaleleri ve daha fazlasını içeren veri setlerinden oluşuyor. Geçen yıl, Books3 adlı bir veri seti analiz edildiğinde, yazarların eserlerinin yapay zekâ sistemlerini eğitmek için kullanıldığı ortaya çıkmış ve bu durum yazarların şirketlere karşı dava açmasına neden olmuştu.

Yapay zekâ şirketlerinin şeffaflık eksikliği

AI şirketleri, sistemlerini eğitmek için kullandıkları veriler konusunda genellikle şeffaf davranmıyorlar. Özellikle YouTube içeriğinin nasıl kullanıldığı, son aylarda önemli bir soru haline geldi. OpenAI’nin güçlü video üretim aracı Sora’yı tanıttığında, CTO Mira Murati, sistemin YouTube videoları kullanılarak eğitilip eğitilmediği konusunda soruları yanıtsız bıraktı ve yalnızca “kamuya açık veya lisanslı veriler” kullanıldığını belirtti.

Proof News, kullanıcıların içeriklerinin bu veri setinde yer alıp almadığını kontrol edebilecekleri interaktif bir arama aracı sundu. Bu araç, kullanıcıların veya favori YouTuber’larının içeriklerinin bu veri setinde bulunup bulunmadığını görmelerine olanak tanıyor.