Meta’nın Audiocraft araştırma ekibi, MusicGen adlı yeni ve açık kaynaklı bir dil modeli yayımladı. The Decoder‘ın belirttiği gibi, bu model metinden yola çıkarak yeni müzikler üretebiliyor ve hatta mevcut bir şarkıya uyum sağlayabiliyor. Ses için ChatGPT’ye benzer bir yol izleyen MusicGen, hangi müzik tarzını istediğinizi belirtmenize, isteğe bağlı olarak mevcut bir melodi eklemenize ve “Oluştur” düğmesine tıklamanıza olanak sağlıyor. Yaklaşık 160 saniyelik bir süreç sonunda, metin önermelerinize ve melodinize dayalı yepyeni bir müzik parçası çıkarıyor.
Facebook’un Hugging Face AI sitesindeki demo, müziğinizi tarif etmenize ve “ağır davullar ve arka planda synth pedlerle 80’lerin pop şarkısı” gibi örnekler sunmanıza imkan veriyor. Ardından, belirli bir parçayı seçme imkanı sunan kontrollerle, 30 saniyeye kadar olan bir şarkı üzerinde “koşullandırma” yapabilirsiniz. Sonrasında “oluştur” butonuna basmanız ve 12 saniyeye kadar yüksek kaliteli bir örneğin oluşmasını beklemeniz yeterli.
Ekip, eğitim için 20.000 saatlik lisanslı müzik kullandı. Bunlar arasında iç veri setinden 10.000 yüksek kaliteli müzik parçası ve Shutterstock ile Pond5 parçaları da bulunuyordu. Daha hızlı olabilmesi için, Meta’nın 32Khz EnCodec ses tokenleştiricisini kullandılar. Hugging Face ML Mühendisi Ahsen Khaliq’ın bir tweet’inde belirttiği gibi, “MüzikLM gibi mevcut yöntemlerin aksine, MusicGen kendi kendine denetimli semantik bir temsil gerektirmez ve saniye başına yalnızca 50 otoregresif adıma sahiptir”.
Geçtiğimiz ay Google, MusicLM adlı benzer bir müzik oluşturucu yayımlamıştı ancak MusicGen biraz daha iyi sonuçlar veriyor gibi görünüyor. Araştırmacılar, bir örnek sayfasında MusicGen’in çıktısını MusicLM ve diğer iki model olan Riffusion ve Musai ile karşılaştırarak bunu kanıtlıyor. MusicGen, yerel olarak çalıştırılabilir (en az 16GB RAM’e sahip bir GPU önerilir) ve küçük (300 milyon parametre) ila büyük (3.3 milyar parametre) arasında dört model boyutunda mevcuttur. Büyük model, karmaşık müzik üretme potansiyeli en yüksek olanıdır.
MusicGen açık kaynaklıdır ve hatta ticari müzik oluşturmak için de kullanılabilir. Ancak sonuçlar karışık olabilir. Yine de, son altı ay içindeki AI gelişiminin nefes kesici hızının son örneği olmuştur ve derin öğrenme modelleri bir başka türü daha tehdit etmeye başlamıştır.