Teknoloji

Google Gemini 1.5 Pro artık sesli dosyaları dinleyebilecek

google gemini 1.5 pro

Google’ın yapay zekâ alanındaki yenilikleri dur durak bilmiyor. En son Google Next etkinliğinde duyurulan Gemini 1.5 Pro, Google’ın Vertex AI platformu aracılığıyla halka açık hale getirilen ilk model olma özelliğini taşıyor. Şubat ayında tanıtılan bu yenilik, özellikle sesli dosyaları anlama ve onlardan bilgi çıkarabilme yeteneğiyle dikkat çekiyor. Artık kullanıcılar, kazanç çağrıları veya videolardan alınan ses dosyalarını modelin anlayabileceği şekilde yükleyebilecekler; bu da yazılı bir transkribe ihtiyaç duymadan işlemlerin hızlanması anlamına geliyor.

Gemini 1.5 Pro, Gemini ailesinin orta ağırlık modeli olarak tanımlanıyor ve performans açısından ailenin en güçlü üyesi olan Gemini Ultra’yı bile geride bırakıyor. Google’ın iddiasına göre, karmaşık talimatları anlama ve modelleri ince ayar yapma gereksinimini ortadan kaldırma yetenekleriyle öne çıkıyor.

Ancak, Gemini 1.5 Pro’nun kullanımı şimdilik Vertex AI erişimi olan kullanıcılarla sınırlı. Çoğu insan, Gemini dil modelleriyle daha çok Gemini sohbet botu aracılığıyla karşılaşıyor. Güçlü yetenekleri ve uzun komutları anlama kapasitesiyle öne çıkan Gemini Ultra, Gemini Gelişmiş sohbet botunu güçlendiriyor; ancak hız açısından Gemini 1.5 Pro’nun gerisinde kalıyor.

Google’ın büyük AI modellerinden sadece Gemini 1.5 Pro değil, Imagen 2 de güncelleniyor. Metinden resme dönüşüm modeli olan Imagen 2, Gemini’nin resim oluşturma yeteneklerini desteklerken, kullanıcılara resimlerden elementleri ekleme veya çıkarma imkanı sunan inpainting ve outpainting özelliklerini de ekliyor. Ayrıca, Imagen modelleri aracılığıyla oluşturulan tüm resimlerde kullanılmak üzere SynthID dijital filigran özelliği de sunuluyor. SynthID, izleyici için görünmez olan ancak bir algılama aracı aracılığıyla incelendiğinde kökenini işaret eden bir filigran ekliyor.

Imagen’ın yeni özellikleri, özellikle inpainting ve outpainting, Stability AI’nin Stable Cascade’i ve Getty’nin iStock tarafından sunulan Generative AI gibi diğer metinden resme modellerinde zaten mevcut. Bu özellikler, daha yeni Samsung Galaxy telefonlarında geniş tüketici kitlesiyle buluşuyor.

Google, AI yanıtlarını Google Arama ile güncel bilgilerle destekleyerek yanıtların güncelliğini artırma yolunu da kamuoyuyla paylaşıyor. Büyük dil modelleri tarafından üretilen yanıtların her zaman güncel olmaması, bazen bilinçli bir tercih; Google, 2024 ABD seçimleriyle ilgili sorulara Gemini’nin yanıt vermesini bilinçli olarak engelliyor.

Gemini, yakın zamanda tarihsel olarak yanlış kişileri içeren fotoğraflar ürettiği için eleştirilere maruz kaldı. Ancak Google’ın yapay zeka alanındaki sürekli yenilikleri ve geliştirmeleri, teknolojinin sınırlarını zorlamaya devam ediyor.

Google’ın yapay zekâ yenilikleri ile sesli dosyalar artık daha anlaşılır

Google’ın Vertex AI platformu üzerinden sunduğu Gemini 1.5 Pro’nun yanı sıra, yapay zekanın diğer alanlardaki gelişmeleri de dikkat çekiyor. Özellikle, sesli içeriklerden bilgi çıkarabilme yeteneği, yapay zekanın kullanım alanlarını genişletiyor ve kullanıcı deneyimini zenginleştiriyor. Bu gelişmeler, Google’ın teknoloji ve yapay zeka konusundaki liderliğini pekiştirirken, kullanıcılara ve iş dünyasına sunduğu imkanları da artırıyor.