OpenAI, GPT-5 Düzeyinde Akıl Yürütebilen Yeni Ses Modellerini Duyurdu

OpenAI, sesli yapay zekâ uygulamaları geliştirmek isteyen yazılımcılar için GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper modellerini duyurdu.

OpenAI, GPT-5 Düzeyinde Akıl Yürütebilen Yeni Ses Modellerini Duyurdu

OpenAI, sesli yapay zekâ deneyimini ileri taşımayı hedefleyen üç yeni modelini duyurdu. Realtime API kapsamında sunulan GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper modelleri; gerçek zamanlı konuşma, çeviri ve yazıya dökme özellikleriyle dikkat çekiyor.

Şirketin amacı, sesli etkileşimi klasik soru-cevap sistemlerinin ötesine taşıyarak daha doğal ve kesintisiz bir deneyim sunmak.

OpenAI, GPT-5 Düzeyinde Akıl Yürütebilen Yeni Ses Modellerini Duyurdu - Resim : 1

GPT-Realtime-2 dikkat çekiyor

Yeni modeller arasında en dikkat çekeni GPT-Realtime-2 oldu.

OpenAI, modeli “GPT-5 seviyesinde akıl yürütme yeteneğine sahip ilk ses modeli” olarak tanımlıyor. Sistem, kullanıcı konuşmaya devam ederken arka planda birden fazla işlemi eş zamanlı şekilde gerçekleştirebiliyor.

Takvim kontrolü, rezervasyon işlemleri veya farklı araçlarla etkileşim gibi görevler konuşmayı bölmeden sürdürülebiliyor.

Bağlam kapasitesi büyüdü

Modelin bağlam penceresi önceki nesildeki 32 bin token seviyesinden 128 bin tokene çıkarıldı.

Bu sayede uzun konuşmalarda konuyu kaybetmeden daha tutarlı yanıtlar üretilebildiği belirtiliyor.

Ayrıca sistemin kullanıcının ruh haline göre daha sakin, enerjik veya empatik ses tonları kullanabildiği ifade ediliyor.

Gerçek zamanlı çeviri desteği geliyor

GPT-Realtime-Translate modeli ise 70’ten fazla dili anlayabiliyor ve 13 farklı dilde sesli çıktı verebiliyor.

OpenAI’a göre sistemin en dikkat çekici tarafı, çeviriyi konuşmanın doğal akışını bozmadan gerçekleştirebilmesi.

Modelin aksanları ve bölgesel telaffuzları ayırt edebildiği de belirtiliyor.

Canlı altyazı ve özet özelliği

GPT-Realtime-Whisper modeli ise konuşmaları eş zamanlı şekilde yazıya dökebiliyor.

Canlı yayınlar, toplantılar, dersler ve sağlık kayıtları gibi kullanım alanlarına odaklanan sistem; yalnızca transkript üretmekle kalmıyor, aynı zamanda konuşmaları özetleyebiliyor.

OpenAI güvenlik önlemleri aldığını söylüyor

Şirket, kötüye kullanımı önlemek amacıyla canlı oturumlarda sürekli çalışan güvenlik sınıflandırıcıları kullandığını açıkladı.

Kuralları ihlal eden içeriklerin otomatik olarak durdurulabileceği belirtiliyor.

Yeni modeller şu anda OpenAI Playground üzerinden geliştiricilerin erişimine açılmış durumda.

OpenAI, yapay zekâyı yalnızca yazı yazan sistemlerden çıkarıp gerçek zamanlı konuşabilen dijital asistanlara dönüştürmeye hazırlanıyor.