Meta'nın yeni yapay zeka destekli dil modeli 4000 dili tanıyabiliyor!

Meta, ChatGPT klonu olmayan bir AI dil modeli yarattı. Şirketin Devasa Çok Dilde Konuşma (MMS) projesi, 4.000'den fazla konuşulan dili tanıyabiliyor ve 1.100'den fazla dilde konuşma üretebiliyor.

Meta'nın yeni yapay zeka destekli dil modeli 4000 dili tanıyabiliyor!

Kamuya duyurulan diğer yapay zeka projelerinin çoğu gibi, Meta da bugün dil çeşitliliğini korumaya yardımcı olmak ve araştırmacıları temellerini geliştirmeye teşvik etmek için açık kaynaklı MMS. Şirket, "Bugün, araştırma topluluğundaki diğer kişilerin çalışmalarımızı geliştirebilmesi için modellerimizi ve kodlarımızı herkese açık bir şekilde paylaşıyoruz" diye yazdı. "Bu çalışma sayesinde, dünyadaki inanılmaz dil çeşitliliğini korumak için küçük bir katkı yapmayı umuyoruz.”

Konuşma tanıma ve metinden konuşmaya modelleri, tipik olarak, eşlik eden transkripsiyon etiketleriyle birlikte binlerce saatlik ses eğitimi gerektiriyor. Ancak model, sanayileşmiş ülkelerde yaygın olarak kullanılmayan ve çoğu önümüzdeki on yıllarda yok olma tehlikesiyle karşı karşıya olan diller için Meta'nın  da dediği gibi "bu veriler basitçe mevcut değil".

Meta'nın yeni yapay zeka destekli dil modeli 4000 dili tanıyabiliyor!

Meta, ses verilerini toplamak için alışılmadık bir yaklaşım kullandı: tercüme edilmiş dini metinlerin ses kayıtlarından yararlanmak. Şirket, "İncil gibi birçok farklı dile çevrilmiş ve çevirileri metin tabanlı dil çevirisi araştırması için geniş çapta incelenmiş dini metinlere yöneldik" dedi. "Bu çeviriler, bu metinleri farklı dillerde okuyan kişilerin halka açık ses kayıtlarına sahip." İncil'in etiketlenmemiş kayıtlarını ve benzer metinleri birleştiren Meta'nın araştırmacıları, modelin mevcut dillerini 4.000'in üzerine çıkardı.

Meta ayrıca "Ses kayıtlarının içeriği dini olsa da, analizimiz bunun modeli daha fazla dini dil üretmeye yönlendirmediğini gösteriyor" diye yazdı. "Bunun, konuşma tanıma için büyük dil modellerine (LLM'ler) veya diziden diziye modellere kıyasla çok daha kısıtlı olan bağlantıcı bir zamansal sınıflandırma (CTC) yaklaşımı kullanmamızdan kaynaklandığına inanıyoruz." Ayrıca, dinsel kayıtların çoğunun erkek konuşmacılar tarafından okunmasına rağmen, bu da bir erkek önyargısı yaratmadı: kadın ve erkek seslerinde eşit derecede iyi performans gösteriyor.