1
5 saniye dinleyerek sesinizi taklit edebilen AI
https://google.github.io/tacotron/publications/speaker_adaptation/ Eğitim sırasında görünmeyenler de dahil olmak üzere birçok farklı konuşmacının sesinde konuşma sesi oluşturabilen metinden konuşmaya (TTS) sentezi için sinir ağı tabanlı bir sistemi tarif ediyoruz. Sistemimiz bağımsız olarak eğitilmiş üç bileşenden oluşur: (1) referans konuşmasının saniyelerinden itibaren sabit boyutlu bir gömme vektörü oluşturmak üzere, transkriptsiz binlerce konuşmacıdan gelen bağımsız bir gürültülü konuşma veri kümesi kullanılarak konuşmacı doğrulama görevi üzerinde eğitilmiş bir hoparlör kodlayıcı ağı bir hedef konuşmacıdan; (2) konuşmacı gömme üzerinde koşullandırılmış metinden bir mel spektrogramı üreten Tacotron 2'ye dayanan bir dizi-dizi sentez ağı; (3) Mel spektrogramını bir zaman bölgesi dalga formu numunesi dizisine dönüştüren otomatik gerileyen WaveNet-bazlı bir kod çözücü. Önerilen modelin, ayırt edici şekilde eğitilmiş konuşmacı kodlayıcı tarafından öğrenilen konuşmacı değişkenliği bilgisini yeni göreve aktarabildiğini ve eğitim sırasında görülmeyen konuşmacılardan doğal konuşmayı sentezleyebildiğini gösterdik. En iyi genelleme performansını elde etmek için hoparlör kodlayıcısının geniş ve çeşitli bir hoparlör seti üzerinde eğitiminin önemini ölçüyoruz. Son olarak, rastgele örneklenmiş konuşmacı yerleştirmelerinin, eğitimde kullanılanlardan farklı olan yeni konuşmacıların sesindeki konuşmaları sentezlemek için kullanılabileceğini göstererek, modelin yüksek kalitede bir konuşmacı sunumu öğrendiğini gösterir.
3 ay önce tcg bilimle açıkladı. Tags: teknoloji
Yorum Ekle

Yorumlar
Reklamlar :)