Root NationHaberlerBT haberleriYeni yapay zeka Microsoft 3 saniyelik bir ses örneğinden herhangi bir kişinin sesini taklit eder

Yeni yapay zeka Microsoft 3 saniyelik bir ses örneğinden herhangi bir kişinin sesini taklit eder

-

Perşembe günü araştırmacılar Microsoft VALL-E adında, üç saniyelik bir ses örneği verildiğinde insan sesini doğru bir şekilde taklit edebilen yeni bir yapay zeka (AI) modelini duyurdu. Belirli bir sesi öğrendikten sonra VALL-E, konuşmacının duygusal tonunu koruyarak o kişinin herhangi bir şey söylemesinin sesini sentezleyebilir.

Yazarları, VALL-E'nin yüksek kaliteli metin okuma, konuşma düzenleme, bir kişinin kaydının düzenlenebileceği ve bir metin transkripsiyonundan değiştirilebileceği (başlangıçta söylemedikleri şeyleri söylemelerini sağlayarak) ve gibi diğer üretken yapay zeka modelleriyle birleştirilmiş ses içeriği oluşturmak için GPT 3.

Microsoft AI VALL-E

Microsoft VALL-E'yi "Sinir Codec Dil Modeli" olarak adlandırır ve Meta'nın Ekim 2022'de duyurduğu EnCodec adlı teknolojiye dayanır. Genellikle konuşmayı dalga biçimlerini değiştirerek sentezleyen diğer metinden konuşmaya yöntemlerinden farklı olarak VALL-E, ayrı ses üretir metin ve akustik istemlerden codec kodları. Temel olarak bir kişinin sesini analiz eder, EnCodec sayesinde bu bilgiyi ayrı bileşenlere ("belirteçler" adı verilen) ayırır ve o sesin dışarıda başka ifadeler söylemesi durumunda nasıl çıkacağına ilişkin "bildiği" şeyleri eşleştirmek için eğitim verilerini kullanır. üç saniyelik numunenin.

Microsoft VALL-E'nin konuşma sentezi yeteneklerini Meta tarafından derlenen LibriLight adlı bir ses kitaplığında eğitti. Çoğunlukla kamuya açık LibriVox sesli kitaplarından alınan 60'den fazla spikerin 7 saatlik İngilizce yayınını içerir.

VALL-E, spikerin ses tonunu ve duygusal tonunu korumanın yanı sıra, ses örneğinin "akustik ortamını" da simüle edebilir. Örneğin, örnek bir telefon görüşmesinden elde edilmişse sentezlenen ses çıkışı, telefon görüşmesinin akustik ve frekans özelliklerini simüle edecektir. Ayrıca örnekler Microsoft VALL-E'nin vokal tını varyasyonları oluşturabildiğini gösterin.

Microsoft AI VALL-E

Belki de VALL-E'nin dolandırıcılık ve aldatmayı potansiyel olarak kolaylaştırma yeteneğinden dolayı, Microsoft başkalarının deneme yapması için VALL-E kodunu sağlamadığından yeteneklerini test edemeyeceğiz. Araştırmacılar bu teknolojinin getirebileceği potansiyel sosyal zararın farkında görünüyor. Makalenin sonuç bölümünde şunları yazıyorlar:

"VALL-E, konuşmacının kimliğini koruyan konuşmayı sentezleyebildiği için, sahte ses tanımlaması veya belirli bir konuşmacının kimliğine bürünme gibi potansiyel model kötüye kullanma riskleri taşıyabilir. Bu tür riskleri azaltmak için, bir ses klibinin VALL-E kullanılarak sentezlenip sentezlenmediğini ayırt edecek bir tanıma modeli oluşturulacak."

Ukrayna'nın Rus işgalcilerine karşı savaşmasına yardım edebilirsiniz. Bunu yapmanın en iyi yolu, Ukrayna Silahlı Kuvvetlerine bağış yapmaktır. Hayat kurtarmak veya resmi sayfa aracılığıyla NBU.

Ayrıca okuyun:

DzhereloArstechnica
Üye olmak
hakkında bilgilendir
konuk

0 Yorumlar
Gömülü İncelemeler
Tüm yorumları görüntüle