Enlace publicado por Fer

ElevenLabs: Vamos a clonar nuestra voz con inteligencia artificial.

disfruten de que me haya dado ganas de publicar algo, porque así como reaparecí podría volver a desaparecerme.
muy bien. esto es un servicio de clonación de voces para texto a voz, no para canto, y creación de contenido con dichas voces como ser audiolibros, podcasts y emás.
Cosas a destacar (para mí) son la posibilidad de clonar instantáneamente una voz con unos pocos minutos de grabación que pueden ser cualquier cosa. Desde que se introdujo el primer modelo multilingüe de IA, estas voces (como lo podría ser tu propia voz clonada) es capaz de hablar varios idiomas inclusive en un mismo texto. El nuevo modelo multilingüe introduce aún más idiomas. Finalmente, también podríamos diseñar nuestras propias voces a partir de una IA generativa.
Primeramente van a poder probar por un breve tiempo y sin necesidad de registrarse las voces disponibles dispuestas para todos, para que vean cómo, aunque se hayan hecho para otros idiomas o acentos, igual funcionan en español u otro de los idiomas soportados.
Más tarde, se les avisará que para continuar usándolas, van a tener que registrarse. Pueden hacer una cuenta, iniciar sesión con Google o Facebook, ETC.
A partir de acá, tengan en cuenta: Pueden usar elevenLabs gratuitamente con las siguientes restricciones: 1000 caracteres mensuales que pueden generar, porque cuando generan el texto con esta voz se genera un audio mp3 que posteriormente se puede descargar, y se cobra por esa generación de audio; pueden diseuñar voces con IA generativa y acceder a la biblioteca de voces diseñadas que también es gratuita. No pueden usar la clonación de voces. Para esto, van a tener que subscribirse mínimo al plan starter, que son 5$, aunque el primer mes te cobran 1$.
Ahora bien, tienen la posibilidad de clonar su voz (y solo su propia voz y la de nadie más) con entrenamiento profesional. esto funciona a partir del plan Vreators, y como yo ya lo hice, les aseguro que esta es la forma de clonación más indistinguible de nuestra voz original. Pero, como dije, a partir del plan creators que son 22$ mensuales o cualquier otro plan aún más caro, que yo no me puedo permitir. esto incluye compartir nuestra voz con otras personas que también tiene que tener a partir del plan Creators.
Olvídense hoy por hoy de algo como usarlas con NVDA o en android. en un futuro vaya a saberse aunque no me hago ilusiones, pero sí piensen que esto es más o menos como un GPT 3, pero con texto a oz en vez de generación de texto. O sea, ustedes generan la síntesis de voz, pero nunca se sabe el resultado. Nunca se repite, y si prueban generando más de un audio con lo mismo se van a dar cuenta que no es igual.
Además, una cosa muy grosa para mí que destacar, es que si bien no podemos cambiar tono, velocidad, volumen y demás, en cambio podemos reducir la estabilidad, lo que puede producir cambios inesperados o demasiado grosos en cuanto a la inflexión tonal, volumen, suspiros y otras cosas, por no decir que igual la IA se suele ir al carajo en textos algo largos. Pero bueno.
Nada, ahí se la dejo.