13 de Abril 2021 · 4 minutes
Hola, este es un artículo de mi blog diferente y creo que ya te diste cuenta el por qué. Aquí les contaré cómo crear con modelos de Inteligencia Artificial la capacidad de poder leerles el articulo en español conversacional de una manera cotidiana. La voz es sin duda uno de los desafíos para la tecnología que ha intentado dominar desde 1985 a la fecha para interactuar entre las máquinas y los humanos de una manera natural como lo hacen las conversaciones entre las personas.
El control de la voz, las pausas y las puntuaciones para lograr que nuestro algoritmo pueda leer tan bien como una persona educada es extremadamente complejo. Es necesario que nuestro algoritmo y modelo tengan una convergencia alta y muchas horas para afinar las variables, tanto como Miguel Angelo pintó la capilla sixtina.
El uso de Deep Learning es esencial para lograr este nivel con mayores capas de extracción y aprendizaje para lograr la fluidez necesaria y que no parezca el audio a Microsoft SAM de Windows 95.
Concatenation synthesis
La síntesis de concatenación, se basa en la concatenación de segmentos de voz pregrabados. Los segmentos pueden ser oraciones completas, palabras, sílabas, difonos o incluso fonemas individuales. Por lo general, se almacenan en forma de formas de onda o espectrogramas.
Adquirimos los segmentos con la ayuda de un sistema de reconocimiento de voz y luego los etiquetamos en función de sus propiedades acústicas (por ejemplo, su frecuencia fundamental). En tiempo de ejecución, la secuencia deseada se crea determinando la mejor cadena de unidades candidatas de la base de datos (selección de unidades).
Statistical Parametric Synthesis
La síntesis paramétrica también utiliza voces humanas grabadas. La diferencia es que usamos una función y un conjunto de parámetros para modificar la voz.
En la síntesis paramétrica estadística, generalmente tenemos dos partes. El entrenamiento y la síntesis. Durante el entrenamiento, extraemos un conjunto de parámetros que caracterizan la muestra de audio, como el espectro de frecuencia (tracto vocal), la frecuencia fundamental (fuente de la voz) y la duración (prosodia) del habla. Luego tratamos de estimar esos parámetros usando un modelo estadístico. Históricamente, el que ha demostrado proporcionar los mejores resultados es el Modelo Oculto de Markov (HMM).
Speech synthesis evaluation
La puntuación de opinión media (MOS) es el método más utilizado para evaluar la calidad del discurso generado. MOS tiene un rango de 0 a 5 donde el habla humana real está entre 4.5 a 4.8
MOS proviene del campo de las telecomunicaciones y se define como la media aritmética de calificaciones individuales realizadas por sujetos humanos para un estímulo dado en una prueba de evaluación de calidad subjetiva. Históricamente, esto significa que un grupo de personas se sienta en una habitación tranquila, escucha la muestra generada y le da una puntuación. MOS no es más que el promedio de todas las “opiniones de la gente”.
¿Hasta dónde crees que llegará la capacidad de las máquinas interactuar con los humanos?