Evolución de la tecnología de conversión de texto a voz: ¡desde el siglo XVIII hasta ahora!

Evolución de la tecnología de texto a voz
La tecnología de conversión de texto a voz ha transformado la forma en que nos comunicamos con computadoras y dispositivos, desde voces robóticas hasta el habla natural similar a la humana. Conozca la evolución de la tecnología de texto a voz, cómo se ha desarrollado a lo largo de los años, cuáles son sus beneficios y desafíos, y cuáles son sus aplicaciones actuales y futuras.
Tabla de contenido

La tecnología de texto a voz (TTS) es el proceso de convertir texto escrito en audio hablado. Tiene muchas aplicaciones, como accesibilidad, educación, entretenimiento y comunicación. La tecnología TTS ha evolucionado significativamente a lo largo de los años, desde simples voces sintetizadas que suenan robóticas y poco naturales, hasta sistemas avanzados de procesamiento del lenguaje natural (PLN) que pueden producir un habla similar a la humana con emociones, acentos y entonación.

En este artículo, exploraremos la historia y el desarrollo de la tecnología TTS, los desafíos y oportunidades que enfrenta y las direcciones futuras que puede tomar.

Hitos en la historia de la tecnología de conversión de texto a voz

A continuación se muestra un breve resumen del desarrollo de síntesis de voz La tecnología y los hitos en la historia de la conversión de texto a voz.

AñoEvento
1700El científico alemán-danés Christian Kratzenstein crea resonadores acústicos que imitan la voz humana.
1952AUDREY, el primer sistema de reconocimiento de voz que reconocía números hablados, fue desarrollado por Bell Laboratories.
1962IBM desarrolló Shoebox, un sistema que reconocía números y términos matemáticos simples.
1968Noriko Umeda inventa la conversión de texto a voz para inglés en el Laboratorio Electrotécnico de Japón.
década de 1970Desarrollo del primer sintetizador articulatorio basado en el tracto vocal humano.
1976HARPY, un sistema que reconocía oraciones de un vocabulario de 1.011 palabras utilizando modelos ocultos de Markov, fue desarrollado por la Universidad Carnegie Mellon.
década de 1980La síntesis de voz ingresa al mundo de los videojuegos con el lanzamiento de Stratovox. Steve Jobs crea NeXT, que luego se fusiona con Apple.
1984Kurzweil Applied Intelligence lanzó el primer software de reconocimiento de voz disponible comercialmente para computadoras personales.
década de 1990Las mejoras en el habla sintetizada dan como resultado consonantes más suaves y voces con un sonido más natural. Microsoft lanza Narrador, una solución de lector de pantalla incluida en Windows.
1990Dragon Systems lanzó Dragon Dictate, el primer software de reconocimiento continuo de voz que permitía a los usuarios hablar de forma natural sin pausas entre palabras.
1996Bell Labs presentó AT&T Natural Voices, un sistema de texto a voz que utiliza redes neuronales para generar voz con sonido natural.
2000Los desarrolladores enfrentan desafíos al crear estándares acordados para el habla sintetizada.
2001Microsoft presentó la Interfaz de programación de aplicaciones de voz (SAPI) 5.0, una interfaz estándar para desarrollar aplicaciones de voz en plataformas Windows.
2006Google lanzó Google Voice Search, un servicio que permitía a los usuarios realizar búsquedas en la web mediante comandos de voz en sus teléfonos móviles.
2011Apple presentó Siri, un asistente personal activado por voz que utilizaba procesamiento de lenguaje natural y aprendizaje automático para responder preguntas y realizar tareas.
2014Amazon lanzó Alexa, un servicio de voz basado en la nube que alimentaba parlantes inteligentes y otros dispositivos con capacidades de interacción de voz.
2016DeepMind desarrolló WaveNet, un modelo basado en una red neuronal profunda para la síntesis de voz que generaba formas de onda de audio sin procesar.
2018Baidu presentó Deep Voice 3, un modelo basado en redes neuronales para conversión de texto a voz que podría clonar una voz humana con sólo unos minutos de datos de audio.
2020OpenAI presentó Jukebox, un modelo basado en redes neuronales para la generación de música que podría producir canciones con letras y voces en varios géneros y estilos.
FuturoConcéntrese en crear un modelo del cerebro para comprender mejor los datos del habla. Énfasis en comprender el papel de las emociones en el habla y crear voces de IA indistinguibles de las humanas.

Ahora profundicemos en la historia de la tecnología de texto a voz.

Desarrollo histórico de TTS

Orígenes tempranos de la tecnología TTS y sus aplicaciones iniciales

Los primeros orígenes de la tecnología TTS se remontan al siglo XVIII, cuando algunos científicos construyeron modelos del tracto vocal humano que podían producir sonidos vocálicos. El primer sintetizador de voz electrónico fue inventado por Homer Dudley en 1939 y utilizaba un teclado y un pedal para controlar el tono y la duración de los sonidos del habla.

Las aplicaciones iniciales de la tecnología TTS fueron principalmente con fines de accesibilidad, como ayudar a las personas con discapacidad visual o con problemas de lectura a acceder a texto escrito. Posteriormente, la tecnología TTS también se utilizó con fines de entretenimiento, educación y comunicación, como la creación de robots de voz. audiolibros y asistentes de voz.

Las limitaciones de los primeros sistemas TTS.

Algunas de las limitaciones de los primeros sistemas TTS fueron:
  1. Voces robóticas: Los primeros sistemas TTS utilizaban tecnologías basadas en reglas, como la síntesis de formantes y la síntesis articulatoria, que lograban un resultado similar a través de estrategias ligeramente diferentes. Investigadores pioneros grabaron a un hablante y extrajeron características acústicas de ese discurso grabado: formantes, que definen las cualidades de los sonidos del habla, en síntesis de formantes; y parámetros articulatorios, como la posición de la lengua y la forma de los labios, en la síntesis articulatoria. Luego, estas características se utilizaron para sintetizar sonidos del habla desde cero, utilizando modelos matemáticos del tracto vocal y otros componentes de la producción del habla. Sin embargo, estos métodos a menudo producían un habla con un sonido antinatural que carecía de la prosodia, la entonación y la variabilidad del habla humana.
  2. Falta de naturalidad: Otra limitación de los primeros sistemas TTS fue su dificultad para producir un discurso con un sonido natural que coincidiera con el contexto, la emoción y la intención del hablante. Los primeros sistemas TTS se basaban en reglas y algoritmos fijos para generar voz, que no tenían en cuenta los matices y variaciones del lenguaje y la comunicación humanos. Por ejemplo, los primeros sistemas TTS no podían ajustar su tono o velocidad según el estado de ánimo o la actitud del hablante o del oyente. Tampoco podían manejar fenómenos lingüísticos complejos como el sarcasmo, la ironía, el humor o los modismos.
  3. Errores de pronunciación: Una tercera limitación de los primeros sistemas TTS era su incapacidad para pronunciar palabras correctamente en diferentes idiomas, acentos o dialectos. Los primeros sistemas TTS utilizaban la conversión de texto a fonema para asignar palabras escritas a sus correspondientes sonidos del habla. Sin embargo, este proceso a menudo era inexacto o incompleto, especialmente para palabras que tenían múltiples pronunciaciones o ortografía irregular. Además, los primeros sistemas TTS no tenían acceso a bases de datos grandes y diversas de muestras de voz que pudieran cubrir todas las variaciones y matices del habla humana en diferentes regiones y culturas. Como resultado, los primeros sistemas TTS a menudo pronunciaban mal palabras o frases que no les eran familiares o poco comunes.



Los principios detrás de los primeros modelos TTS

Los principios detrás de los primeros modelos TTS, como la síntesis de formantes y la síntesis concatenativa, son:

  1. Síntesis de formantes: Este método utiliza modelos matemáticos del tracto vocal y otros componentes de la producción del habla para sintetizar los sonidos del habla desde cero1. Se basa en extraer características acústicas, como formantes, del habla grabada y utilizarlas para controlar los parámetros de los modelos2. La síntesis de formantes puede producir habla en cualquier idioma o acento, pero a menudo suena robótico y antinatural3
  2. Síntesis concatenativa: Este método utiliza unidades de habla pregrabadas, como teléfonos, difonos o sílabas, y las concatena para producir voz1. Se basa en encontrar las unidades que mejor coincidan para un texto determinado y suavizar las transiciones entre ellas2. La síntesis concatenativa puede producir un habla con sonido natural. , pero requiere una base de datos grande y diversa de muestras de voz y no puede manejar palabras fuera de vocabulario o acentos novedosos.

Avances en la tecnología TTS

Voces sintéticas y prosodia

Desarrollo de voces sintéticas y su impacto en TTS.

El desarrollo de voces sintéticas y su impacto en TTS son:

  1. Voces sintéticas: Las voces sintéticas son voces artificiales creadas mediante aplicaciones de síntesis de voz, como los sistemas de texto a voz (TTS), que convierten texto u otras representaciones simbólicas en voz. La síntesis de voces se puede utilizar para diversos fines, como accesibilidad, educación, entretenimiento y comunicación.
  2. Desarrollo: El desarrollo de voces sintéticas ha pasado por varias etapas, desde métodos basados en reglas, como la síntesis de formantes y la síntesis concatenativa, hasta métodos basados en datos, como la síntesis paramétrica estadística y la síntesis basada en redes neuronales. Los métodos basados en reglas utilizan modelos matemáticos y unidades de habla pregrabadas para generar sonidos del habla desde cero o mediante concatenación. Los métodos basados en datos utilizan algoritmos de aprendizaje automático y corpus de voz a gran escala para aprender el mapeo entre el texto y las características del habla y generar voz mediante muestreo u optimización.
  3. Impacto: El impacto de las voces sintéticas en TTS es que han mejorado la calidad, naturalidad y diversidad del habla sintetizada con el tiempo. Las voces sintéticas ahora pueden producir un habla que en algunos casos es indistinguible del habla humana y también pueden adaptarse a diferentes idiomas, acentos, estilos y emociones. Las voces sintéticas también pueden permitir nuevas aplicaciones y escenarios para TTS, como la clonación de voz, la conversión de voz, la suplantación de voz y la marca de agua de voz. Sin embargo, las voces sintéticas también plantean algunos desafíos y riesgos para TTS, como cuestiones éticas, implicaciones sociales y el posible uso indebido de deepfakes y contenido engañoso.

Importancia de la prosodia en la creación de un habla que suene natural.

La importancia de la prosodia (entonación, ritmo y acentuación) en la creación de un habla que suene natural es:

  1. Prosodia Es el patrón de variación en el tono, el volumen y la duración de los sonidos del habla que transmite información sobre la estructura, el significado y la emoción de un enunciado. La prosodia es un aspecto esencial del habla humana que afecta la forma en que percibimos y entendemos el lenguaje hablado.
  2. Modelado de prosodia es el proceso de agregar la entonación, el acento y el ritmo apropiados a la salida de voz, según el contexto y el significado del texto3 El modelado de prosodia es crucial para crear TTS con sonido natural que transmita el sentimiento y la emoción correctos en el discurso3 Esta tecnología implica analizar las características lingüísticas y acústicas del texto y aplicar las reglas y patrones prosódicos apropiados2
  3. Impacto de la prosodia es el efecto de la prosodia sobre la calidad, naturalidad y expresividad del habla sintetizada. El impacto de la prosodia puede mejorar la inteligibilidad, la claridad y la fluidez del habla, así como la participación, la atención y la satisfacción del oyente2. El impacto de la prosodia también puede mejorar la comunicación de emociones, actitudes, intenciones y personalidades en el habla, haciéndola más parecida a la humana. y realista

Técnicas utilizadas para mejorar la prosodia en sistemas TTS

Algunas de las técnicas utilizadas para mejorar la prosodia en sistemas TTS son:

  1. Predicción de prosodia: Esta técnica implica predecir las características prosódicas, como el tono, la duración y la energía, a partir del texto de entrada u otras características lingüísticas1. La predicción de la prosodia se puede realizar utilizando métodos basados en reglas, como la anotación ToBI y el modelo Fujisaki, o métodos basados en datos. , como árboles de decisión, modelos ocultos de Markov y redes neuronales. La predicción de la prosodia puede mejorar la inteligibilidad y la naturalidad del habla sintetizada añadiendo el acento, la entonación y el ritmo adecuados.
  2. Modelado de prosodia: Esta técnica implica modelar la estructura prosódica y los patrones del habla natural y aplicarlos a la salida de voz. El modelado de prosodia se puede realizar utilizando métodos basados en reglas, como el modelo superposicional y el modelo de aproximación de objetivos, o métodos basados en datos, como la síntesis paramétrica estadística y la síntesis basada en redes neuronales. El modelado de prosodia puede mejorar la calidad y expresividad del habla sintetizada al capturar las variaciones lingüísticas y acústicas de la prosodia.
  3. Control de prosodia: Esta técnica implica modificar o incorporar la prosodia deseada al nivel más fino controlando la frecuencia fundamental y la duración del teléfono. El control de la prosodia se puede realizar utilizando métodos basados en reglas, como escalamiento de tono y escala de duración, o métodos basados en datos, como tokens de estilo y tokens de estilo global3 El control de la prosodia puede mejorar la diversidad y adaptabilidad del habla sintetizada al permitir diferentes idiomas, acentos , estilos y emociones.

Modelos basados en redes neuronales

Aparición de modelos basados en redes neuronales en la tecnología TTS.

La aparición de modelos basados en redes neuronales en la tecnología TTS es:

  1. Modelos basados en redes neuronales: Los modelos basados en redes neuronales son modelos de aprendizaje automático que utilizan redes neuronales artificiales para aprender el mapeo entre las características del texto y el habla y generar voz mediante muestreo u optimización. Los modelos basados en redes neuronales pueden superar algunas de las limitaciones de los métodos basados en reglas y datos, como la falta de naturalidad, la falta de diversidad y los errores de pronunciación.
  2. Aparición: La aparición de modelos basados en redes neuronales en la tecnología TTS se puede atribuir al desarrollo del aprendizaje profundo y la inteligencia artificial, así como a la disponibilidad de corpus de voz y recursos computacionales a gran escala. El primer modelo basado en redes neuronales para TTS fue propuesto por Zen et al. en 2009, que utilizó una red neuronal profunda (DNN) para predecir características acústicas a partir de características lingüísticas. Desde entonces, se han aplicado varias arquitecturas y técnicas de redes neuronales a TTS, como redes neuronales recurrentes (RNN), redes neuronales convolucionales (CNN), mecanismos de atención, redes generativas adversarias (GAN), codificadores automáticos variacionales (VAE) y transformadores.
  3. Impacto: El impacto de los modelos basados en redes neuronales en la tecnología TTS es que han logrado un rendimiento de vanguardia en términos de calidad, naturalidad y diversidad del habla sintetizada. Los modelos basados en redes neuronales pueden producir un habla que en algunos casos es indistinguible del habla humana y también pueden adaptarse a diferentes idiomas, acentos, estilos y emociones. Los modelos basados en redes neuronales también pueden permitir nuevas aplicaciones y escenarios para TTS, como la clonación de voz, la conversión de voz, la suplantación de voz y la marca de agua de voz. Sin embargo, los modelos basados en redes neuronales también plantean algunos desafíos y riesgos para TTS, como la eficiencia de los datos, la interpretabilidad, la solidez y el posible uso indebido de deepfakes y contenido engañoso.

Ventajas de las redes neuronales sobre los enfoques tradicionales basados en reglas.

Algunas de las ventajas de las redes neuronales sobre los enfoques basados en reglas son:

  1. Aprendizaje basado en datos: Las redes neuronales pueden aprender el mapeo entre las características del texto y del habla a partir de corpus de habla a gran escala, sin depender de reglas hechas a mano o unidades de habla pregrabadas. Esto los hace más flexibles y adaptables a diferentes idiomas, acentos, estilos y emociones.
  2. Generación de extremo a extremo: Las redes neuronales pueden generar voz directamente a partir de texto, sin pasos intermedios como análisis de texto, modelado acústico y codificación de voz. Esto reduce la complejidad y la propagación de errores del proceso de síntesis.
  3. Naturalidad y diversidad: Las redes neuronales pueden producir un habla más natural y diversa que los enfoques basados en reglas, al capturar las variaciones lingüísticas y acústicas de la prosodia y la calidad de la voz. Las redes neuronales también pueden permitir nuevas aplicaciones y escenarios para TTS, como clonación de voz, conversión de voz, suplantación de voz y marca de agua de voz.

Componentes de los modelos neuronales TTS.

Los componentes de los modelos neuronales TTS son:

  1. Procesamiento de texto: Este componente implica analizar el texto de entrada y convertirlo en una secuencia de características lingüísticas, como fonemas, sílabas, palabras o caracteres. El procesamiento de texto también puede incluir agregar puntuación, mayúsculas, normalización y otros pasos de preprocesamiento de texto. El procesamiento de texto se puede realizar utilizando métodos basados en reglas, como gramáticas y léxicos de análisis de texto, o métodos basados en datos, como redes neuronales y transformadores.
  2. Modelado acústico: Este componente implica predecir las características acústicas, como el tono, la duración y la energía, a partir de las características lingüísticas. El modelado acústico también puede incluir modelar la estructura prosódica y los patrones del habla natural y aplicarlos a la salida de voz. El modelado acústico se puede realizar utilizando métodos basados en reglas, como el modelo superposicional y el modelo de aproximación de objetivos, o métodos basados en datos, como redes neuronales y transformadores.
  3. codificación de voz: Este componente implica convertir las características acústicas en una señal de audio continua. La codificación de voz también puede incluir modificar o incorporar la calidad de voz y el timbre deseados en un nivel más fino controlando la frecuencia fundamental y la duración del teléfono. La codificación de voz se puede realizar utilizando métodos basados en reglas, como el modelo de filtro de fuente y la concatenación de formas de onda, o métodos basados en datos, como redes neuronales y transformadores.

WaveNet y SampleRNN

Exploración del revolucionario modelo WaveNet y su contribución a TTS.

El modelo WaveNet y su contribución al TTS son:

  1. Modelo WaveNet: WaveNet es un modelo generativo de formas de onda de audio sin procesar que utiliza una red neuronal convolucional profunda con convoluciones causales dilatadas. WaveNet modela directamente la distribución de probabilidad de cada muestra de audio condicionada a todas las muestras anteriores, utilizando una capa de salida softmax. WaveNet puede generar voz tomando muestras de esta distribución o condicionando entradas adicionales como texto o identidad del hablante.
  2. Contribución a TTS: WaveNet ha mejorado significativamente la calidad, la naturalidad y la diversidad del habla sintetizada en comparación con los métodos anteriores. WaveNet puede producir un habla que suena más humana y realista, y también puede adaptarse a diferentes idiomas, acentos, estilos y emociones. WaveNet ha inspirado muchos modelos posteriores basados en redes neuronales para TTS, como Tacotron, Deep Voice y Transformer TTS3. WaveNet también ha permitido nuevas aplicaciones y escenarios para TTS, como clonación de voz, conversión de voz, suplantación de voz y marca de agua de voz.

Capacidad de WaveNet para generar voz similar a la humana de alta calidad a través de un modelado generativo profundo.

La capacidad de WaveNet para generar voz similar a la humana de alta calidad a través de un modelado generativo profundo es:

  1. Modelado generativo profundo: WaveNet es un modelo generativo profundo de formas de onda de audio sin procesar que utiliza una red neuronal convolucional profunda con convoluciones causales dilatadas. WaveNet modela directamente la distribución de probabilidad de cada muestra de audio condicionada a todas las muestras anteriores, utilizando una capa de salida softmax. WaveNet puede generar voz tomando muestras de esta distribución o condicionando entradas adicionales como texto o identidad del hablante.
  2. Discurso de alta calidad: WaveNet puede producir un habla que suena más natural y realista que los métodos anteriores, al capturar las variaciones lingüísticas y acústicas de la prosodia y la calidad de la voz. WaveNet también puede adaptarse a diferentes idiomas, acentos, estilos y emociones. WaveNet ha mejorado significativamente la calidad del habla sintetizada en comparación con métodos anteriores, reduciendo la brecha con el rendimiento humano en más de 50%.
  3. Habla similar a la humana: WaveNet puede generar voz que imita cualquier voz humana, modelando directamente la voz a partir de grabaciones de locutores humanos en off. En lugar de sintetizar sonidos, está emulando a una persona real. WaveNet también puede habilitar nuevas aplicaciones y escenarios para TTS, como clonación de voz, conversión de voz, suplantación de voz y marca de agua de voz.

Introducción de SampleRNN como un enfoque alternativo para generar voz con mayor eficiencia.

La introducción de SampleRNN como un enfoque alternativo para generar voz con mayor eficiencia es:

  1. MuestraRNN: SampleRNN es un modelo generativo autorregresivo de formas de onda de audio sin procesar que utiliza una estructura jerárquica de profundidad. redes neuronales recurrentes (RNN) para modelar dependencias en la secuencia de muestra. SampleRNN puede generar voz mediante muestreo de la distribución condicional de cada muestra de audio dadas todas las muestras anteriores y entradas adicionales como texto o identidad del hablante.
  2. Enfoque alternativo: SampleRNN es un enfoque alternativo a WaveNet, que utiliza una red neuronal convolucional profunda con convoluciones causales dilatadas para generar voz. SampleRNN tiene diferentes módulos que operan a diferentes velocidades de reloj, lo que permite una mayor flexibilidad en la asignación de recursos computacionales y modelado de diferentes niveles de abstracción.
  3. Eficiencia mejorada: SampleRNN puede generar voz con una eficiencia mejorada en comparación con WaveNet, ya que tiene menor complejidad computacional y requisitos de memoria. SampleRNN también puede aprovechar técnicas de paralelismo y optimización, como el forzamiento del profesor y el muestreo programado, para acelerar el entrenamiento y la inferencia.

 Transferencia de aprendizaje y TTS multilingüe

Avances en técnicas de aprendizaje por transferencia para TTS

Los avances en las técnicas de aprendizaje por transferencia para TTS son:

Transferir aprendizaje: El aprendizaje por transferencia es una técnica de aprendizaje automático que aprovecha el conocimiento de un modelo previamente entrenado para una nueva tarea o dominio1 El aprendizaje por transferencia puede reducir el requisito de datos y el tiempo de entrenamiento para adaptar los modelos TTS a una nueva voz, utilizando solo unos minutos de voz datos.

Avances: Algunos de los avances en las técnicas de aprendizaje por transferencia para TTS son:

  1. Ajuste de modelos TTS de un solo altavoz: Esta técnica implica ajustar modelos TTS de un solo altavoz de alta calidad para un nuevo altavoz, utilizando solo unos minutos de datos de voz. Esta técnica puede producir un rendimiento comparable al de un modelo entrenado desde cero con más de 27 horas de datos para hablantes objetivo tanto masculinos como femeninos.
  2. Adaptación de modelos TTS multialtavoz: Esta técnica implica adaptar modelos TTS de múltiples hablantes previamente entrenados para una nueva voz, utilizando unos minutos de datos de voz del nuevo hablante. Esta técnica puede condicionar el modelo previamente entrenado directamente a la incorporación del hablante derivado del nuevo hablante o ajustar el modelo a partir de los datos del nuevo hablante.
  3. Explorando TTS emocional de bajos recursos: Esta técnica implica explorar métodos de aprendizaje por transferencia para TTS emocionales de bajos recursos, utilizando una pequeña cantidad de datos del habla emocional. Esta técnica puede mejorar la naturalidad y expresividad del habla sintetizada al capturar la emoción y el estilo del hablante objetivo.

Explicación de cómo el aprendizaje por transferencia permite entrenar modelos TTS en varios idiomas con datos limitados.

La forma en que el aprendizaje por transferencia permite entrenar modelos TTS en múltiples idiomas con datos limitados es:

  1. Múltiples idiomas: El aprendizaje por transferencia puede permitir entrenar modelos TTS en varios idiomas con datos limitados mediante el uso de métodos de aprendizaje por transferencia multilingües o entre idiomas. El aprendizaje por transferencia multilingüe implica ajustar un modelo TTS previamente entrenado desde un idioma de altos recursos a un idioma de bajos recursos, utilizando una pequeña cantidad de datos del idioma de destino. El aprendizaje por transferencia multilingüe implica adaptar un modelo TTS de múltiples hablantes previamente entrenado a un nuevo idioma, utilizando un conjunto de datos multilingües conjuntos de idiomas de bajos recursos.
  2. Datos limitados: El aprendizaje por transferencia puede superar el problema de la escasez de datos para los idiomas de bajos recursos mediante el uso de aumento de datos y técnicas de aprendizaje por transferencia parcial basadas en redes. El aumento de datos implica generar datos de voz sintéticos a partir de los datos originales mediante la aplicación de diversas transformaciones, como cambio de tono, perturbación de velocidad y adición de ruido. El aprendizaje por transferencia parcial basado en red implica transferir solo algunas capas o módulos del modelo previamente entrenado al nuevo modelo, mientras que el resto se congela o descarta.

Beneficios y desafíos del desarrollo de sistemas TTS multilingües

Algunos de los beneficios y desafíos de desarrollar sistemas TTS multilingües son:

  1. Beneficios: Los sistemas TTS multilingües pueden proporcionar síntesis de voz para varios idiomas utilizando un solo modelo, lo que puede reducir los requisitos de datos y el tiempo de capacitación para idiomas de bajos recursos. Los sistemas TTS multilingües también pueden mejorar la calidad, naturalidad y diversidad del habla sintetizada al capturar las variaciones lingüísticas y acústicas de diferentes idiomas. Los sistemas TTS multilingües también pueden permitir nuevas aplicaciones y escenarios para TTS, como síntesis multilingüe, clonación de voz, conversión de voz, suplantación de voz y marca de agua de voz.
  2. Desafíos: Los sistemas multilingües de conversión de texto a voz se enfrentan a varios desafíos, como encontrar una representación adecuada para varios idiomas, como el Alfabeto Fonético Internacional (IPA) o los grafemas. Los sistemas TTS multilingües también deben abordar el equilibrio entre el modelado específico del idioma y el modelado independiente del idioma, así como el equilibrio entre la cantidad y la calidad de los datos para diferentes idiomas. Los sistemas TTS multilingües también deben abordar las cuestiones de la identidad del hablante, el estilo de habla y las emociones en diferentes idiomas.

Desafíos y direcciones futuras

Consideraciones éticas

Algunas de las preocupaciones éticas relacionadas con TTS son:

  1. Clonación de voz: La clonación de voz es el proceso de crear una voz sintética que imita una voz humana específica, utilizando una pequeña cantidad de datos de voz del hablante objetivo. La clonación de voz puede tener aplicaciones positivas, como restaurar la voz de personas que perdieron la capacidad de hablar debido a una enfermedad o lesión, o preservar la voz de personajes históricos o celebridades. Sin embargo, la clonación de voz también puede tener implicaciones negativas, como violar la privacidad y el consentimiento del hablante objetivo, o crear contenido falso o engañoso que puede dañar la reputación o credibilidad del hablante objetivo.
  2. falsificaciones profundas: Los deepfakes son medios sintéticos que combinan y superponen imágenes y videos existentes en imágenes o videos originales utilizando técnicas de aprendizaje profundo. Los deepfakes pueden crear videos o clips de audio realistas y convincentes que muestran a personas diciendo o haciendo cosas que nunca dijeron o hicieron. Los deepfakes pueden tener aplicaciones maliciosas, como difundir información errónea, propaganda o difamación, o manipular la opinión, el comportamiento o las emociones públicas.
  3. Sesgo y discriminación: Los prejuicios y la discriminación son el trato injusto o perjudicial a personas o grupos basándose en características como raza, género, edad o religión. El sesgo y la discriminación pueden afectar los sistemas de conversión de texto a voz de varias maneras, como la selección de idiomas, acentos, estilos y emociones para la síntesis del habla, o la representación e inclusión de diversas voces e identidades en datos y modelos de voz. Los prejuicios y la discriminación pueden tener consecuencias perjudiciales, como reforzar estereotipos, marginar a minorías o excluir a ciertos grupos del acceso a información o servicios.

Esto nos lleva a la importancia del uso responsable de la tecnología TTS y las posibles regulaciones:

  1. Uso responsable: El uso responsable de la tecnología TTS es el uso ético y legal de la tecnología TTS que respeta los derechos, la privacidad y el consentimiento de los locutores y los usuarios de voz, y que previene o minimiza el daño o el uso indebido de las voces sintéticas. El uso responsable de la tecnología TTS requiere el compromiso y la colaboración de las partes interesadas a lo largo de toda la cadena de valor de la tecnología, desde el diseño y desarrollo hasta la venta y el uso final de los productos y servicios TTS. El uso responsable de la tecnología TTS también requiere la adopción de mejores prácticas y directrices para la toma de decisiones éticas, la evaluación de riesgos y la transparencia y la rendición de cuentas.
  2. Regulaciones potenciales: Las posibles regulaciones para la tecnología TTS son las leyes y políticas que rigen el desarrollo, implementación y uso de la tecnología TTS, y que protegen los intereses y derechos de los locutores y los usuarios de voz. Las posibles regulaciones para la tecnología TTS pueden incluir:
  • Leyes de protección de datos y privacidad.: Estas leyes regulan la recopilación, el procesamiento, el almacenamiento y el intercambio de datos personales, como grabaciones de voz o modelos de voz, y requieren el consentimiento de los interesados y el cumplimiento de los controladores y procesadores de datos.
  • Leyes de propiedad intelectual y derechos de autor.: Estas leyes protegen la propiedad y los derechos de los locutores sobre sus grabaciones de voz o modelos de voz, e impiden el uso o la reproducción no autorizados de su voz por parte de otros.
  • Leyes antifraude y antidifamación: Estas leyes prohíben la creación o difusión de contenido falso o engañoso utilizando voces sintéticas, como deepfakes o phishing de voz, que puedan dañar la reputación o credibilidad de los locutores o usuarios de voz.

TTS en tiempo real y baja latencia

Algunos de los desafíos para lograr TTS en tiempo real y baja latencia son:

  1. Complejidad computacional: Los modelos TTS, especialmente los modelos basados en redes neuronales, tienen una alta complejidad computacional y requisitos de memoria, ya que necesitan procesar grandes cantidades de datos de texto y voz y generar muestras de audio de alta calidad. Esto puede limitar la velocidad y la eficiencia de los modelos TTS, especialmente para contenido de formato largo o aplicaciones a gran escala.
  2. Congestión en la red: Los modelos TTS, especialmente los modelos basados en la nube, dependen de la conectividad de red y el ancho de banda para entregar salida de voz a los usuarios. Sin embargo, la congestión de la red puede provocar retrasos, pérdidas de paquetes o fluctuaciones en la transmisión de datos de voz, lo que puede degradar la calidad y naturalidad de la voz sintetizada.
  3. Experiencia de usuario: Los modelos TTS, especialmente para aplicaciones de comunicación en tiempo real, deben proporcionar una experiencia de usuario interactiva y fluida que coincida con las expectativas y preferencias de los usuarios. Sin embargo, la experiencia del usuario puede verse afectada por varios factores, como la latencia, la confiabilidad y la diversidad del habla sintetizada, así como la calidad de la voz, el estilo y la emoción de las voces sintéticas.

Eso nos lleva a la importancia de reducir el tiempo de inferencia para aplicaciones TTS:

  1. Rendimiento en tiempo real: Reducir el tiempo de inferencia para las aplicaciones TTS puede permitir la síntesis de voz en tiempo real, que es un requisito para muchas aplicaciones prácticas como asistentes digitales, teléfonos móviles, dispositivos integrados, etc. Los sistemas de síntesis de voz en tiempo real pueden proporcionar una experiencia de usuario interactiva y fluida. que coincida con las expectativas y preferencias de los usuarios.
  2. Eficiencia de recursos: Reducir el tiempo de inferencia para las aplicaciones TTS también puede mejorar la eficiencia de los recursos de los modelos TTS, especialmente los modelos basados en redes neuronales, que tienen una alta complejidad computacional y requisitos de memoria. La eficiencia de los recursos puede reducir el costo y el consumo de energía de los modelos TTS y hacerlos más accesibles y escalables para diversos dispositivos y plataformas.
  3. Mejora de calidad: Reducir el tiempo de inferencia para aplicaciones TTS también puede mejorar la calidad, naturalidad y diversidad del habla sintetizada, al minimizar los retrasos, las pérdidas de paquetes o la fluctuación causada por la congestión de la red u otros factores. La mejora de la calidad puede aumentar la satisfacción y la confianza de los usuarios y los locutores, y prevenir o mitigar el daño o el uso indebido de las voces sintéticas.

Emoción y expresividad

Algunas de las investigaciones en curso para agregar emoción y expresividad a las voces TTS son:

  1. Entrada de intensidad de emoción: Esta investigación implica el uso de una entrada de intensidad emocional procedente de una extracción no supervisada para mejorar el TTS emocional. La entrada de intensidad de la emoción se deriva de un mapa de atención o prominencia de un reconocedor de emociones, que indica las regiones del habla que son más emocionales. La entrada de intensidad de la emoción se puede utilizar para controlar el grado de expresión de la emoción en el habla sintética.
  2. Incrustaciones de emoción y estilo.: Esta investigación implica el uso de métodos no supervisados para extraer incrustaciones de emociones y estilos del audio de referencia a nivel global, agrupado o de fotograma. Las incorporaciones de emociones y estilos pueden capturar las variaciones de la prosodia y la calidad de la voz en diferentes emociones y estilos. Las incorporaciones de emoción y estilo se pueden utilizar para condicionar el modelo TTS para generar discurso con la emoción y el estilo deseados.
  3. Conversión de emociones: Esta investigación implica el uso de técnicas como la conversión de voz o emociones para generar un discurso emocional a partir de un discurso neutral. La conversión de emociones puede modificar las características prosódicas y espectrales del habla para cambiar la emoción percibida por el hablante. La conversión de emociones se puede utilizar para aumentar los datos emocionales para entrenar modelos TTS o para sintetizar voz con diferentes emociones a partir de la misma entrada de texto.

Teniendo en cuenta lo anterior, el siguiente factor importante es la importancia de la síntesis emocional del habla en varios dominios:

  1. asistentes virtuales: La síntesis de voz emocional puede mejorar la naturalidad y la interactividad de los asistentes virtuales, como Siri, Alexa o Cortana, al permitirles expresar diferentes emociones y estilos según el contexto y los comentarios de los usuarios. La síntesis del habla emocional también puede mejorar la satisfacción y la confianza del usuario en la tecnología de asistencia virtual, haciéndolo más atractivo y empático.
  2. Entretenimiento: La síntesis de voz emocional puede enriquecer la industria del entretenimiento, como los videojuegos, las películas o los audiolibros, al crear voces sintéticas realistas y diversas para personajes, narradores o cantantes. La síntesis de voz emocional también puede permitir nuevas aplicaciones y escenarios de entretenimiento, como la clonación de voz, la conversión de voz, la suplantación de voz y la marca de agua de voz.
  3. Accesibilidad: La síntesis de habla emocional puede mejorar la accesibilidad e inclusión de personas con discapacidad o necesidades especiales, como discapacidad visual, dislexia o afasia, proporcionándoles un habla sintética expresiva y personalizada para la comunicación o la información. La síntesis del habla emocional también puede apoyar el bienestar emocional y la salud mental de las personas con discapacidades o necesidades especiales, brindándoles retroalimentación emocional o compañía.

Integración con asistentes de IA y dispositivos IoT

Integración de la tecnología TTS con asistentes de IA y dispositivos IoT.

Algunas de las novedades en la integración de la tecnología TTS con asistentes de IA y dispositivos IoT son:

  1. Azure Neural TTS en dispositivos: Azure Neural TTS es un potente servicio de síntesis de voz que permite a los usuarios convertir texto en voz realista mediante IA. Azure Neural TTS ha anunciado recientemente la disponibilidad de voces naturales en el dispositivo para escenarios híbridos y desconectados, como lectores de pantalla, asistentes de voz en automóviles o dispositivos integrados. Azure Neural TTS en dispositivos puede proporcionar alta calidad, alta eficiencia y alta capacidad de respuesta para la síntesis de voz en varios dispositivos y plataformas.
  2. API de conversión de texto a voz de Google Cloud: Google Cloud Text-to-Speech API es un servicio basado en la nube que permite a los usuarios sintetizar voz con sonido natural con las innovadoras redes neuronales de Google. La API Text-to-Speech de Google Cloud admite más de 140 idiomas y variantes, y permite a los usuarios personalizar el tono, la velocidad de conversación y el perfil de voz del habla sintética. La API Text-to-Speech de Google Cloud también admite la creación y el ajuste de voz personalizados para crear voces únicas y personalizadas para diferentes marcas y aplicaciones.
    UberTTS es un texto a voz avanzado programa que combina las capacidades de las tecnologías Azure y Google AI mencionadas anteriormente en una junto con el uso completo Funciones SSML.Ubertts_Logo_240X70
  3. Voz en el dispositivo: Speech On-Device es una solución que permite a los usuarios ejecutar IA de voz con calidad de servidor localmente en cualquier dispositivo, como teléfonos, tabletas, automóviles, televisores o parlantes. Speech On-Device puede proporcionar síntesis y reconocimiento de voz rápidos y confiables sin problemas de conectividad de red o latencia. Speech On-Device también puede admitir capacidades de voz multilingües y entre idiomas para diversos escenarios y preferencias de usuario.

También es importante discutir los beneficios de incorporar TTS en sistemas domésticos inteligentes, atención médica y soluciones de accesibilidad:

  1. Sistemas domésticos inteligentes: TTS puede mejorar la funcionalidad y la interactividad de los sistemas domésticos inteligentes, como parlantes inteligentes, pantallas inteligentes o electrodomésticos inteligentes, permitiéndoles comunicarse con los usuarios mediante un habla natural y expresiva. TTS también puede mejorar la experiencia del usuario y la satisfacción de los sistemas domésticos inteligentes, haciéndolos más atractivos y personalizados.
  2. Cuidado de la salud: TTS puede mejorar la calidad y accesibilidad de los servicios de atención médica, como la telemedicina, la educación para la salud o el apoyo a la salud mental, al brindar a los usuarios una síntesis de voz realista y personalizada. TTS también puede reducir el costo y el tiempo de la prestación de atención médica al permitir una comunicación remota y eficiente entre pacientes y proveedores.
  3. Soluciones de accesibilidad: TTS puede empoderar a las personas con discapacidades o necesidades especiales, como discapacidad visual, dislexia o afasia, proporcionándoles salida de voz para comunicación o información. TTS también puede apoyar el bienestar emocional y la inclusión de personas con discapacidad o necesidades especiales, brindándoles retroalimentación emocional o compañía.

Preguntas frecuentes (FAQ)

La primera software de texto a voz fue Kurzweil Applied Intelligence, que lanzó el primer software de reconocimiento de voz disponible comercialmente para computadoras personales en 1984. Sin embargo, los primeros sistemas de síntesis de voz estaban basados en computadora y fueron desarrollados a fines de la década de 1950 por Bell Laboratories e IBM. El primer sintetizador de voz mecánico fue desarrollado por Charles Wheatstone a principios del siglo XIX.

No hay una respuesta definitiva sobre quién inició TTS, ya que diferentes investigadores y empresas contribuyeron al desarrollo de sistemas de reconocimiento y síntesis de voz a lo largo de los años. Sin embargo, algunos de los pioneros de TTS incluyen:

  • Christian Kratzenstein, un científico alemán-danés que creó resonadores acústicos que imitaban el sonido de la voz humana en el siglo XVIII.
  • Charles Wheatstone, inventor británico que desarrolló el primer sintetizador de voz mecánico a principios del siglo XIX.
  • Homer Dudley, ingeniero eléctrico estadounidense que creó el VODER (Voice Operating Demonstrator), el primer sintetizador electrónico de voz, en 1939.
  • John Larry Kelly Jr., físico de los Laboratorios Bell que utilizó una computadora IBM para sintetizar el habla en 1961.
  • Noriko Umeda et al., investigadores del Laboratorio Electrotécnico de Japón que desarrollaron el primer sistema de conversión de texto a voz en inglés general en 1968.
  • Ray Kurzweil, inventor estadounidense que lanzó el primer software de reconocimiento de voz disponible comercialmente para computadoras personales en 1984.

La historia del habla sintética se puede resumir de la siguiente manera:

  • La historia del habla sintética se remonta al siglo XVIII, cuando algunos investigadores e inventores intentaron construir dispositivos mecánicos que pudieran producir sonidos similares a los humanos, como resonadores acústicos y sintetizadores de voz.
  • La historia del habla sintética avanzó en el siglo XX, cuando se desarrollaron sistemas electrónicos e informáticos para generar voz a partir de texto u otras entradas, como el VODER, la computadora IBM y el sistema del Laboratorio Electrotécnico.
  • La historia del habla sintética avanzó aún más a finales del siglo XX y principios del XXI, cuando se introdujeron nuevas técnicas y tecnologías para mejorar la calidad, la naturalidad y la diversidad del habla sintética, como las redes neuronales, la clonación de voz y la incorporación de emociones y estilos.

La historia del reconocimiento de voz en IA se puede resumir de la siguiente manera:

  • El reconocimiento de voz es la tecnología que permite a las computadoras reconocer y traducir el lenguaje hablado a texto.
    El primer sistema de reconocimiento de voz fue desarrollado por Bell Laboratories en 1952 y podía reconocer números hablados con gran precisión.
  • En las décadas de 1960 y 1970, los sistemas de reconocimiento de voz ampliaron su vocabulario y utilizaron métodos probabilísticos como los modelos ocultos de Markov para mejorar la precisión y la velocidad.
  • En las décadas de 1980 y 1990, los sistemas de reconocimiento de voz se volvieron más independientes del hablante y utilizaron redes neuronales y modelos estadísticos de lenguaje para manejar el lenguaje natural y vocabularios extensos.
  • En las décadas de 2000 y 2010, los sistemas de reconocimiento de voz se beneficiaron de los avances en el aprendizaje profundo y los big data, logrando un rendimiento casi humano en diversos dominios y aplicaciones.

La tecnología de síntesis de voz se refiere al proceso de generar voz artificial a partir de entrada de texto digital. Esta tecnología se utiliza comúnmente en dispositivos y software que requieren una salida de audio de contenido escrito.

Los primeros sistemas de síntesis de voz fueron creados en la década de 1770 por Wolfgang von Kempelen y el profesor ruso Christian Kratzenstein. Estas máquinas de habla acústico-mecánicas fueron los primeros dispositivos considerados sintetizadores de voz.

El primer dispositivo considerado un sintetizador de voz fue el Voder, creado por Homer Dudley a finales de la década de 1930. Era capaz de producir una gama limitada de sonidos parecidos a los humanos y se utilizó principalmente para los primeros experimentos de codificación de voz.

La tecnología de síntesis ha evolucionado considerablemente desde la creación del Voder. En la década de 1970, Texas Instruments produjo el primer sistema completo de conversión de texto a voz, conocido como "Speak & Spell". El desarrollo de la síntesis de selección de unidades en la década de 1980 permitió un habla con un sonido más natural al unir palabras y frases pregrabadas. La introducción de técnicas de espectrograma y codificación predictiva lineal en la década de 1990 mejoró aún más la calidad del habla sintetizada. Actualmente, se utilizan algoritmos de procesamiento del lenguaje natural para generar un habla muy realista e inteligible.

Un vocoder es un tipo de sintetizador de voz que funciona analizando y sintetizando las características de las señales de voz. Fue inventado originalmente para una comunicación segura durante la Segunda Guerra Mundial y desde entonces se ha utilizado en la producción musical para crear voces robóticas.

La síntesis de selección de unidades es una técnica en la que unidades de habla pregrabadas, como palabras o frases, se seleccionan en función de sus características fonéticas y prosódicas y se ensamblan para crear un habla que suene natural.

El habla inteligible se refiere al habla que puede ser entendida por un oyente. En el contexto de la síntesis del habla, se refiere a la capacidad del habla sintetizada de percibirse con tanta claridad y precisión como el habla natural.

Dectalk es un sintetizador de voz que utiliza síntesis concatenativa, que es otra forma de síntesis de selección de unidades. Se usaba comúnmente en dispositivos de tecnología de asistencia para personas con discapacidad visual o con dificultades de lectura.

Haskins Laboratories es un instituto de investigación privado sin fines de lucro centrado en el estudio del habla, el lenguaje y los procesos cognitivos. Han realizado una extensa investigación sobre la tecnología de síntesis de voz.

El texto se convierte en audio mediante el proceso de síntesis de voz. Este proceso implica dividir el texto en elementos fonéticos y lingüísticos y utilizar tecnología de síntesis para generar señales de voz que luego se convierten en una salida de audio.

Reflexiones finales

Con base en todo lo que discutimos anteriormente, una posible conclusión de la evolución de la tecnología TTS desde voces robóticas hasta un habla natural similar a la humana podría ser la siguiente:

La tecnología TTS ha experimentado avances significativos en las últimas décadas, desde producir voces robóticas y monótonas hasta generar discursos expresivos y realistas. Los principales impulsores de esta evolución son el desarrollo de nuevas técnicas de síntesis, como modelos basados en redes neuronales, la disponibilidad de datos de voz grandes y diversos y la aplicación de métodos de aprendizaje por transferencia y aumento de datos. 

La evolución de la tecnología TTS ha permitido nuevas capacidades y características, como clonación de voz, incorporación de emociones y estilos, y sintonización de voz. La evolución de la tecnología TTS también ha permitido nuevas aplicaciones y escenarios, como asistentes de voz, entretenimiento y soluciones de accesibilidad. 

La evolución de la tecnología TTS también ha traído nuevos desafíos y oportunidades, como preocupaciones éticas, evaluación de calidad y experiencia del usuario. Se espera que la evolución de la tecnología TTS continúe en el futuro, a medida que se realicen más investigaciones e innovaciones en este campo.

Foto de Anson Antony
anson antonio
Anson es autor colaborador y fundador de www.askeygeek.com. Su pasión por aprender cosas nuevas le llevó a crear askeygeek.com, que se centra en la tecnología y los negocios. Con más de una década de experiencia en externalización de procesos empresariales, finanzas y contabilidad, tecnologías de la información, excelencia operativa e inteligencia empresarial, Anson ha trabajado para empresas como Genpact, Hewlett Packard, M*Modal y Capgemini en diversos puestos. Aparte de sus actividades profesionales, es un entusiasta del cine que disfruta pasando horas viendo y estudiando cine, y también es cineasta.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¡Felicidades!
Lo hiciste,
¡No cierres!

Acceso UberCreate Creator Pro
¡¡¡gratis!!!

Esta ventana emergente no se mostrará tú decides de nuevo!!!

1
Compartir a...