Evolução da tecnologia de conversão de texto em fala – de 1700 até agora!

Evolução da tecnologia de conversão de texto em fala
A tecnologia de conversão de texto em fala transformou a maneira como nos comunicamos com computadores e dispositivos, desde vozes robóticas até a fala natural semelhante à humana. Conheça a evolução da tecnologia de conversão de texto em fala, como ela se desenvolveu ao longo dos anos, quais são seus benefícios e desafios e quais são suas aplicações atuais e futuras.
Índice

A tecnologia Text-to-speech (TTS) é o processo de conversão de texto escrito em áudio falado. Ela tem muitas aplicações, como acessibilidade, educação, entretenimento e comunicação. A tecnologia TTS evoluiu significativamente ao longo dos anos, desde vozes sintetizadas simples que soam robóticas e não naturais até sistemas avançados de processamento de linguagem natural (NLP) que podem produzir fala semelhante à humana com emoções, sotaques e entonação.

Neste artigo, exploraremos a história e o desenvolvimento da tecnologia TTS, os desafios e as oportunidades que ela enfrenta e as direções futuras que ela pode tomar.

Marcos na história da tecnologia de conversão de texto em fala

Abaixo está um breve resumo do desenvolvimento de síntese de fala tecnologia e os marcos na história da conversão de texto em fala.

AnoEvento
1700sO cientista alemão-dinamarquês Christian Kratzenstein cria ressonadores acústicos que imitam a voz humana.
1952O AUDREY, o primeiro sistema de reconhecimento de fala que reconhecia números falados, foi desenvolvido pela Bell Laboratories.
1962O Shoebox, um sistema que reconhecia números e termos matemáticos simples, foi desenvolvido pela IBM.
1968Noriko Umeda inventa a conversão de texto em fala para o inglês no Laboratório Eletrotécnico do Japão.
1970sDesenvolvimento do primeiro sintetizador articulatório baseado no trato vocal humano.
1976O HARPY, um sistema que reconhecia frases de um vocabulário de 1.011 palavras usando Hidden Markov Models, foi desenvolvido pela Carnegie Mellon University.
1980sA síntese de fala entra no mundo dos videogames com o lançamento do Stratovox. Steve Jobs cria a NeXT, que mais tarde se funde com a Apple.
1984A Kurzweil Applied Intelligence lançou o primeiro software de reconhecimento de fala disponível comercialmente para computadores pessoais.
1990sOs aprimoramentos na fala sintetizada resultam em consoantes mais suaves e vozes com som mais natural. A Microsoft lança o Narrator, uma solução de leitor de tela incluída no Windows.
1990O Dragon Dictate, o primeiro software de reconhecimento de fala contínuo que permitia que os usuários falassem naturalmente sem pausas entre as palavras, foi lançado pela Dragon Systems.
1996A Bell Labs apresentou o AT&T Natural Voices, um sistema de conversão de texto em fala que usava redes neurais para gerar uma fala com som natural.
2000sOs desenvolvedores enfrentam desafios na criação de padrões consensuais para a fala sintetizada.
2001A Microsoft apresentou a Speech Application Programming Interface (SAPI) 5.0, uma interface padrão para o desenvolvimento de aplicativos de fala em plataformas Windows.
2006O Google lançou o Google Voice Search, um serviço que permitia aos usuários pesquisar na Web usando comandos de voz em seus telefones celulares.
2011A Apple apresentou a Siri, uma assistente pessoal ativada por voz que usava processamento de linguagem natural e aprendizado de máquina para responder a perguntas e realizar tarefas.
2014A Amazon lançou o Alexa, um serviço de voz baseado em nuvem que alimentava alto-falantes inteligentes e outros dispositivos com recursos de interação por voz.
2016O WaveNet, um modelo baseado em rede neural profunda para síntese de fala que gerou formas de onda de áudio brutas, foi desenvolvido pela DeepMind.
2018A Baidu apresentou o Deep Voice 3, um modelo baseado em rede neural para conversão de texto em fala que pode clonar uma voz humana com apenas alguns minutos de dados de áudio.
2020A OpenAI apresentou o Jukebox, um modelo baseado em rede neural para geração de música que pode produzir músicas com letras e vocais em vários gêneros e estilos.
FuturoFoco na criação de um modelo do cérebro para entender melhor os dados de fala. Ênfase na compreensão do papel da emoção na fala e na criação de vozes de IA indistinguíveis das humanas.

Agora vamos nos aprofundar na história da tecnologia de conversão de texto em fala.

Desenvolvimento histórico do TTS

As primeiras origens da tecnologia TTS e seus aplicativos iniciais

As primeiras origens da tecnologia TTS remontam ao século 18, quando alguns cientistas construíram modelos do trato vocal humano que podiam produzir sons de vogais. O primeiro sintetizador eletrônico de fala foi inventado por Homer Dudley em 1939 e usava um teclado e um pedal para controlar o tom e a duração dos sons da fala.

As aplicações iniciais da tecnologia TTS eram principalmente para fins de acessibilidade, como ajudar pessoas com deficiências visuais ou de leitura a acessar textos escritos. Mais tarde, a tecnologia TTS também foi usada para fins de entretenimento, educação e comunicação, como a criação de robôs de voz, audiolivros e assistentes de voz.

As limitações dos primeiros sistemas TTS.

Algumas das limitações dos primeiros sistemas TTS eram:
  1. Vozes robóticas: Os primeiros sistemas TTS usavam tecnologias baseadas em regras, como a síntese de formantes e a síntese articulatória, que alcançavam um resultado semelhante por meio de estratégias ligeiramente diferentes. Os pesquisadores pioneiros gravaram um orador e extraíram recursos acústicos dessa fala gravada - formantes, definindo as qualidades dos sons da fala, na síntese de formantes; e parâmetros articulatórios, como a posição da língua e o formato dos lábios, na síntese articulatória. Esses recursos foram então usados para sintetizar sons de fala a partir do zero, usando modelos matemáticos do trato vocal e outros componentes da produção da fala. No entanto, esses métodos geralmente produziam uma fala com som não natural, sem a prosódia, a entonação e a variabilidade da fala humana.
  2. Falta de naturalidade: Outra limitação dos primeiros sistemas TTS era a dificuldade de produzir uma fala com som natural que correspondesse ao contexto, à emoção e à intenção do falante. Os primeiros sistemas TTS dependiam de regras e algoritmos fixos para gerar a fala, o que não levava em conta as nuances e variações da linguagem e da comunicação humana. Por exemplo, os primeiros sistemas TTS não podiam ajustar o tom, o tom ou a velocidade de acordo com o humor ou a atitude do falante ou do ouvinte. Eles também não conseguiam lidar com fenômenos linguísticos complexos, como sarcasmo, ironia, humor ou expressões idiomáticas.
  3. Erros de pronúncia: Uma terceira limitação dos primeiros sistemas TTS era sua incapacidade de pronunciar corretamente as palavras em diferentes idiomas, sotaques ou dialetos. Os primeiros sistemas TTS usavam a conversão de texto para fonema para mapear as palavras escritas para seus sons de fala correspondentes. No entanto, esse processo muitas vezes era impreciso ou incompleto, especialmente para palavras com várias pronúncias ou grafias irregulares. Além disso, os primeiros sistemas TTS não tinham acesso a bancos de dados grandes e diversificados de amostras de fala que pudessem abranger todas as variações e nuances da fala humana em diferentes regiões e culturas. Como resultado, os primeiros sistemas TTS muitas vezes pronunciavam erroneamente palavras ou frases que não eram familiares ou incomuns para eles



Os princípios por trás dos primeiros modelos de TTS

Os princípios por trás dos primeiros modelos de TTS, como a síntese de formantes e a síntese concatenativa, são:

  1. Síntese de formantes: Esse método usa modelos matemáticos do trato vocal e de outros componentes da produção da fala para sintetizar os sons da fala a partir do zero1 Ele se baseia na extração de recursos acústicos, como formantes, da fala gravada e no uso desses recursos para controlar os parâmetros dos modelos2 A síntese de formantes pode produzir a fala em qualquer idioma ou sotaque, mas geralmente soa robótica e não natural3
  2. Síntese concatenativa: Esse método usa unidades de fala pré-gravadas, como fones, ditongos ou sílabas, e as concatena para produzir a fala1 Ele se baseia em encontrar as melhores unidades de correspondência para um determinado texto e suavizar as transições entre elas2 A síntese concatenativa pode produzir uma fala com som natural, mas requer um banco de dados grande e diversificado de amostras de fala e não pode lidar com palavras fora do vocabulário ou novos sotaques

Avanços na tecnologia TTS

Vozes sintéticas e prosódia

Desenvolvimento de vozes sintéticas e seu impacto no TTS.

O desenvolvimento de vozes sintéticas e seu impacto no TTS são:

  1. Vozes sintéticas: Vozes sintéticas são vozes artificiais criadas por aplicativos de síntese de fala, como sistemas de conversão de texto em fala (TTS), que convertem texto ou outras representações simbólicas em fala. A síntese de vozes pode ser usada para vários fins, como acessibilidade, educação, entretenimento e comunicação.
  2. Desenvolvimento: O desenvolvimento de vozes sintéticas passou por vários estágios, desde métodos baseados em regras, como a síntese de formantes e a síntese concatenativa, até métodos orientados por dados, como a síntese paramétrica estatística e a síntese baseada em redes neurais. Os métodos baseados em regras usam modelos matemáticos e unidades de fala pré-gravadas para gerar sons de fala a partir do zero ou por concatenação. Os métodos orientados por dados usam algoritmos de aprendizado de máquina e corpora de fala em grande escala para aprender o mapeamento entre os recursos de texto e fala e gerar fala por amostragem ou otimização.
  3. Impacto: O impacto das vozes sintéticas no TTS é que elas melhoraram a qualidade, a naturalidade e a diversidade da fala sintetizada ao longo do tempo. As vozes sintéticas agora podem produzir uma fala indistinguível da fala humana em alguns casos e também podem se adaptar a diferentes idiomas, sotaques, estilos e emoções. As vozes sintéticas também podem permitir novos aplicativos e cenários para TTS, como clonagem de voz, conversão de voz, imitação de voz e marca d'água de voz. No entanto, as vozes sintéticas também apresentam alguns desafios e riscos para o TTS, como questões éticas, implicações sociais e possível uso indevido de deepfakes e conteúdo enganoso

Importância da prosódia na criação de um discurso com som natural.

A importância da prosódia (entonação, ritmo e ênfase) na criação de uma fala com som natural é:

  1. Prosódia A prosódia é o padrão de variação do tom, da intensidade e da duração dos sons da fala que transmite informações sobre a estrutura, o significado e a emoção de um enunciado. A prosódia é um aspecto essencial da fala humana que afeta a forma como percebemos e entendemos a linguagem falada.
  2. Modelagem de prosódia é o processo de adicionar a entonação, a ênfase e o ritmo apropriados à saída de voz, dependendo do contexto e do significado do texto3 A modelagem da prosódia é crucial para criar um TTS com som natural que transmita o sentimento e a emoção corretos na fala3 Essa tecnologia envolve a análise das características linguísticas e acústicas do texto e a aplicação das regras e dos padrões prosódicos apropriados2
  3. Impacto na prosódia é o efeito da prosódia sobre a qualidade, a naturalidade e a expressividade da fala sintetizada. O impacto da prosódia pode melhorar a inteligibilidade, a clareza e a fluência da fala, bem como o envolvimento, a atenção e a satisfação do ouvinte2 O impacto da prosódia também pode melhorar a comunicação de emoções, atitudes, intenções e personalidades na fala, tornando-a mais humana e realista

Técnicas usadas para aprimorar a prosódia em sistemas TTS

Algumas das técnicas usadas para aprimorar a prosódia em sistemas TTS são:

  1. Previsão de prosódia: Essa técnica envolve a previsão dos recursos prosódicos, como tom, duração e energia, a partir do texto de entrada ou de outros recursos linguísticos1 A previsão prosódica pode ser feita usando métodos baseados em regras, como a anotação ToBI e o modelo Fujisaki, ou métodos orientados por dados, como árvores de decisão, modelos ocultos de Markov e redes neurais. A previsão de prosódia pode melhorar a inteligibilidade e a naturalidade da fala sintetizada, adicionando o estresse, a entonação e o ritmo apropriados.
  2. Modelagem de prosódia: Essa técnica envolve modelar a estrutura prosódica e os padrões da fala natural e aplicá-los à saída de voz. A modelagem de prosódia pode ser feita usando métodos baseados em regras, como o modelo de superposição e o modelo de aproximação de alvo, ou métodos orientados por dados, como a síntese paramétrica estatística e a síntese baseada em rede neural. A modelagem de prosódia pode melhorar a qualidade e a expressividade da fala sintetizada, capturando as variações linguísticas e acústicas da prosódia.
  3. Controle de prosódia: Essa técnica envolve a modificação ou a incorporação da prosódia desejada em um nível mais refinado, controlando a frequência fundamental e a duração do fone. O controle da prosódia pode ser feito usando métodos baseados em regras, como escala de pitch e escala de duração, ou métodos orientados por dados, como tokens de estilo e tokens de estilo global3 O controle da prosódia pode melhorar a diversidade e a adaptabilidade da fala sintetizada, permitindo diferentes idiomas, sotaques, estilos e emoções.

Modelos baseados em redes neurais

Surgimento de modelos baseados em redes neurais na tecnologia TTS.

O surgimento de modelos baseados em redes neurais na tecnologia TTS é..:

  1. Modelos baseados em redes neurais: Os modelos baseados em redes neurais são modelos de aprendizado de máquina que usam redes neurais artificiais para aprender o mapeamento entre os recursos de texto e fala e gerar fala por amostragem ou otimização. Os modelos baseados em redes neurais podem superar algumas das limitações dos métodos baseados em regras e orientados por dados, como a não naturalidade, a falta de diversidade e os erros de pronúncia.
  2. Emergência: O surgimento de modelos baseados em redes neurais na tecnologia TTS pode ser atribuído ao desenvolvimento da aprendizagem profunda e da inteligência artificial, bem como à disponibilidade de corpora de fala e recursos computacionais em grande escala. O primeiro modelo baseado em rede neural para TTS foi proposto por Zen et al. em 2009, que usou uma rede neural profunda (DNN) para prever recursos acústicos a partir de recursos linguísticos. Desde então, várias arquiteturas e técnicas de redes neurais foram aplicadas ao TTS, como redes neurais recorrentes (RNNs), redes neurais convolucionais (CNNs), mecanismos de atenção, redes adversárias generativas (GANs), autoencodificadores variacionais (VAEs) e transformadores.
  3. Impacto: O impacto dos modelos baseados em redes neurais na tecnologia TTS é que eles alcançaram um desempenho de última geração em termos de qualidade, naturalidade e diversidade da fala sintetizada. Os modelos baseados em redes neurais podem produzir uma fala indistinguível da fala humana em alguns casos e também podem se adaptar a diferentes idiomas, sotaques, estilos e emoções. Os modelos baseados em redes neurais também podem permitir novos aplicativos e cenários para TTS, como clonagem de voz, conversão de voz, imitação de voz e marca d'água de voz. No entanto, os modelos baseados em redes neurais também apresentam alguns desafios e riscos para o TTS, como eficiência de dados, interpretabilidade, robustez e possível uso indevido de deepfakes e conteúdo enganoso.

Vantagens das redes neurais em relação às abordagens tradicionais baseadas em regras.

Algumas das vantagens das redes neurais em relação às abordagens baseadas em regras são:

  1. Aprendizagem orientada por dados: As redes neurais podem aprender o mapeamento entre os recursos de texto e fala a partir de corpora de fala em larga escala, sem depender de regras criadas manualmente ou de unidades de fala pré-gravadas. Isso as torna mais flexíveis e adaptáveis a diferentes idiomas, sotaques, estilos e emoções.
  2. Geração de ponta a ponta: As redes neurais podem gerar fala diretamente do texto, sem etapas intermediárias, como análise de texto, modelagem acústica e vocoding. Isso reduz a complexidade e a propagação de erros do pipeline de síntese.
  3. Naturalidade e diversidade: As redes neurais podem produzir uma fala mais natural e diversificada do que as abordagens baseadas em regras, capturando as variações linguísticas e acústicas da prosódia e da qualidade da voz. As redes neurais também podem permitir novos aplicativos e cenários para TTS, como clonagem de voz, conversão de voz, imitação de voz e marca d'água de voz

Componentes dos modelos neurais de TTS

Os componentes dos modelos neurais de TTS são:

  1. Processamento de texto: Esse componente envolve a análise do texto de entrada e sua conversão em uma sequência de recursos linguísticos, como fonemas, sílabas, palavras ou caracteres. O processamento de texto também pode incluir a adição de pontuação, capitalização, normalização e outras etapas de pré-processamento de texto. O processamento de texto pode ser feito usando métodos baseados em regras, como gramáticas e léxicos de análise de texto, ou métodos orientados por dados, como redes neurais e transformadores.
  2. Modelagem acústica: Esse componente envolve a previsão dos recursos acústicos, como tom, duração e energia, a partir dos recursos linguísticos. A modelagem acústica também pode incluir a modelagem da estrutura e dos padrões prosódicos da fala natural e aplicá-los à saída de voz. A modelagem acústica pode ser feita usando métodos baseados em regras, como o modelo de superposição e o modelo de aproximação do alvo, ou métodos orientados por dados, como redes neurais e transformadores.
  3. Codificação de voz: Esse componente envolve a conversão dos recursos acústicos em um sinal de áudio contínuo. A vocodificação também pode incluir a modificação ou a incorporação da qualidade e do timbre de voz desejados em um nível mais refinado, controlando a frequência fundamental e a duração do fone. A codificação de voz pode ser feita usando métodos baseados em regras, como modelo de filtro de fonte e concatenação de forma de onda, ou métodos orientados por dados, como redes neurais e transformadores

WaveNet e SampleRNN

Exploração do revolucionário modelo WaveNet e sua contribuição para o TTS.

O modelo WaveNet e sua contribuição para o TTS são:

  1. Modelo WaveNet: O WaveNet é um modelo generativo de formas de onda de áudio brutas que usa uma rede neural convolucional profunda com convoluções causais dilatadas. A WaveNet modela diretamente a distribuição de probabilidade de cada amostra de áudio condicionada a todas as amostras anteriores, usando uma camada de saída softmax. A WaveNet pode gerar fala por amostragem a partir dessa distribuição ou por condicionamento de entradas adicionais, como texto ou identidade do locutor.
  2. Contribuição para o TTS: A WaveNet melhorou significativamente a qualidade, a naturalidade e a diversidade da fala sintetizada em comparação com os métodos anteriores. A WaveNet pode produzir uma fala que soa mais parecida com a humana e realista e também pode se adaptar a diferentes idiomas, sotaques, estilos e emoções. A WaveNet inspirou muitos modelos subsequentes baseados em redes neurais para TTS, como Tacotron, Deep Voice e Transformer TTS3. A WaveNet também possibilitou novos aplicativos e cenários para TTS, como clonagem de voz, conversão de voz, imitação de voz e marca d'água de voz

Capacidade da WaveNet de gerar fala de alta qualidade, semelhante à humana, por meio de modelagem generativa profunda.

A capacidade da WaveNet de gerar fala de alta qualidade, semelhante à humana, por meio de modelagem generativa profunda:

  1. Modelagem generativa profunda: O WaveNet é um modelo generativo profundo de formas de onda de áudio brutas que usa uma rede neural convolucional profunda com convoluções causais dilatadas. A WaveNet modela diretamente a distribuição de probabilidade de cada amostra de áudio condicionada a todas as amostras anteriores, usando uma camada de saída softmax. A WaveNet pode gerar fala por amostragem a partir dessa distribuição ou por condicionamento de entradas adicionais, como texto ou identidade do locutor.
  2. Discurso de alta qualidade: A WaveNet pode produzir uma fala que soa mais natural e realista do que os métodos anteriores, capturando as variações linguísticas e acústicas da prosódia e da qualidade da voz. A WaveNet também pode se adaptar a diferentes idiomas, sotaques, estilos e emoções. A WaveNet melhorou significativamente a qualidade da fala sintetizada em comparação com os métodos anteriores, reduzindo a diferença em relação ao desempenho humano em mais de 50%.
  3. Fala semelhante à humana: O WaveNet pode gerar uma fala que imita qualquer voz humana, modelando diretamente a voz com base em gravações de atores de voz humana. Em vez de sintetizar sons, ele está emulando uma pessoa real. O WaveNet também pode permitir novos aplicativos e cenários para TTS, como clonagem de voz, conversão de voz, imitação de voz e marca d'água de voz

Introdução do SampleRNN como uma abordagem alternativa para gerar fala com maior eficiência.

A introdução do SampleRNN como uma abordagem alternativa para gerar fala com eficiência aprimorada é:

  1. AmostraRNN: O SampleRNN é um modelo gerador autorregressivo de formas de onda de áudio brutas que usa uma estrutura hierárquica de redes neurais recorrentes (RNNs) para modelar dependências na sequência de amostras. O SampleRNN pode gerar fala por amostragem a partir da distribuição condicional de cada amostra de áudio, considerando todas as amostras anteriores e entradas adicionais, como texto ou identidade do locutor.
  2. Abordagem alternativa: O SampleRNN é uma abordagem alternativa ao WaveNet, que usa uma rede neural convolucional profunda com convoluções causais dilatadas para gerar a fala. O SampleRNN tem diferentes módulos operando em diferentes taxas de clock, o que permite mais flexibilidade na alocação de recursos computacionais e na modelagem de diferentes níveis de abstração.
  3. Melhoria da eficiência: O SampleRNN pode gerar fala com maior eficiência em comparação com o WaveNet, pois tem menor complexidade computacional e requisitos de memória. O SampleRNN também pode aproveitar o paralelismo e as técnicas de otimização, como forçamento de professores e amostragem programada, para acelerar o treinamento e a inferência.

 Aprendizagem por transferência e TTS multilíngue

Avanços nas técnicas de aprendizagem por transferência para TTS

Os avanços nas técnicas de aprendizagem por transferência para TTS são:

Aprendizagem por transferência: A aprendizagem por transferência é uma técnica de aprendizagem de máquina que aproveita o conhecimento de um modelo pré-treinado para uma nova tarefa ou domínio1 A aprendizagem por transferência pode reduzir os requisitos de dados e o tempo de treinamento para adaptar modelos TTS para uma nova voz, usando apenas alguns minutos de dados de fala.

Avanços: Alguns dos avanços nas técnicas de aprendizagem por transferência para TTS são:

  1. Ajuste fino dos modelos TTS de alto-falante único: Essa técnica envolve o ajuste fino de modelos TTS de alto nível de um único locutor para um novo locutor, usando apenas alguns minutos de dados de fala. Essa técnica pode produzir um desempenho comparável ao de um modelo treinado do zero em mais de 27 horas de dados para falantes-alvo masculinos e femininos.
  2. Adaptação de modelos TTS com vários alto-falantes: Essa técnica envolve a adaptação de modelos TTS pré-treinados de vários locutores para uma nova voz, usando alguns minutos de dados de fala do novo locutor. Essa técnica pode condicionar o modelo pré-treinado diretamente na incorporação do alto-falante derivado do novo falante ou ajustar o modelo nos dados do novo falante.
  3. Explorando o TTS emocional com poucos recursos: Essa técnica envolve a exploração de métodos de aprendizagem de transferência para TTS emocional com poucos recursos, usando uma pequena quantidade de dados de fala emocional. Essa técnica pode melhorar a naturalidade e a expressividade da fala sintetizada, capturando a emoção e o estilo do falante-alvo.

Explicação de como a aprendizagem por transferência permite o treinamento de modelos TTS em vários idiomas com dados limitados.

Como a aprendizagem por transferência permite o treinamento de modelos TTS em vários idiomas com dados limitados:

  1. Vários idiomas: A aprendizagem por transferência pode permitir o treinamento de modelos TTS em vários idiomas com dados limitados, usando métodos de aprendizagem por transferência multilíngue ou multilíngue. A aprendizagem por transferência multilíngue envolve o ajuste fino de um modelo TTS pré-treinado de um idioma de alto recurso para um idioma de baixo recurso, usando uma pequena quantidade de dados do idioma de destino. O aprendizado de transferência multilíngue envolve a adaptação de um modelo TTS pré-treinado de vários falantes a um novo idioma, usando um conjunto de dados multilíngue conjunto de idiomas de poucos recursos.
  2. Dados limitados: A aprendizagem por transferência pode superar o problema da escassez de dados para idiomas com poucos recursos usando técnicas de aumento de dados e aprendizagem por transferência baseada em rede parcial. O aumento de dados envolve a geração de dados de fala sintética a partir dos dados originais, aplicando várias transformações, como mudança de tom, perturbação de velocidade e adição de ruído. A aprendizagem de transferência parcial baseada em rede envolve a transferência de apenas algumas camadas ou módulos do modelo pré-treinado para o novo modelo, congelando ou descartando o restante.

Benefícios e desafios do desenvolvimento de sistemas TTS multilíngues

Alguns dos benefícios e desafios do desenvolvimento de sistemas TTS multilíngues são:

  1. Benefícios: Os sistemas TTS multilíngues podem fornecer síntese de fala para vários idiomas usando um único modelo, o que pode reduzir a necessidade de dados e o tempo de treinamento para idiomas com poucos recursos. Os sistemas TTS multilíngues também podem melhorar a qualidade, a naturalidade e a diversidade da fala sintetizada, capturando as variações linguísticas e acústicas de diferentes idiomas. Os sistemas TTS multilíngues também podem possibilitar novos aplicativos e cenários para TTS, como síntese multilíngue, clonagem de voz, conversão de voz, imitação de voz e marca d'água de voz.
  2. Desafios: Os sistemas multilíngues de conversão de texto em fala enfrentam vários desafios, como encontrar uma representação adequada para vários idiomas, como o Alfabeto Fonético Internacional (IPA) ou grafemas. Os sistemas TTS multilíngues também precisam lidar com a compensação entre a modelagem específica e independente do idioma, bem como com o equilíbrio entre a quantidade e a qualidade dos dados para diferentes idiomas. Os sistemas TTS multilíngues também precisam lidar com as questões de identidade do locutor, estilo de fala e emoção em diferentes idiomas.

Desafios e direções futuras

Considerações éticas

Algumas das preocupações éticas relacionadas ao TTS são:

  1. Clonagem de voz: A clonagem de voz é o processo de criação de uma voz sintética que imita uma voz humana específica, usando uma pequena quantidade de dados de fala do falante-alvo. A clonagem de voz pode ter aplicações positivas, como a restauração da voz de pessoas que perderam a capacidade de falar devido a doenças ou lesões, ou a preservação da voz de figuras históricas ou celebridades. No entanto, a clonagem de voz também pode ter implicações negativas, como a violação da privacidade e do consentimento do falante-alvo, ou a criação de conteúdo falso ou enganoso que pode prejudicar a reputação ou a credibilidade do falante-alvo.
  2. Deepfakes: Deepfakes são mídias sintéticas que combinam e sobrepõem imagens e vídeos existentes a imagens ou vídeos de origem usando técnicas de aprendizagem profunda. As deepfakes podem criar vídeos ou clipes de áudio realistas e convincentes que mostram pessoas dizendo ou fazendo coisas que nunca disseram ou fizeram. As deepfakes podem ter aplicações maliciosas, como a disseminação de desinformação, propaganda ou difamação, ou a manipulação da opinião pública, do comportamento ou das emoções.
  3. Preconceito e discriminação: Preconceito e discriminação são o tratamento injusto ou prejudicial de pessoas ou grupos com base em características como raça, gênero, idade ou religião. O preconceito e a discriminação podem afetar os sistemas de conversão de texto em fala de várias maneiras, como a seleção de idiomas, sotaques, estilos e emoções para a síntese de fala ou a representação e inclusão de diversas vozes e identidades em dados e modelos de fala. O preconceito e a discriminação podem ter consequências prejudiciais, como o reforço de estereótipos, a marginalização de minorias ou a exclusão de determinados grupos do acesso a informações ou serviços.

Isso nos leva à importância do uso responsável da tecnologia TTS e das possíveis regulamentações:

  1. Uso responsável: O uso responsável da tecnologia TTS é o uso ético e legal da tecnologia TTS que respeita os direitos, a privacidade e o consentimento dos dubladores e usuários de voz e que evita ou minimiza os danos ou o uso indevido de vozes sintéticas. O uso responsável da tecnologia TTS exige o envolvimento e a colaboração das partes interessadas em toda a cadeia de valor da tecnologia, desde o projeto e o desenvolvimento até a venda e o uso final dos produtos e serviços TTS. O uso responsável da tecnologia TTS também exige a adoção de práticas recomendadas e diretrizes para a tomada de decisões éticas, avaliação de riscos, transparência e responsabilidade.
  2. Regulamentos em potencial: As possíveis regulamentações para a tecnologia TTS são as leis e políticas que regem o desenvolvimento, a implantação e o uso da tecnologia TTS e que protegem os interesses e os direitos dos talentos de voz e dos usuários de voz. As possíveis regulamentações para a tecnologia TTS podem incluir:
  • Leis de proteção de dados e privacidade: Essas leis regulam a coleta, o processamento, o armazenamento e o compartilhamento de dados pessoais, como gravações de voz ou modelos de voz, e exigem o consentimento dos titulares dos dados e a conformidade dos controladores e processadores de dados.
  • Propriedade intelectual e leis de direitos autorais: Essas leis protegem a propriedade e os direitos de talentos de voz sobre suas gravações ou modelos de voz e impedem o uso ou a reprodução não autorizada de sua voz por terceiros.
  • Leis antifraude e antidifamação: Essas leis proíbem a criação ou a disseminação de conteúdo falso ou enganoso usando vozes sintéticas, como deepfakes ou phishing de voz, que podem prejudicar a reputação ou a credibilidade de dubladores ou usuários de voz.

TTS em tempo real e baixa latência

Alguns dos desafios para obter TTS em tempo real e baixa latência são:

  1. Complexidade computacional: Os modelos TTS, especialmente os modelos baseados em redes neurais, têm alta complexidade computacional e requisitos de memória, pois precisam processar grandes quantidades de dados de texto e fala e gerar amostras de áudio de alta qualidade. Isso pode limitar a velocidade e a eficiência dos modelos TTS, especialmente para conteúdo de formato longo ou aplicativos de grande escala.
  2. Congestionamento da rede: Os modelos TTS, especialmente os baseados em nuvem, dependem da conectividade de rede e da largura de banda para fornecer a saída de fala aos usuários. No entanto, o congestionamento da rede pode causar atrasos, perdas de pacotes ou tremores na transmissão de dados de fala, o que pode degradar a qualidade e a naturalidade da fala sintetizada.
  3. Experiência do usuário: Os modelos TTS, especialmente para aplicativos de comunicação em tempo real, precisam oferecer uma experiência de usuário interativa e contínua que corresponda às expectativas e preferências dos usuários. No entanto, a experiência do usuário pode ser afetada por vários fatores, como a latência, a confiabilidade e a diversidade da fala sintetizada, bem como a qualidade da voz, o estilo e a emoção das vozes sintéticas.

Isso nos leva à importância de reduzir o tempo de inferência para aplicativos TTS:

  1. Desempenho em tempo real: A redução do tempo de inferência para aplicativos TTS pode permitir a síntese de fala em tempo real, que é um requisito para muitos aplicativos práticos, como assistentes digitais, telefones celulares, dispositivos incorporados etc. Os sistemas de síntese de fala em tempo real podem proporcionar uma experiência de usuário interativa e contínua que corresponda às expectativas e preferências dos usuários.
  2. Eficiência de recursos: A redução do tempo de inferência para aplicativos TTS também pode melhorar a eficiência dos recursos dos modelos TTS, especialmente os modelos baseados em redes neurais, que têm alta complexidade computacional e requisitos de memória. A eficiência dos recursos pode reduzir o custo e o consumo de energia dos modelos TTS e torná-los mais acessíveis e dimensionáveis para vários dispositivos e plataformas.
  3. Melhoria da qualidade: A redução do tempo de inferência para aplicativos TTS também pode melhorar a qualidade, a naturalidade e a diversidade da fala sintetizada, minimizando os atrasos, as perdas de pacotes ou o jitter causados pelo congestionamento da rede ou por outros fatores. O aprimoramento da qualidade pode aumentar a satisfação e a confiança dos usuários e do talento de voz, além de evitar ou atenuar os danos ou o uso indevido de vozes sintéticas.

Emoção e expressividade

Algumas das pesquisas em andamento para adicionar emoção e expressividade às vozes TTS são:

  1. Entrada de intensidade da emoção: Esta pesquisa envolve o uso de uma entrada de intensidade de emoção da extração não supervisionada para aprimorar o TTS emocional. A entrada de intensidade da emoção é derivada de um mapa de atenção ou saliência de um reconhecedor de emoções, que indica as regiões da fala que são mais emocionais. A entrada de intensidade da emoção pode ser usada para controlar o grau de expressão da emoção na fala sintética.
  2. Embeddings de emoção e estilo: Esta pesquisa envolve o uso de métodos não supervisionados para extrair emoções e estilos incorporados do áudio de referência em um nível global, agrupado ou de quadro. Os embeddings de emoção e estilo podem capturar as variações de prosódia e qualidade de voz em diferentes emoções e estilos. Os embeddings de emoção e estilo podem ser usados para condicionar o modelo TTS a gerar a fala com a emoção e o estilo desejados.
  3. Conversão de emoções: Esta pesquisa envolve o uso de técnicas como conversão de voz ou emoção para gerar discurso emocional a partir de discurso neutro. A conversão de emoções pode modificar os recursos prosódicos e espectrais da fala para alterar a emoção percebida do locutor. A conversão de emoções pode ser usada para aumentar os dados emocionais para o treinamento de modelos TTS ou para sintetizar a fala com emoções diferentes a partir da mesma entrada de texto.

Considerando o exposto acima, o próximo fator importante é a importância da síntese de fala emocional em vários domínios:

  1. Assistentes virtuais: A síntese de fala emocional pode aumentar a naturalidade e a interatividade dos assistentes virtuais, como Siri, Alexa ou Cortana, permitindo que eles expressem diferentes emoções e estilos de acordo com o contexto e o feedback do usuário. A síntese de fala emocional também pode aumentar a satisfação e a confiança do usuário na tecnologia de assistência virtual, tornando-a mais envolvente e empática.
  2. Entretenimento: A síntese de fala emocional pode enriquecer o setor de entretenimento, como videogames, filmes ou audiolivros, criando vozes sintéticas realistas e diversas para personagens, narradores ou cantores. A síntese de fala emocional também pode permitir novos aplicativos e cenários para entretenimento, como clonagem de voz, conversão de voz, imitação de voz e marca d'água de voz.
  3. Acessibilidade: A síntese de fala emocional pode melhorar a acessibilidade e a inclusão de pessoas com deficiências ou necessidades especiais, como deficiência visual, dislexia ou afasia, fornecendo a elas uma fala sintética expressiva e personalizada para comunicação ou informação. A síntese de fala emocional também pode apoiar o bem-estar emocional e a saúde mental de pessoas com deficiências ou necessidades especiais, fornecendo-lhes feedback emocional ou companhia.

Integração com assistentes de IA e dispositivos de IoT

Integração da tecnologia TTS com assistentes de IA e dispositivos de IoT.

Alguns dos desenvolvimentos na integração da tecnologia TTS com assistentes de IA e dispositivos de IoT são:

  1. Azure Neural TTS em dispositivos: O Azure Neural TTS é um serviço avançado de síntese de fala que permite aos usuários transformar texto em fala realista usando IA. O Azure Neural TTS anunciou recentemente a disponibilidade de vozes naturais no dispositivo para cenários desconectados e híbridos, como leitores de tela, assistentes de voz em carros ou dispositivos incorporados. O Azure Neural TTS em dispositivos pode fornecer alta qualidade, alta eficiência e alta capacidade de resposta para síntese de fala em vários dispositivos e plataformas.
  2. API de conversão de texto em fala do Google Cloud: A API de conversão de texto em fala do Google Cloud é um serviço baseado em nuvem que permite aos usuários sintetizar a fala natural com as redes neurais inovadoras do Google. A API Text-to-Speech do Google Cloud é compatível com mais de 140 idiomas e variantes e permite que os usuários personalizem o tom, a velocidade de fala e o perfil de voz da fala sintética. A API Text-to-Speech do Google Cloud também oferece suporte à criação de voz personalizada e ao ajuste de voz para criar vozes únicas e personalizadas para diferentes marcas e aplicativos.
    UberTTS é um conversão avançada de texto em fala combinando os recursos das tecnologias de IA do Azure e do Google mencionadas acima em um único programa, juntamente com o uso de recursos completos de IA do Google. Recursos do SSML.Ubertts_Logo_240X70
  3. Fala no dispositivo: O Speech On-Device é uma solução que permite aos usuários executar IA de fala com qualidade de servidor localmente em qualquer dispositivo, como telefones, tablets, carros, TVs ou alto-falantes. O Speech On-Device pode fornecer reconhecimento e síntese de fala rápidos e confiáveis sem problemas de conectividade de rede ou latência. O Speech On-Device também pode oferecer suporte a recursos de fala multilíngue e multilíngue para diversos cenários e preferências do usuário.

Também é importante discutir os benefícios da incorporação do TTS em sistemas domésticos inteligentes, na área da saúde e em soluções de acessibilidade:

  1. Sistemas domésticos inteligentes: O TTS pode aprimorar a funcionalidade e a interatividade dos sistemas domésticos inteligentes, como alto-falantes inteligentes, monitores inteligentes ou aparelhos inteligentes, permitindo que eles se comuniquem com os usuários usando fala natural e expressiva. O TTS também pode melhorar a experiência do usuário e a satisfação dos sistemas domésticos inteligentes, tornando-os mais envolventes e personalizados.
  2. Assistência médica: O TTS pode melhorar a qualidade e a acessibilidade dos serviços de saúde, como telemedicina, educação em saúde ou suporte à saúde mental, fornecendo aos usuários uma síntese de fala realista e personalizada. O TTS também pode reduzir o custo e o tempo da prestação de serviços de saúde, permitindo a comunicação remota e eficiente entre pacientes e prestadores de serviços.
  3. Soluções de acessibilidade: O TTS pode capacitar pessoas com deficiências ou necessidades especiais, como deficiência visual, dislexia ou afasia, fornecendo-lhes saída de fala para comunicação ou informação. O TTS também pode apoiar o bem-estar emocional e a inclusão de pessoas com deficiências ou necessidades especiais, fornecendo-lhes feedback emocional ou companhia.

Perguntas frequentes (FAQ)

O primeiro software de conversão de texto em fala O primeiro software de reconhecimento de fala disponível comercialmente para computadores pessoais foi o Kurzweil Applied Intelligence, lançado em 1984. No entanto, os primeiros sistemas de síntese de fala eram baseados em computador e foram desenvolvidos no final da década de 1950 pela Bell Laboratories e pela IBM. O primeiro sintetizador de fala mecânico foi desenvolvido por Charles Wheatstone no início do século XIX.

Não há uma resposta definitiva sobre quem iniciou o TTS, pois diferentes pesquisadores e empresas contribuíram para o desenvolvimento de sistemas de síntese e reconhecimento de fala ao longo dos anos. Entretanto, alguns dos pioneiros do TTS incluem:

  • Christian Kratzenstein, um cientista germano-dinamarquês que criou ressonadores acústicos que imitavam o som da voz humana na década de 1700.
  • Charles Wheatstone, um inventor britânico que desenvolveu o primeiro sintetizador de fala mecânico no início do século XIX.
  • Homer Dudley, engenheiro elétrico americano que criou o VODER (Voice Operating Demonstrator), o primeiro sintetizador de fala eletrônico, em 1939.
  • John Larry Kelly Jr., físico do Bell Labs que usou um computador IBM para sintetizar a fala em 1961.
  • Noriko Umeda et al., pesquisadores do Laboratório Eletrotécnico do Japão que desenvolveram o primeiro sistema geral de conversão de texto em fala em inglês em 1968.
  • Ray Kurzweil, inventor americano que lançou o primeiro software de reconhecimento de fala disponível comercialmente para computadores pessoais em 1984.

A história da fala sintética pode ser resumida da seguinte forma:

  • A história da fala sintética remonta aos anos 1700, quando alguns pesquisadores e inventores tentaram construir dispositivos mecânicos que pudessem produzir sons semelhantes aos humanos, como ressonadores acústicos e sintetizadores de fala.
  • A história da fala sintética avançou no século XX, quando sistemas eletrônicos e baseados em computador foram desenvolvidos para gerar fala a partir de texto ou outras entradas, como o VODER, o computador IBM e o sistema do Laboratório Eletrotécnico.
  • A história da fala sintética progrediu ainda mais no final do século XX e no início do século XXI, quando novas técnicas e tecnologias foram introduzidas para melhorar a qualidade, a naturalidade e a diversidade da fala sintética, como redes neurais, clonagem de voz e incorporação de emoções e estilos

A história do reconhecimento de fala na IA pode ser resumida da seguinte forma:

  • O reconhecimento de fala é a tecnologia que permite que os computadores reconheçam e traduzam a linguagem falada em texto.
    O primeiro sistema de reconhecimento de fala foi desenvolvido pela Bell Laboratories em 1952 e era capaz de reconhecer números falados com alta precisão.
  • Nas décadas de 1960 e 1970, os sistemas de reconhecimento de fala expandiram seu vocabulário e usaram métodos probabilísticos, como os modelos ocultos de Markov, para melhorar a precisão e a velocidade.
  • Nas décadas de 1980 e 1990, os sistemas de reconhecimento de fala tornaram-se mais independentes do locutor e usaram redes neurais e modelos estatísticos de linguagem para lidar com a linguagem natural e grandes vocabulários.
  • Nas décadas de 2000 e 2010, os sistemas de reconhecimento de fala se beneficiaram dos avanços em aprendizagem profunda e big data, alcançando um desempenho quase humano em vários domínios e aplicativos.

A tecnologia de síntese de fala refere-se ao processo de geração de fala artificial a partir da entrada de texto digital. Essa tecnologia é comumente usada em dispositivos e softwares que exigem uma saída de áudio de conteúdo escrito.

Os primeiros sistemas de síntese de fala foram criados na década de 1770 por Wolfgang von Kempelen e pelo professor russo Christian Kratzenstein. Essas máquinas de fala acústico-mecânicas foram os primeiros dispositivos a serem considerados sintetizadores de fala.

O primeiro dispositivo a ser considerado um sintetizador de fala foi o Voder, criado por Homer Dudley no final da década de 1930. Ele era capaz de produzir uma gama limitada de sons semelhantes aos humanos e foi usado principalmente para os primeiros experimentos de codificação de voz.

A tecnologia de síntese evoluiu consideravelmente desde a criação do Voder. Na década de 1970, a Texas Instruments produziu o primeiro sistema completo de conversão de texto em fala, conhecido como "Speak & Spell". O desenvolvimento da síntese de seleção de unidades na década de 1980 permitiu um som de fala mais natural ao juntar palavras e frases pré-gravadas. A introdução de técnicas de espectrograma e codificação preditiva linear na década de 1990 melhorou ainda mais a qualidade da fala sintetizada. Atualmente, os algoritmos de processamento de linguagem natural são usados para gerar uma fala altamente realista e inteligível.

Um vocoder é um tipo de sintetizador de fala que funciona analisando e sintetizando as características dos sinais de fala. Ele foi originalmente inventado para comunicação segura durante a Segunda Guerra Mundial e, desde então, tem sido usado na produção musical para criar vocais robóticos.

A síntese de seleção de unidades é uma técnica em que unidades de fala pré-gravadas, como palavras ou frases, são selecionadas com base em suas características fonéticas e prosódicas e reunidas para criar uma fala com som natural.

A fala inteligível refere-se à fala que pode ser compreendida por um ouvinte. No contexto da síntese de fala, refere-se à capacidade da fala sintetizada de ser percebida de forma tão clara e precisa quanto a fala natural.

O Dectalk é um sintetizador de fala que usa síntese concatenativa, que é outra forma de síntese de seleção de unidade. Ele era comumente usado em dispositivos de tecnologia assistiva para deficientes visuais ou pessoas com dificuldades de leitura.

O Haskins Laboratories é um instituto de pesquisa privado, sem fins lucrativos, voltado para o estudo da fala, da linguagem e dos processos cognitivos. Eles realizaram uma extensa pesquisa sobre a tecnologia de síntese de fala.

O texto é transformado em áudio por meio do processo de síntese de fala. Esse processo envolve a decomposição do texto em elementos fonéticos e linguísticos e o uso de tecnologia de síntese para gerar sinais de fala que são convertidos em uma saída de áudio.

Considerações finais

Com base em tudo o que discutimos acima, uma possível conclusão da evolução da tecnologia TTS de vozes robóticas para a fala natural semelhante à humana poderia ser essa:

A tecnologia TTS passou por avanços significativos nas últimas décadas, desde a produção de vozes robóticas e monótonas até a geração de uma fala realista e expressiva. Os principais fatores dessa evolução são o desenvolvimento de novas técnicas de síntese, como modelos baseados em redes neurais, a disponibilidade de dados de fala grandes e diversificados e a aplicação de métodos de aprendizagem por transferência e aumento de dados. 

A evolução da tecnologia TTS possibilitou novas capacidades e recursos, como clonagem de voz, incorporação de emoções e estilos e ajuste de voz. A evolução da tecnologia TTS também possibilitou novos aplicativos e cenários, como assistentes de voz, entretenimento e soluções de acessibilidade. 

A evolução da tecnologia TTS também trouxe novos desafios e oportunidades, como preocupações éticas, avaliação da qualidade e experiência do usuário. Espera-se que a evolução da tecnologia TTS continue no futuro, à medida que mais pesquisas e inovações forem realizadas nesse campo.

Foto de Anson Antony
Anson Antônio
Anson é um autor colaborador e fundador do www.askeygeek.com. Sua paixão por aprender coisas novas levou à criação do askeygeek.com, que se concentra em tecnologia e negócios. Com mais de uma década de experiência em terceirização de processos de negócios, finanças e contabilidade, tecnologia da informação, excelência operacional e inteligência de negócios, Anson trabalhou para empresas como Genpact, Hewlett Packard, M*Modal e Capgemini em várias funções. Além de suas atividades profissionais, ele é um entusiasta do cinema que gosta de passar horas assistindo e estudando cinema, e também é cineasta.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Parabéns!
Você conseguiu,
Não feche!

Acesso UberCreate Creator Pro
de graça!!!

Este pop-up não vai aparecer você decide de novo!!!

1
Compartilhe para...