A IA de Voz Supera ChatGPT em 3 Recursos Inovadores.

Não há dúvida de que a inteligência artificial (IA) está revolucionando o mundo em que vivemos. E agora, uma nova assistente de voz alimentada por IA chamada Moshi está prestes a dar um passo à frente, superando até mesmo o ChatGPT da OpenAI em um de seus recursos mais esperados: a capacidade de conversar em tempo real.

Principais conclusões

  • A Moshi, uma nova assistente de voz alimentada por IA, está se destacando ao oferecer conversas em tempo real, algo que o ChatGPT da OpenAI ainda não consegue fazer.
  • A Moshi foi desenvolvida pela empresa francesa Kyutai, que está trabalhando para torná-la um projeto de código aberto, permitindo maior inovação e mitigando preocupações sobre segurança e ética.
  • A Moshi integra treinamento em texto e áudio, o que lhe permite funcionar em dispositivos localmente sem precisar acessar a nuvem, mantendo a privacidade e a segurança dos dados.

Moshi: A nova assistente de voz alimentada por IA

Quando a OpenAI atrasou o lançamento do modo de voz impressionante do ChatGPT, muitos fãs ficaram desapontados. Mas agora, parece que eles foram superados. A empresa francesa de inteligência artificial Kyutai apresentou uma nova assistente de voz em tempo real chamada Moshi.

Conversas realistas e emocionais

A Moshi é projetada para fornecer conversas realistas e envolventes com os usuários por meio da voz, assim como a Alexa ou o Google Assistant. No entanto, ela é alimentada pelos mesmos modelos de linguagem em larga escala que estão por trás do ChatGPT e de seus concorrentes, neste caso, o modelo Helium 7B.

De acordo com a Kyutai, a Moshi pode falar com vários sotaques e possui 70 estilos emocionais e de fala diferentes. Ela até mesmo pode lidar com dois fluxos de áudio simultaneamente, permitindo que escute e fale ao mesmo tempo.

Treinamento detalhado para uma interação natural

A IA de Voz Supera ChatGPT em 3 Recursos Inovadores.
Source: techradar.com

O desenvolvimento da Moshi pela Kyutai envolveu o refinamento de mais de 100.000 diálogos sintéticos criados com a tecnologia de Texto-para-Fala (TTS). O objetivo era ensinar à Moshi as nuances e tons da comunicação humana, com a colaboração de um artista de voz profissional para melhorar ainda mais a qualidade da voz da assistente.

Integração de texto e áudio

Essa assistente de IA integra o treinamento em texto e áudio, otimizada para vários backends, o que significa que ela pode funcionar em dispositivos como laptops sem precisar interagir com a nuvem. Isso é apresentado pela empresa como uma forma de manter a privacidade e a segurança, evitando a transmissão de dados sensíveis pela internet.

Projeto de código aberto e recursos adicionais

A Kyutai declarou que a Moshi será um projeto de código aberto, incluindo os códigos e a estrutura do modelo, fornecendo uma base para futuras inovações. Essa abordagem de código aberto também pode ajudar a mitigar as reclamações que as grandes empresas de IA estão enfrentando em relação à segurança e à ética de seus modelos fechados.

Identificação, marcação e rastreamento de áudio

A Kyutai também está trabalhando em sistemas de identificação, marcação e rastreamento de áudio gerado por IA a serem incorporados à Moshi. Esses recursos ajudarão a identificar o conteúdo de áudio gerado por IA, promovendo responsabilidade e rastreabilidade, garantindo que o conteúdo possa ser monitorado e verificado.

Impacto potencial no ecossistema da IA

Embora a Moshi ainda esteja em desenvolvimento, o modo de voz mostrado na apresentação é impressionante. Essa abordagem de voz pode servir como catalisador para outras versões habilitadas para voz dos rivais do ChatGPT ou acelerar a adição de modelos de linguagem em larga escala à Alexa e a outros assistentes de voz, caso a Moshi seja amplamente adotada.

Conclusão

A Moshi, a nova assistente de voz alimentada por IA da Kyutai, representa uma inovação empolgante no campo da inteligência artificial. Com sua capacidade de conversar em tempo real, diversidade de estilos de voz e abordagem de código aberto, a Moshi pode desempenhar um papel importante no avanço da tecnologia de IA e na democratização do acesso a recursos avançados de IA.

Leia mais: