A Microsoft reforçou a sua aposta no campo da inteligência artificial (IA) ao anunciar os seus primeiros modelos desenvolvidos internamente, numa clara demonstração de que pretende competir diretamente com os principais nomes do setor e reduzir a sua dependência de parceiros como a OpenAI.

MAI-Voice-1: Microsoft aposta na geração de voz ultrarrápida e natural

A gigante tecnológica apresentou dois novos modelos de IA, frutos do trabalho da sua nova divisão liderada por Mustafa Suleyman, cofundador da DeepMind. O primeiro, denominado MAI-Voice-1, é um sistema de geração de voz concebido para ser excecionalmente expressivo e natural.

A sua principal vantagem é a eficiência: otimizado para funcionar numa única GPU, é capaz de gerar um minuto de áudio de alta fidelidade em menos de um segundo. Esta capacidade já está a ser aproveitada nos resumos de notícias do Copilot Daily e em Podcasts.

Segundo a Microsoft, a entoação natural do MAI-Voice-1 torna-o ideal para aplicações como narração de histórias, criação de meditações guiadas ou até para dar vida a assistentes virtuais com conversação fluida e em tempo real.

Para demonstrar o seu potencial, a empresa de Redmond lançou as “Expressões de áudio do Copilot” no Copilot Labs. Esta ferramenta experimental permite aos utilizadores gerar áudio a partir de um texto e ajustar os estilos de narração, como o tom, o ritmo ou a voz do narrador, através de modos específicos como o “Modo emotivo” e o “Modo história”.

Eis um exemplo (que demorou cerca de 3 segundos a ser gerado), utilizando a introdução deste artigo:

https://pplware.sapo.pt/wp-content/uploads/2025/08/expressoes_audio_copilot.mp3

MAI-1-preview: O modelo que pretende reduzir a dependência da OpenAI

Enquanto o MAI-Voice-1 se foca na velocidade de inferência, o seu “irmão mais velho”, o MAI-1-preview, foi desenvolvido para competir com os modelos de grande escala mais robustos do mercado. Trata-se do primeiro modelo de texto da Microsoft que servirá de base para futuras versões do Copilot.

A empresa revelou que o treino do MAI-1-preview envolveu cerca de 15.000 GPUs NVIDIA H-100 e recorreu a uma arquitetura conhecida como Mixture-of-Experts (MoE).

Esta abordagem, também utilizada em modelos como o DeepSeek, é uma técnica de aprendizagem automática que divide o modelo em múltiplos “especialistas”. Para cada tarefa, o sistema ativa apenas os especialistas mais relevantes, o que otimiza significativamente os recursos computacionais.

Numa entrevista, Mustafa Suleyman explicou que a sua equipa aproveitou técnicas da comunidade open-source para evoluir os modelos com recursos mínimos.

O MAI-1-preview foi concebido para fornecer capacidades poderosas aos consumidores que procuram beneficiar de modelos especializados em seguir instruções e fornecer respostas úteis a consultas diárias.

Afirmou.

Filosofia por detrás da IA

Apesar do seu potencial, o novo modelo não irá substituir imediatamente o GPT-4 (ou o futuro GPT-5) no Copilot. A Microsoft planeia integrar o MAI-1-preview nas próximas semanas para executar tarefas específicas, permitindo medir o seu desempenho e recolher feedback dos utilizadores para futuras melhorias.

Adicionalmente, o modelo será disponibilizado na plataforma LMArena e através de uma API.

Curiosamente, apesar de um dos modelos ser projetado para ser expressivo, o líder da Microsoft AI fez questão de sublinhar que a empresa irá eliminar qualquer característica que faça a IA parecer ter sentimentos ou objetivos próprios. Recentemente, Suleyman falou sobre os perigos de construir sistemas que se assemelham a pessoas.

Há alguns anos, falar de IA consciente teria parecido uma loucura. Hoje, é uma questão cada vez mais urgente. Devemos construir IA para as pessoas, e não torná-la numa pessoa digital.

Defendeu.

 

Leia também: