OpenAI anuncia o ChatGPT-4o, modelo de áudio, visão e texto

E as novidades da OpenAI não param de chegar. A empresa anunciou o lançamento do ChatGPT-4o, seu mais novo modelo de Inteligência Artificial generativa. De acordo com o anúncio, o novo ChatGPT agora “raciocina” por áudio, visão e texto em tempo real, diz a empresa em seu comunicado.

Segundo a OpenAI, o GPT-4o é mais um passo em direção ao objetivo de tornar mais natural a interação humano-computador. Para isso, seu mais novo modelo de IA, aceita uma combinação de texto, áudio e imagem para gerar suas saídas. Além disso, ele é capaz de usar essa mesma combinação para gerar suas respostas.

A empresa ainda diz que seu modelo ChatGPT-4o é capaz de processar e responder a entradas de áudio em apenas 232 milissegundos, sendo semelhante ao tempo de resposta de um humano em uma conversa. Além disso, foram implementadas melhorias significativas em texto para diferentes idiomas. Da mesma forma, o ChatGPT-4o é bem mais rápido, API 50% mais barato e possui melhor compreensão de áudio e visão comparado a outros modelos, diz a empresa.

Ao revelar o ChatGPT-4o, a OpenAI põe fim a rumores que existiam a uma suposta chegada do ChatGPT 5. Segundo a empresa, a letra “o” do nome ChatGPT-4o, é menção ao termo “omini”, que vem do latim e significa “tudo” ou “todos”.

Capacidade do ChatGPT-4o

O ChatGPT-4o é o resultado do treinamento de um único modelo de rede neural, segundo informa a OpenAI. Trata-se de um modelo de IA capaz de combinar todas as entradas de texto, visão e áudio em um único processamento. A empresa fez uma comparação com seus modelos anteriores (GPT-3.5 e GPT-4), onde nos modelos anteriores era possível falar com o ChatGPT em altas latências e com pipeline de três modelos separados para processamento. A empresa divulgou um vídeo de demonstração no seu perfil do X (antigo Twitter).

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

A OpenAI divulgou em seu blog alguns vídeos de demonstração que impressionam pela capacidade de resposta e contextualização do modelo de IA. Em um deles que chama bastante atenção, podemos ver Greg Brockman, cofundador da empresa, fazendo interações no aplicativo em dois smartphones. Durante a demonstração, podemos perceber dois GPT-4o´s interagindo entre eles, além de cantar no final.

Novo modelo do ChatGPT disponível em modo gratuito

Conforme anunciado, o ChatGPT-4o é o resultado de dois anos de esforço da equipe da OpenAI para melhorias na eficiência de todas as camadas. A empresa informou que os recursos de texto e imagem estavam sendo implementados no ChatGPT já no lançamento. Além disso, o novo modelo estaria sendo disponibilizado para usuários do nível gratuito e para usuários Plus com limites de mensagens 5 vezes maiores. Já a versão do modo de voz chegará nas próximas semanas para usuários do ChatGPT Plus.

Com esses novos anúncios, o ChatGPT que é uma ferramenta de referência em IA generativa, tende a se manter no patamar de destaque para modelos de Inteligência Artificial.

Agora, compartilhe com seus amigos para que eles também desbravem esse vasto mundo da tecnologia. Ah, não se esqueça de seguir nossas redes sociais nos botões a seguir. Até breve!

Fonte. Blog OpenAI.

Capacidade do ChatGPT-4o

Novo modelo do ChatGPT disponível em modo gratuito

Notícias relacionadas

Google Maps entra na era da navegação com IA. Veja o que muda

Google Tradutor recebe atualização com recursos da IA Gemini

Solte o som DJ: Gemini agora permite criar músicas com Lyria 3