OpenAI anuncia o Sora, sua IA que transforma textos em vídeos

Cena divulgação do Sora. Imagem: OpenAI

Nesta última quarta-feira (14) a OpenAI fez o anúncio de sua primeira ferramenta de IA que transforma textos em imagens. De acordo com a empresa, o Sora é um modelo de Inteligência Artificial capaz de criar cenas realistas a partir instruções de texto (prompts).

Conforme anúncio, a empresa criadora do ChatGPT está ensinado seu modelo de IA a compreender e simular o mundo físico em movimento. Isso porque ela já tem o DALL-E, sua ferramenta de IA que cria imagens, também a partir de instruções textuais. Agora, as coisas ficam mais complexas ao dar movimento a essas criações.

As expectativas são animadoras com a solução da OpenAI. Embora o modelo ainda crie cenas de até um minuto, o que podemos perceber com destaque, é a qualidade do conteúdo gerado. A empresa divulgou alguns vídeos no seu perfil do X (antigo Twitter).

Sora e outras soluções no mercado

O Sora não é o único modelo de IA para gerar vídeos a partir de textos. A própria Meta já havia anunciado no ano passado, sua ferramenta Make-A-Video com o mesmo propósito. Além disso, existem outras como o Google Lumiere e o Genmo, da Genmo Inc. O Google Lumiere e o Make-A-Video, ainda em fase de testes.

Entretanto, a OpenAI diz que o Sora é capaz de criar “cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do plano de fundo”. A julgar dos primeiros resultados apresentados por outras ferramentas, é perceptível o avanço da empresa nesse sentido. Ela ainda diz em seu blog, que “o modelo entende não apenas o que o usuário pediu no prompt, mas também como essas coisas existem no mundo físico”.

Apesar de todo avanço e capacidade desse novo modelo de IA, a empresa diz que esse modelo ainda tem pontos fracos. Ela diz que o modelo “pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito”. Ela ainda cita como exemplo “uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida”. Além disso ela informa que o modelo pode “confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita” .

Quando o Sora estará disponível para os usuários?

Conforme anúncio em seu blog oficial, o Sora ainda está em fase de testes para um grupo restrito de pessoas, os “red teamers”. Com isso a empresa busca medidas de segurança e dispositivos para rejeitar entrada de textos que violem sua política de uso. Da mesma forma, isso inclui ferramentas de detecção de conteúdo enganoso e um classificador para informar quando um vídeo foi gerado pelo Sora. Vale lembrar que a OpenAI divulgou no início do mês que estaria trabalhando para incluir marcas D´água em imagens geradas pelo DALL-E 3. A Meta fez o mesmo anunciando rotulagem de imagens geradas por IA em postagens de suas redes sociais.

Com a chegada do Sora, a OpenAI amplia seu portifólio de soluções voltadas a inteligência artificial, com uma ferramenta que mostrou resultados satisfatórios. A julgar pelo sucesso estrondoso do ChatGPT, as expectativas do Sora podem ser grandes.

Você pode assistir os outros vídeos criados pelo Sora na página oficial em https://openai.com/sora.

Fonte: Blog OpenAI. Imagem de capa: OpenAI.

Siga nossas redes sociais!