Ouvindo...

Sora: nova ferramenta do Chat GPT transforma texto em vídeo com IA; veja exemplos

O modelo de inteligência artifical da Open IA ainda está em desenvolvimento, sem data de lançamento

Sora: novo modelo da Open IA transforma texto em vídeos de animação com no máximo 1 minuto de duração

A Open IA, que controla o Chat GPT, anunciou o desenvolvimento de um novo modelo de inteligência artificial (IA) capaz de gerar vídeos de 1 minuto a partir de fotos ou textos enviados pelo usuário.

Apresentada nessa quinta-feira (15), a Sora é capaz de criar “cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos”, que são fiéis à descrição feita pelo usuário - de acordo com a empresa.

A ferramenta também pode transformar imagens estáticas em vídeos, dando “vida” para fotos capturadas no mundo real, por exemplo.

“O modelo entende não apenas o que o usuário solicitou na instrução, mas também como essas coisas existem no mundo físico”, afirmou a Open IA.

Leia também

O objetivo da ferramenta é “ajudar as pessoas a resolver problemas que exigem interação no mundo real”, acrescentou a empresa em comunicado.

A Open IA avisou que o “modelo atual tem fraquezas”, como confundir direita e esquerda ou falhar em manter a continuidade visual ao longo do vídeo.

A Sora está em período de teste e não foi disponibilizada ao público geral. Ainda não há previsões para o lançamento oficial, nem informações sem o acesso será gratuito.

Os desenvolvedores estão atuando para prevenir que a ferramenta seja usada para disseminar desinformação, conteúdo prejudicial e com viés ideológico.

Sam Altman, o CEO da OpenAI, disse na rede social X (ex-Twitter) que a companhia estava “oferecendo a um número limitado de criadores acesso” à ferramenta.

Artistas visuais, designers e cineastas foram autorizados a contribuir com sugestões, antes do lançamento oficial.

Ao mesmo tempo, a Open IA disponibilizou ontem (15) vários modelos de vídeos criados pela plataforma, que mostram a capacidade da nova tecnologia.

Exemplos

Os exemplos disponibilizados na plataforma da Sora apresentam conteúdos com personagens realistas, que demonstram emoções e uma qualidade visual notável.

O modelo de IA gera vídeos personalizados com múltiplas sequências, no prazo de 60 segundos de duração.

Sam Altman, o CEO da OpenAI, pediu aos seguidores no X (ex-Twitter) sugestões de comandos ao Sora e depois divulgou o resultado. Confira:

Dentre os modelos divulgados pela Sora, é possível ver cenas que incluem:

  • Um astronauta explorando um planeta desconhecido usando um capacete de motocicleta, que foi tricotado com lã vermelha.
  • Dois navios piratas duelando dentro de uma xícara de café.
  • Um vídeo caseiro mostrando o povo de Lagos, Nigéria, no ano de 2056.
  • Reflexos na janela de um trem viajando pelos subúrbios de Tóquio, no Japão.
  • Um passeio por uma galeria de arte com pinturas de diferentes estilos e eras.
  • Uma animação em stop motion de uma flor crescendo na beirada da janela de uma casa.
  • Um polvo descansando no fundo do oceano, enquanto um caranguejo se aproxima para atacá-lo.
  • Um canguru de desenho animado dança discoteca.

Sora x Chat GPT

O Sora e o Chat GPT são como “primos’, compartilhando a mesma base de dados chamada “arquitetura de transformador”.

Esse “modelo neural” de IA se tornou proeminente em várias aplicações de aprendizado de máquina, especialmente em tarefas que envolvem processamento de linguagem natural.

A arquitetura se destacou em tarefas que envolvem o processamento de sequências, como tradução de idiomas, resumo de texto e geração de texto.

Os dois modelos são inspirados na estrutura de funcionamento do cérebro humano, que consistem em unidades interconectadas chamadas de neurônios, que são organizadas em camadas.

Isso funciona como uma espécie de “esqueleto” das ferramentas, que lhe dá a capacidade de entender e processar informações solicitadas pelo usuário.

Apesar de aplicarem a mesma base de dados, os modelos de IA têm funções diferentes.

O Chat GPT é especialista em conversas, respondendo a perguntas em formato de texto - enquanto Sora é o “artista dos vídeos”, transformando instruções textuais em animações.

Google x Microsoft

A Open IA controla o Chat GPT e o DALL-E - duas das ferramentas de IA mais populares da internet.

A Microsoft é dona de 49% da startup de San Francisco (EUA) - que foi fundada com doações dos bilionários Elon Musk e Sam Altman como uma empresa sem fins licrativos que, segundo eles, tinha como “objetivo o desenvolvimento seguro e responsável da inteligência artificial”

O novo lançamento da empresa é uma forma de disputar o mercado com o Google, que recentemente lançou o Gemini, seu novo projeto de IA que é mais versátil do que o Chat GPT.

Enquanto o ChatGPT se concentra principalmente em texto, a nova ferramenta do Google processa e gera informações a partir de texto, imagem, áudio e código.

Após lançar o DALL-E, que concentra na criação de imagens automatizadas, a Open IA investe agora na criação de vídeos - que a concorrente Google ainda não é capaz de criar.

De acordo com o Google, o Gemini em breve também será capaz de editar conteúdos de vídeo e áudio.

Mas o Open IA saiu na frente na “corrida” pelo domínio do novo mercado de inteligência artificial, que se torna cada vez mais popular na internet e presente no dia a dia da população.

Meta, Google e Runway AI também estão trabalhando em uma tecnologia de inteligência artificial de geração de vídeos a partir de textos e já lançaram demonstrações similares.

*Com informações da AFP

Participe do canal da Itatiaia no Whatsapp e receba as principais notícias do dia direto no seu celular. Clique aqui e se inscreva.

Formado em Jornalismo pela UFMG, com passagens pelo jornal Estado de Minas/Portal Uai. Hoje, é repórter multimídia da Itatiaia.