Sora: nova ferramenta do Chat GPT transforma texto em vídeo com IA; veja exemplos

O modelo de inteligência artifical da Open IA ainda está em desenvolvimento, sem data de lançamento

16/02/2024 às 13:09 •

Facebook
LinkedIn
Twitter
WhatsApp
Copy
Link copied

Sora: novo modelo da Open IA transforma texto em vídeos de animação com no máximo 1 minuto de duração

A Open IA, que controla o Chat GPT, anunciou o desenvolvimento de um novo modelo de inteligência artificial (IA) capaz de gerar vídeos de 1 minuto a partir de fotos ou textos enviados pelo usuário.

Apresentada nessa quinta-feira (15), a Sora é capaz de criar “cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos”, que são fiéis à descrição feita pelo usuário - de acordo com a empresa.

A ferramenta também pode transformar imagens estáticas em vídeos, dando “vida” para fotos capturadas no mundo real, por exemplo.

“O modelo entende não apenas o que o usuário solicitou na instrução, mas também como essas coisas existem no mundo físico”, afirmou a Open IA.

Leia também

Ciência e Tecnologia

O que são bombas gravitacionais e como os Estados Unidos utilizam o armamento

Ciência e Tecnologia

Meta avalia cortar até 20% dos funcionários enquanto amplia investimentos em IA

Ciência e Tecnologia

WhatsApp cria ferramenta para pais controlarem conversas de crianças no aplicativo

Ciência e Tecnologia

Secretária de Cultura destaca importância do projeto Casa Minas no SXSW 2026

O objetivo da ferramenta é “ajudar as pessoas a resolver problemas que exigem interação no mundo real”, acrescentou a empresa em comunicado.

A Open IA avisou que o “modelo atual tem fraquezas”, como confundir direita e esquerda ou falhar em manter a continuidade visual ao longo do vídeo.

A Sora está em período de teste e não foi disponibilizada ao público geral. Ainda não há previsões para o lançamento oficial, nem informações sem o acesso será gratuito.

Os desenvolvedores estão atuando para prevenir que a ferramenta seja usada para disseminar desinformação, conteúdo prejudicial e com viés ideológico.

Sam Altman, o CEO da OpenAI, disse na rede social X (ex-Twitter) que a companhia estava “oferecendo a um número limitado de criadores acesso” à ferramenta.

OpenAI CEO Sam Altman just released a groundbreaking GPT feature.

Text-generated videos:

Here's 15 incredible use-cases: pic.twitter.com/SXXuKiSzcz
— Dan (@danmurrayserter) February 16, 2024

Artistas visuais, designers e cineastas foram autorizados a contribuir com sugestões, antes do lançamento oficial.

Ao mesmo tempo, a Open IA disponibilizou ontem (15) vários modelos de vídeos criados pela plataforma, que mostram a capacidade da nova tecnologia.

Exemplos

Os exemplos disponibilizados na plataforma da Sora apresentam conteúdos com personagens realistas, que demonstram emoções e uma qualidade visual notável.

O modelo de IA gera vídeos personalizados com múltiplas sequências, no prazo de 60 segundos de duração.

Sam Altman, o CEO da OpenAI, pediu aos seguidores no X (ex-Twitter) sugestões de comandos ao Sora e depois divulgou o resultado. Confira:

https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024

1) What https://t.co/w6b9T1WWue
— Sam Altman (@sama) February 15, 2024

Dentre os modelos divulgados pela Sora, é possível ver cenas que incluem:

Dia quentíssimo no mundo da IA! 🔥

A @OpenAI acabou de anunciar o modelo Sora, de geração de vídeos a partir de texto.

Ele é capaz de gerar vídeos de até 1 min de alta qualidade.

Segue o fio para ver alguns dos prompts e vídeos mais impressionantes! 🤯 pic.twitter.com/LqphI7zVnc
— Fabrício Carraro (@fabriciocarraro) February 15, 2024

Um astronauta explorando um planeta desconhecido usando um capacete de motocicleta, que foi tricotado com lã vermelha.
Dois navios piratas duelando dentro de uma xícara de café.
Um vídeo caseiro mostrando o povo de Lagos, Nigéria, no ano de 2056.
Reflexos na janela de um trem viajando pelos subúrbios de Tóquio, no Japão.
Um passeio por uma galeria de arte com pinturas de diferentes estilos e eras.
Uma animação em stop motion de uma flor crescendo na beirada da janela de uma casa.
Um polvo descansando no fundo do oceano, enquanto um caranguejo se aproxima para atacá-lo.
Um canguru de desenho animado dança discoteca.

Sora x Chat GPT

O Sora e o Chat GPT são como “primos’, compartilhando a mesma base de dados chamada “arquitetura de transformador”.

Esse “modelo neural” de IA se tornou proeminente em várias aplicações de aprendizado de máquina, especialmente em tarefas que envolvem processamento de linguagem natural.

A arquitetura se destacou em tarefas que envolvem o processamento de sequências, como tradução de idiomas, resumo de texto e geração de texto.

Os dois modelos são inspirados na estrutura de funcionamento do cérebro humano, que consistem em unidades interconectadas chamadas de neurônios, que são organizadas em camadas.

Isso funciona como uma espécie de “esqueleto” das ferramentas, que lhe dá a capacidade de entender e processar informações solicitadas pelo usuário.

Apesar de aplicarem a mesma base de dados, os modelos de IA têm funções diferentes.

O Chat GPT é especialista em conversas, respondendo a perguntas em formato de texto - enquanto Sora é o “artista dos vídeos”, transformando instruções textuais em animações.

Google x Microsoft

A Open IA controla o Chat GPT e o DALL-E - duas das ferramentas de IA mais populares da internet.

A Microsoft é dona de 49% da startup de San Francisco (EUA) - que foi fundada com doações dos bilionários Elon Musk e Sam Altman como uma empresa sem fins licrativos que, segundo eles, tinha como “objetivo o desenvolvimento seguro e responsável da inteligência artificial”

O novo lançamento da empresa é uma forma de disputar o mercado com o Google, que recentemente lançou o Gemini, seu novo projeto de IA que é mais versátil do que o Chat GPT.

Enquanto o ChatGPT se concentra principalmente em texto, a nova ferramenta do Google processa e gera informações a partir de texto, imagem, áudio e código.

Após lançar o DALL-E, que concentra na criação de imagens automatizadas, a Open IA investe agora na criação de vídeos - que a concorrente Google ainda não é capaz de criar.

De acordo com o Google, o Gemini em breve também será capaz de editar conteúdos de vídeo e áudio.

Mas o Open IA saiu na frente na “corrida” pelo domínio do novo mercado de inteligência artificial, que se torna cada vez mais popular na internet e presente no dia a dia da população.

Meta, Google e Runway AI também estão trabalhando em uma tecnologia de inteligência artificial de geração de vídeos a partir de textos e já lançaram demonstrações similares.

*Com informações da AFP

Participe do canal da Itatiaia no Whatsapp e receba as principais notícias do dia direto no seu celular. Clique aqui e se inscreva.

Facebook
LinkedIn
Twitter
WhatsApp
Copy
Link copied

Chat Gpt Inteligencia Artificual Videos Personalizados

Frederico Gandra

Formado em Jornalismo pela UFMG, com passagens pelo jornal Estado de Minas/Portal Uai. Hoje, é repórter multimídia da Itatiaia.