A Open IA, que controla o Chat GPT, anunciou o desenvolvimento de um novo modelo de inteligência artificial (IA) capaz de gerar vídeos de 1 minuto a partir de fotos ou textos enviados pelo usuário.
Apresentada nessa quinta-feira (15), a Sora é capaz de criar “cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos”, que são fiéis à descrição feita pelo usuário - de acordo com a empresa.
A ferramenta também pode transformar imagens estáticas em vídeos, dando “vida” para fotos capturadas no mundo real, por exemplo.
“O modelo entende não apenas o que o usuário solicitou na instrução, mas também como essas coisas existem no mundo físico”, afirmou a Open IA.
O objetivo da ferramenta é “ajudar as pessoas a resolver problemas que exigem interação no mundo real”, acrescentou a empresa em comunicado.
A Open IA avisou que o “modelo atual tem fraquezas”, como confundir direita e esquerda ou falhar em manter a continuidade visual ao longo do vídeo.
A Sora está em período de teste e não foi disponibilizada ao público geral. Ainda não há previsões para o lançamento oficial, nem informações sem o acesso será gratuito.
Os desenvolvedores estão atuando para prevenir que a ferramenta seja usada para disseminar desinformação, conteúdo prejudicial e com viés ideológico.
Sam Altman, o CEO da OpenAI, disse na rede social X (ex-Twitter) que a companhia estava “oferecendo a um número limitado de criadores acesso” à ferramenta.
OpenAI CEO Sam Altman just released a groundbreaking GPT feature.
— Dan (@danmurrayserter) February 16, 2024
Text-generated videos:
Here's 15 incredible use-cases: pic.twitter.com/SXXuKiSzcz
Artistas visuais, designers e cineastas foram autorizados a contribuir com sugestões, antes do lançamento oficial.
Ao mesmo tempo, a Open IA disponibilizou ontem (15) vários modelos de vídeos criados pela plataforma, que mostram a capacidade da nova tecnologia.
Exemplos
Os exemplos disponibilizados
O modelo de IA gera vídeos personalizados com múltiplas sequências, no prazo de 60 segundos de duração.
Sam Altman, o CEO da OpenAI, pediu aos seguidores no X (ex-Twitter) sugestões de comandos ao Sora e depois divulgou o resultado. Confira:
https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024
1) What https://t.co/w6b9T1WWue
— Sam Altman (@sama) February 15, 2024
Dentre os modelos divulgados pela Sora, é possível ver cenas que incluem:
Dia quentíssimo no mundo da IA! 🔥
— Fabrício Carraro (@fabriciocarraro) February 15, 2024
A @OpenAI acabou de anunciar o modelo Sora, de geração de vídeos a partir de texto.
Ele é capaz de gerar vídeos de até 1 min de alta qualidade.
Segue o fio para ver alguns dos prompts e vídeos mais impressionantes! 🤯 pic.twitter.com/LqphI7zVnc
- Um astronauta explorando um planeta desconhecido usando um capacete de motocicleta, que foi tricotado com lã vermelha.
- Dois navios piratas duelando dentro de uma xícara de café.
- Um vídeo caseiro mostrando o povo de Lagos, Nigéria, no ano de 2056.
- Reflexos na janela de um trem viajando pelos subúrbios de Tóquio, no Japão.
- Um passeio por uma galeria de arte com pinturas de diferentes estilos e eras.
- Uma animação em stop motion de uma flor crescendo na beirada da janela de uma casa.
- Um polvo descansando no fundo do oceano, enquanto um caranguejo se aproxima para atacá-lo.
- Um canguru de desenho animado dança discoteca.
Sora x Chat GPT
O Sora e o Chat GPT são como “primos’, compartilhando a mesma base de dados chamada “arquitetura de transformador”.
Esse “modelo neural” de IA se tornou proeminente em várias aplicações de aprendizado de máquina, especialmente em tarefas que envolvem processamento de linguagem natural.
A arquitetura se destacou em tarefas que envolvem o processamento de sequências, como tradução de idiomas, resumo de texto e geração de texto.
Os dois modelos são inspirados na estrutura de funcionamento do cérebro humano, que consistem em unidades interconectadas chamadas de neurônios, que são organizadas em camadas.
Isso funciona como uma espécie de “esqueleto” das ferramentas, que lhe dá a capacidade de entender e processar informações solicitadas pelo usuário.
Apesar de aplicarem a mesma base de dados, os modelos de IA têm funções diferentes.
O Chat GPT é especialista em conversas, respondendo a perguntas em formato de texto - enquanto Sora é o “artista dos vídeos”, transformando instruções textuais em animações.
Google x Microsoft
A Open IA controla o Chat GPT e o DALL-E - duas das ferramentas de IA mais populares da internet.
A Microsoft é dona de 49% da startup de San Francisco (EUA) - que foi fundada com doações dos bilionários Elon Musk e Sam Altman como uma empresa sem fins licrativos que, segundo eles, tinha como “objetivo o desenvolvimento seguro e responsável da inteligência artificial”
O novo lançamento da empresa é uma forma de disputar o mercado com o Google, que recentemente lançou o
Enquanto o ChatGPT se concentra principalmente em texto, a nova ferramenta do Google processa e gera informações a partir de texto, imagem, áudio e código.
Após lançar o DALL-E, que concentra na criação de imagens automatizadas, a Open IA investe agora na criação de vídeos - que a concorrente Google ainda não é capaz de criar.
De acordo com o Google, o Gemini em breve também será capaz de editar conteúdos de vídeo e áudio.
Mas o Open IA saiu na frente na “corrida” pelo domínio do novo mercado de inteligência artificial, que se torna cada vez mais popular na internet e presente no dia a dia da população.
Meta, Google e Runway AI também estão trabalhando em uma tecnologia de inteligência artificial de geração de vídeos a partir de textos e já lançaram demonstrações similares.
*Com informações da AFP
Participe do canal da Itatiaia no Whatsapp e receba as principais notícias do dia direto no seu celular.