Sora (modelo de texto para vídeo)

Sora (modelo de texto para vídeo)
Websitesora.chatgpt.com

Sora é uma ferramenta de geração de vídeo a partir de texto desenvolvida pela OpenAI. Esse sistema cria clipes curtos com base nas instruções fornecidas pelos usuários e também possui a capacidade de expandir vídeos já existentes.

Sora foi lançado publicamente para ChatGPT Plus e ChatGPT Pro usuários em dezembro de 2024.[1][2]

História

Diversas outras tecnologias de conversão de texto em vídeo foram lançadas antes do Sora, como o Make-A-Video da Meta, o Gen-2 da Runway e o Veo 3 do Google — sendo este último, em fevereiro de 2024, ainda um projeto em fase experimental. A OpenAI, a empresa por trás da Sora, lançou o DALL·E 3, o terceiro de seus modelos de texto-imagem DALL-E, em setembro de 2023.[3]

A equipe que desenvolveu o Sora o nomeou em homenagem à palavra japonesa para céu para significar seu "potencial criativo ilimitado". [4] Em 15 de fevereiro de 2024, a OpenAI apresentou o Sora pela primeira vez, lançando vários clipes de vídeos de alta definição que ele criou, incluindo um SUV dirigindo em uma estrada na montanha, uma animação de um "monstro fofo e baixo" ao lado de uma vela, duas pessoas caminhando por Tóquio na neve e uma filmagem histórica falsa da corrida do ouro na Califórnia, e afirmou que era capaz de gerar vídeos de até um minuto de duração. [5] A empresa então compartilhou um relatório técnico, que destacou os métodos usados para treinar o modelo. [6] [7] O diretor executivo da OpenAI, Sam Altman, publicou uma sequência de tweets, nos quais respondeu às sugestões dos usuários do Twitter com vídeos gerados pelo Sora a partir dessas ideias.

Em 9 de dezembro de 2024, a OpenAI liberou o acesso ao Sora para o público, especificamente para assinantes do ChatGPT Pro e ChatGPT Plus. Antes disso, a empresa havia concedido acesso restrito a um pequeno grupo de especialistas — chamado de “equipe vermelha” — formado por profissionais em desinformação e análise de viés, com o objetivo de realizar testes rigorosos no sistema.. [3] A empresa também compartilhou o Sora com um pequeno grupo de profissionais criativos, incluindo videomakers e artistas, para buscar feedback sobre sua utilidade em campos criativos. [8] Em fevereiro de 2025, a OpenAI anunciou planos para integrar o Sora ao ChatGPT, permitindo que os usuários gerem vídeos do Sora a partir do chatbot. [9]

Capacidades e limitações

A tecnologia por trás do Sora é uma adaptação da tecnologia por trás do DALL-E 3 . De acordo com a OpenAI, o Sora é um transformador de difusão [10] – um modelo de difusão latente de redução de ruído com um transformador como desnoiser. Um vídeo é gerado no espaço latente pela redução de ruído de "patches" 3D, e então transformado para o espaço padrão por um descompressor de vídeo. A relegação é usada para aumentar os dados de treinamento, usando um modelo de vídeo para texto para criar legendas detalhadas em vídeos. [7]

O treinamento do modelo foi feito com vídeos de acesso público, além de conteúdos protegidos por direitos autorais que foram devidamente licenciados para esse fim. No entanto, a OpenAI não divulgou a quantidade nem as fontes exatas dos materiais utilizados. [4] Após seu lançamento, a OpenAI reconheceu algumas das deficiências do Sora, incluindo sua dificuldade em simular física complexa, entender a causalidade e diferenciar a esquerda da direita. [11] Um exemplo mostra um grupo de filhotes de lobo aparentemente se multiplicando e convergindo, criando um cenário difícil de seguir. [12] A OpenAI também declarou que, em conformidade com as práticas de segurança existentes da empresa, o Sora restringirá os prompts de texto para imagens sexuais, violentas, odiosas ou de celebridades, bem como conteúdo com propriedade intelectual pré-existente. [3]

Tim Brooks, um pesquisador do Sora, afirmou que o modelo descobriu como criar gráficos 3D apenas a partir de seu conjunto de dados, enquanto Bill Peebles, também pesquisador do Sora, disse que o modelo criou automaticamente diferentes ângulos de vídeo sem ser solicitado. [5] De acordo com a OpenAI, os vídeos gerados pelo Sora são marcados com metadados C2PA para indicar que foram gerados por IA. [4]

Recepção

Will Douglas Heaven, da MIT Technology Review, chamou os vídeos de demonstração de "impressionantes", mas observou que eles devem ter sido escolhidos a dedo e podem não ser representativos da produção típica de Sora. [8] O acadêmico americano Oren Etzioni expressou preocupações sobre a capacidade da tecnologia de criar desinformação online para campanhas políticas. [4] Para a Wired, Steven Levy escreveu de forma semelhante que ela tinha o potencial de se tornar "um desastre de desinformação" e opinou que seus clipes de pré-visualização eram "impressionantes", mas "não perfeitos" e que "mostravam uma compreensão emergente da gramática cinematográfica" devido às suas mudanças de cena não solicitadas. Levy acrescentou: "[i] levará muito tempo, se é que algum dia, antes que o texto para vídeo ameace a produção cinematográfica real." [5] Lisa Lacy, da CNET, chamou seus vídeos de exemplo de "notavelmente realistas - exceto talvez quando um rosto humano aparece de perto ou quando criaturas marinhas estão nadando". [3]

Veja também

  • Google Veo
  • VideoPoet —
  • Máquina dos Sonhos (modelo de texto para vídeo)

Referências

  1. «Sora | OpenAI». openai.com (em inglês). Consultado em 9 de dezembro de 2024 
  2. Wang, Gerui. «How Sora And AI Videos Transform Media: Strengths And Challenges». Forbes (em inglês). Consultado em 24 de dezembro de 2024 
  3. a b c d Lacy, Lisa (15 de fevereiro de 2024). «Meet Sora, OpenAI's Text-to-Video Generator». CNET. Consultado em 16 de fevereiro de 2024. Cópia arquivada em 16 de fevereiro de 2024 
  4. a b c d Metz, Cade (15 de fevereiro de 2024). «OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos». The New York Times. Consultado em 15 de fevereiro de 2024. Cópia arquivada em 15 de fevereiro de 2024 
  5. a b c Levy, Steven (15 de fevereiro de 2024). «OpenAI's Sora Turns AI Prompts Into Photorealistic Videos». Wired. Consultado em 16 de fevereiro de 2024. Cópia arquivada em 15 de fevereiro de 2024 
  6. Brooks, Tim; Peebles, Bill; Holmes, Connor; DePue, Will; Guo, Yufei; Jing, Li; Schnurr, David; Taylor, Joe; Luhman, Troy (15 de fevereiro de 2024). «Video generation models as world simulators». OpenAI. Consultado em 16 de fevereiro de 2024. Cópia arquivada em 16 de fevereiro de 2024 
  7. a b Edwards, Benj (16 de fevereiro de 2024). «OpenAI collapses media reality with Sora, a photorealistic AI video generator». Ars Technica (em inglês). Consultado em 17 de fevereiro de 2024. Cópia arquivada em 17 de fevereiro de 2024 
  8. a b Heaven, Will Douglas (15 de fevereiro de 2024). «OpenAI teases an amazing new generative video model called Sora». MIT Technology Review. Consultado em 15 de fevereiro de 2024. Cópia arquivada em 15 de fevereiro de 2024 
  9. Zeff, Maxwell (28 de fevereiro de 2025). «OpenAI plans to bring Sora's video generator to ChatGPT». TechCrunch (em inglês). Consultado em 4 de março de 2025 
  10. Peebles, William; Xie, Saining (2023). «Scalable Diffusion Models with Transformers». 2023 IEEE/CVF International Conference on Computer Vision (ICCV). [S.l.: s.n.] pp. 4172–4182. ISBN 979-8-3503-0718-4. ISSN 2380-7504. arXiv:2212.09748Acessível livremente. doi:10.1109/ICCV51070.2023.00387. Consultado em 17 de fevereiro de 2024. Cópia arquivada em 17 de fevereiro de 2024 
  11. Pequeño IV, Antonio (15 de fevereiro de 2024). «OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts». Forbes. Consultado em 15 de fevereiro de 2024. Cópia arquivada em 15 de fevereiro de 2024 
  12. «Sora-generated video of wolves playing with some video issues». ABC News Australia. 16 de fevereiro de 2024. Consultado em 16 de maio de 2024