Exploramos o treinamento em larga escala de modelos generativos em dados de vídeo. Especificamente, treinamos modelos de difusão condicional de texto em conjunto em vídeos e imagens de durações, resoluções e proporções variáveis. Aproveitamos uma arquitetura de transformador que opera em fragmentos de códigos latentes de vídeo e imagem no espaço-tempo. Nosso maior modelo, Sora, é capaz de gerar um minuto de vídeo de alta fidelidade. Nossos resultados sugerem que dimensionar modelos de geração de vídeo é um caminho promissor para a construção de simuladores de uso geral do mundo físico.