A Google anunciou que vai lançar a versão 1.5 do Gemini para programadores e utilizadores empresariais. Para não ficar atrás, um dos maiores concorrentes da Google – a OpenAI – também fez um grande anúncio sobre IA. No entanto, este anúncio envolve um novo modelo de IA de texto para vídeo.
OpenAI: novidade transforma texto em vídeo de 60 segundos
Numa publicação de blogue e, posteriormente, nas redes sociais, a OpenAI revelou um novo modelo de IA generativo de texto para vídeo chamado Sora. O anúncio é acompanhado por clipes criados pelo software, que vão desde uma celebração do Ano Novo Lunar chinês até um monstro animado.
Introducing Sora, our text-to-video model.
Segue a Leak na Pesquisa Google Aparece no teu Discover automaticamenteSora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
A OpenAI afirma que o Sora está atualmente a ser disponibilizado a algumas equipas para “avaliar áreas críticas quanto a danos ou riscos”. Estas equipas incluem especialistas em áreas como a desinformação, conteúdos de ódio e preconceitos. Para além destes testes, o Sora também será submetido às medidas de segurança que existem para o DALL-E 3. A empresa acrescenta que está a trabalhar em ferramentas para ajudar a detetar se um vídeo foi gerado pela Sora.
Embora outros como Pika e Stability AI tenham superado a OpenAI quando se trata de geração de vídeo de IA, há algumas coisas que fazem Sora se destacar. Por um lado, o Sora pode criar até 60 segundos de vídeo, enquanto os concorrentes apenas conseguem cerca de quatro segundos. Depois, há a nitidez, a resolução e a precisão do mundo circundante.
https://t.co/SOUoXiSMBY pic.twitter.com/JB4zOjmbTp
— Sam Altman (@sama) February 15, 2024
Existem mais de 35 exemplos que se podem consultar no site da OpenAI. Embora os resultados sejam impressionantes, o modelo está longe da perfeição. Aliás a empresa admite isto.
O modelo atual tem pontos fracos
Pode ter dificuldades em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma dentada numa bolacha, mas depois a bolacha pode não ter uma marca de dentada.
O modelo pode também confundir pormenores espaciais de uma mensagem, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir a trajetória de uma câmara específica.
Pode ver-se um exemplo disto no primeiro vídeo apresentado no blogue. O vídeo mostra uma mulher a caminhar por Tóquio. Se observar com atenção, vais reparar que as pernas da mulher mudam ou gaguejam ocasionalmente, os seus pés deslizam pelo chão e a sua roupa e cabelo mudam perto do fim.
Apesar de Sora não estar disponível para o público em geral, o Diretor Executivo Sam Altman tem vindo a aceitar sugestões dos utilizadores do X (antigo Twitter).




