• AI FTW
  • Posts
  • Sora - En AI som forstår verden

Sora - En AI som forstår verden

Dette kom litt brått på

Screenshot fra Sora

En modell som forstår verden

Du har kanskje allerede lest om Sora, fra OpenAI. Det er snart en uke siden de viste frem sin siste modell, og alt annet enn et jordskjelv ville vært en underdrivelse for denne modellen. 

Eksempler 🤯

La oss starte med noen eksempler for å fyre opp motivasjonen (husk, ALT du ser nå er laget av en AI fra en enkel tekst input:

Prompt: A flock of paper airplanes flutters through a dense jungle, weaving around trees as if they were migrating birds.

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

På lanseringssiden til OpenAI finner du en rekke hjernesprengende eksempler som dette.

Jeg ville vente med å skrive noe før jeg kunne få et bedre grep om hva dette faktisk er og hva jeg tror dette vil gjøre med verden.

Det var ventet at i løpet av året så ville vi se store fremskrift innen tekst-til-video, men a) dette skjedde allerede i februar og b) jeg trodde virkelig ikke vi skulle se noe på dette nivået i 2024. Dette er mao godt utenfor det selv en teknologioptimist som meg kunne forestille seg. Og det sier litt.

Hva er Sora, og hvorfor er dette så stort?

En god måte å forklare det på kan være gjennom dialogen mellom Robin Williams og Matt Damond i Good Will Hunting. Will Hunting har lest hele biblioteket og kan sitere Shakespeare og Kant på rams, men har aldri faktisk opplevd verden. Han forstår verden gjennom litteratur, men ikke gjennom erfaring. 

For de av oss som bruker Midjourney jevnlig så vil du kjenne igjen utfordringen med at modellen kan lage nydelige bilder, men den vet ikke egentlig hva den lager. Dermed kan du gjerne få bilder av mennesker som har 7 fingre eller som er plassert inne i  et bord, eller andre absurde situasjoner som kanskje ser greit ut ved første øyekast. Problemet her er at modellen mangler en sann forståelse av verden. Dvs. det har vært problemet frem til nå..

Basert på utsagn fra Sam Altmann, Ilya Sutskever og gjennom OpenAI sin dokumentasjon av Sora kan det virke som at dette er noe som er i ferd med å endre seg. Med sine egne ord har de alle gitt uttrykk for at det de nye modellene gjør er å lære seg noe mer fundamentalt om vår fysiske verden. Som f.eks. at ting som slippes faller nedover, hvordan lys reflekteres fra en overflate, at når noen tar en bit av en skive så blir den spist etc etc. Dermed kan man f.eks. gi den en tekst á la “to sjørøverskip som kjemper i en kopp med kaffe” og så forstår modellen at:

  • En kopp med kaffe ikke er så mye plass og at  dermed må skipene være små.

  • Og hvis skipene er små så må det en spesiell type linse til for å filme det.

  • Og når en kopp med kaffe beveger seg så blir det mye bevegelse i selve kaffen og da har modellen en forståelse om hvordan veske beveger seg (som er ganske avansert fysikk).

  • Men ikke bare lager den et bilde av to skip i en kopp, modellen har også forbløffende evne til de vi kaller “temporal coherence" som bare betyr at den holder seg lik over tid. Hvis noe kommer foran skipet og deretter flytter seg så ser skipene fortsatt like ut.

For oss mennesker så tar vi alt dette for gitt, åpenbart. Men det har også, frem til nå, vært antatt at det å lære maskiner noe fundamentalt om vår fysiske verden ikke ville være praktisk mulig (ihvertfall ikke i dette århundre). Men nå skjer det, rett foran øyenene våre. Sam Altman mener at vi kommer til å ha en maskin som kan gjøre ALT vi kan gjøre innen et par år.

For å sette utviklingen litt i kontekst:

Under ser dere en video om Google sin Imagen text-til-video som var best in class for et år siden. Det er utviklingen på et år.