- AI FTW
- Posts
- Dypdykk-ish
Dypdykk-ish
Hva er Deepseek - og hvorfor bry seg?
For et par uker siden så jeg at noen pratet om Deepseek, en ny Open Source modell fra Kina. Angivelig var den på høyde med GPT-4o og o1. Altså en ‘reasoning model’. Jeg tenkte litt ‘Meh’ - nok en modell; not impressed.
Og i går knakk børsen og verden sammen, og jeg innså at jeg kanskje burde sette meg inn i hva oppstyret dreier seg om. (Jeg skal laste den ned og kjøre modellen lokalt, og så si hva jeg tenker etter det)
Min take: Fett; Dette er ikke verdens undergang
Angivelig (men vi vet ikke):
Trent for under 6 millioner dollar (GPT-4o og oppover koster trolig rundt 20 millioner USD ++)
Trent på 2 mnd (OpenAI bruker trolig opp mot 3-6 mnd uten at jeg vet helt sikkert.)
Det interessante her, som en analytiker nevnte, er at kineserene ikke har hatt tilgang til de samme tekniske ressursene som amerikanerne (Nvidia får egt ikke lov til å selge chips i Kinda) så de har måtte belage seg på algorimisk effektivitet heller enn å bare slenge enorme mengder compute på prolemet. Kineserne har kanskje ikke hardware, men de har sjukt mange veldig veldig veldig godt utdannede data-ingeniører.
En annen interessant sak er at Deepseek er en videreutvikling av Meta sin modell, som også er open source.
Her er en benchmark fra Deepseek som viser hvordan deres gratis-modell står seg mot OpenAI sin tredje-beste modell (de har også o1-Pro og o3 som de ikke har benchet mot)

Det er jo litt spesielt å se at en AI får nesten 100% på Math-500, en benchmark som brukes for å sjekke AI’ens matte-skills og Codeforces, som er konkurransekode for mennesker (de folka er hardcorde, for å si det sånn).
Hva skjer nå?
Vel, i og med at dette er open source så antar jeg at OpenAI allerede er godt i gang med å sjekke hvordan de kan reverse-engineer’e greiene deres. Kanskje de oppdager hvordan Deepseek kan gjøre deres egne modellere bedre. Da står jo OpenAI klare med vanvittige mengeder chips til å lage enda bedre modeller enn det igjen..
Ok, så falt Nvidia i bakken og mistet noe slikt som 600 milliarder dollar på en dag. Ouch. Men dette er jo liksom ikke slutten da. Nye og mer effektive modeller vil bare gjøre de datasenterene og chippene vi har enda bedre.
Kanskje kan vi bruke mindre strøm for å gjøre det samme som vi gjør i dag? Topp!
Bunnlinjen, slik jeg ser det, er at dette bare var et spark i rumpa for amerikanerne og tre-fire spader med kull på AI-lokomotivet.
Som en ettertanke:
Den må fortsatt enorme datasentere til, og enorme mengder med strøm for å gjøre mer eller mindre den samme jobben som du og jeg gjør uanstrengt med 1.5 kg grå masse og 20 Watt om dagen i energi.