Kinas DeepSeek-modell er et vesentlig framskritt innen KI-teknologi

Logoen for appen DeepSeek [AP Photo/Jon Elswick]

DeepSeek, et oppstartsselskap basert i Hongzhou i Kina, ga i forrige uke ut sin nyeste kunstig intelligens-modell, DeepSeek R1. I løpet av få dager ble chatboten den mest nedlastede appen i Apples App Store.

DeepSeeks ytelse møter eller overgår ytelsen til state-of-the-art KI-modeller fra amerikanske selskaper som Meta og Open AI, og overgår alle open source-modeller som tidligere var tilgjengelige og mange lukkede modeller på de fleste standard referansemål, såkalte benchmarks.

Oppnåelsen sendte sjokkbølger gjennom Wall Street, og utslettet på én dag rundt $ 1 billion i markedsverdi for børsnoterte selskaper. Det representerer også et vesentlig slag for amerikanske planer for å opprettholde KI-dominans som del av målet om å forhindre Kina fra å usurpere USA som verdens øverste økonomiske og militære makt.

DeepSeeks telefonapp koblet til R1 toppet i tillegg raskt listene på Apple Store, og passerte ChatGPT-appen. Den er på Google Play Store allerede lastet ned 10 millioner ganger.

Modell ytelsesvinninger

Akademia og industrien måler hvor «bra» en KI-modell er ved å bruke standard benchmarks. Dette er forhåndsdefinerte oppgaver der svarene er kjente. Modellen anvendes for oppgavene og dens utdata sammenlignes med de kjente svarene. Generelt sett, jo større antall riktige svar på oppgavene, desto bedre presterer modellen. Et delt sett med standard benchmarks gjør det mulig å sammenligne modeller med hverandre.

DeepSeek-teamet testet sin R1-modell på 21 benchmarks og sammenlignet resultatene med resultatene oppnådd av bransjeledende KI-modeller fra Meta, Open AI og andre. Referansemålene inkluderte oppgaver som var engelskspråklige, kinesiskspråklige, programvareprogrammering og matematikk.

De sammenlignet R1 med fire bransjeledende KI-modeller samt deres forrige versjon av DeepSeek. Disse modellene inkluderte Claude-3.5-Sonnet-1022 fra Anthropic; tre Open AI-modeller – GPT-4o, o1-mini og o1-1217; og R1s forgjenger DeepSeek-V3.

DeepSeek R1 overgikk de andre modellene på 12 av 21 benchmarks. For de resterende ni benchmarks ble det andreplass på åtte, og fjerdeplass på én.

Det må bemerkes at o1-1217, gitt modellens formål og utforming, kun var anvendelig for 11 av de 21 benchmarks. For disse 11 benchmarks var R1 den beste modellen for fire oppgaver, mens o1-1217 var den beste modellen for seks oppgaver og Claude var den beste modellen for én oppgave. R1 vant over o1-mini på 20 av 21 benchmarks.

Dramatisk reduksjon av beregningsressurser

Det som gjør DeepSeek-prestasjonen spesielt dramatisk er den enorme reduksjonen av beregningsressurser som trengs for å bygge modellen R1. DeepSeek brukte langt færre beregningsressurser enn nødvendig for etableringen av dens konkurrenter.

Byggingen av R1 krevde rundt 2,8 millioner beregningstimer på et grafikkort fra NVIDIA kalt et H800. Slike grafiske prosesseringsenheter eller GPU-kort brukes for å bygge KI-modeller fordi de effektivt utfører de komplekse matematiske beregningene som kreves. DeepSeek brukte en beregningsinfrastruktur med 2048 H800-kort.

Som kontrast krevde Meta 30,8 millioner GPU-timer for å bygge sin populære Llama-3.1-modell, som betyr at DeepSeek R1-modellen tok bare 9 % så lang tid. Fordi DeepSeek R1 er en større modell enn Llama-3.1, er hastighetsøkningen enda større enn en reduksjon på 91 %.

Modellstørrelse er vanligvis angitt som antall numeriske parametere som utgjør modellen. DeepSeek R1 er 671 milliarder parametere sammenlignet med Llama-3.1s 405 milliarder, eller 66 % større.

Hastighetsøkningen i modellkonstruksjon gjøres enda mer imponerende av det faktum at H800 GPUen er en nedstrippet versjon av NVIDIAs H100 GPU, for å overholde USAs eksportkontrollrestriksjoner til Kina. Metas estimat på 30,8 millioner GPU-timer for å konstruere Llama-3.1 405B er basert på det raskere H100 GPU-kortet. Tester av ytelsesforskjellen mellom kortene viser at H800 er rundt 11,5 % treigere enn H100.

Åpen kildekode

Det faktum at DeepSeek R1 er åpen kildekode betyr at hele settet med 671 milliarder parametere og programvaren som brukes for å operere modellen er fritt tilgjengelig for nedlasting, inspeksjon og modifisering. Åpen kildekode-modeller foretrekkes ofte av programvareutviklere og KI-ingeniører fordi de er lettere å modifisere og tilpasse til ulike formål.

Til tross for navnet er ikke Open AIs ledende modeller åpen kildekode. KI-ingeniører kan for eksempel ikke inspisere eller modifisere Open AIs ledende o1-modell, eller dens umiddelbare forgjenger GPT-4o.

R1 implementerer i tillegg en «tankekjede»-prosedyre [‹chain of thought›], en teknikk som opprinnelig ble utviklet av Open AI for deres o1-modell. Mens o1 og andre Open AI-modeller skjuler «resonnement»-trinnene i tankekjeden, lar R1 brukeren se alle trinnene den foretar for å komme fram til et svar.

Fordi åpen kildekode-modeller kan brukes og modifiseres av alle har det oppstått en industri av selskaper som er verter for modeller. For eksempel er flere forskjellige selskaper verter for Metas åpen kildekode Llama-3.1-modell, som konkurrerer om kostnaden av å bruke modellen.

Observatører bemerket raskt at spørsmål stilt til versjonen av R1 som DeepSeek var vert for nektet å svare på spørsmål som «Hva skjedde på Den himmelske freds plass?». Modellens åpne karakter betyr ikke at Kina blir mindre autoritært. Det gjør det imidlertid mulig for alle utenfor Kina selv å være vert for modellen, uten slike begrensninger og sensur.

Forøvrig, kritikken gjelder også for Open AI-modeller, som nekter besvare spørsmål om Gaza-genocidet når de blir bedt om det. Sensur av lukkede modeller er mye vanskeligere å overvinne enn med åpen kildekode-modeller.

Lav kostnad å bruke

DeepSeek tar også langt mindre betalt for bruken av R1 enn selskapets konkurrenter. De største modellene er for beregningsmessig dyre til å kjøre på personlige datamaskiner eller til og med de fleste servere. Den samme store GPU-infrastrukturen som brukes til å bygge modellene, brukes også vanligvis til å kjøre disse modellene.

Resultatet er at KI-selskaper iscenesetter modellene på deres store GPU-klynger og aksepterer forespørsler – kjent som prompts – over Internett, legger inn disse prompts i modellen og deretter returnerer modellens utdata tilbake til brukeren.

Å operere R1 via slike applikasjonsprogrammeringsgrensesnitt, eller API-anrop, over internett er langt billigere enn for andre ledende KI-modeller. DeepSeek tar for øyeblikket for R1 mindre enn 4 % av det Open AI tar betalt for å operere deres o1-1217-modell. Spesielt, o1-kostnadene er $ 15 per million tokens (MT) input og $ 60 per MT output, mens R1 koster $ 0,55 per MT input og $ 2,19 per MT output, en reduksjon med en faktor på 27. Et token er anlagsvis ekvivalent med et ord.

For å oppnå de lavere kostnadene for å operere R1 bruker DeepSeek en arkitektur kalt «Mixture of Experts». Dette betyr at for hvert token som genereres er bare en brøkdel av modellen (37 til 671 milliarder parametere, dvs. en «ekspert») aktivert. Dette reduserer beregningskraften som kreves for modellens output, dvs. utdata, som resulterer i lavere kostnader.

I tillegg, modifikasjoner av modeller gjennom en prosess kjent som kvantisering kan dramatisk redusere beregningsressursene som er nødvendige for å operere en modell. Selv om kvantisering reduserer modellytelsen kan ulike kvantiseringsopplegg dramatisk redusere beregningskravene, mens de bare reduserer modellytelsen noe.

To forskere, som utnyttet R1s åpen kildekode-karakter, har allerede laget flere kvantiserte versjoner av den. Én versjon kan kjøres på en stasjonær eller bærbar datamaskin med så lite som 20 GB RAM, om enn sakte. Disse forskerne publiserte deres modifiserte versjoner av R1 som åpen kildekode på et lager [‹repository›] for KI-modeller kjent som Hugging Face.

Implikasjoner av USAs dominans innen KI

Uka forut for DeepSeek-nyhetene kunngjorde president Trump et planlagt initiativ kalt StarGate, for å investere $ 500 milliarder i teknologi for å sikre USAs dominans innen KI. Stargate LLC, et selskap med investeringer fra Open AI, Oracle, SoftBank og investeringsselskapet MGX, søker å bygge mange KI-datasentre over hele landet, og begynner med 10 sentre i Texas. Trump kunngjorde også at han ville fjerne regelverket for genereringen av de enorme mengdene elektrisitet som kreves for å operere datasentrene.

I tillegg kunngjorde Open AI den 21. januar den ventende utgivelsen av deres neste AI-modell, o3-mini, om «et par uker».

DeepSeek-prestasjonen overskygget umiddelbart StarGate-initiativet og Open AIs planer for o3-mini, og snudde generelt KI-industrien på hodet. Oppfatningen at USA har et langt forsprang innen KI – enten det tidligere var berettiget eller ikke – har forsvunnet praktisk talt over natta, som har reist spørsmål om USAs evne til å skape eller opprettholde dominans i KI. DeepSeek og R1-modellen har blitt det sentrale samtaleemnet, og har flyttet arbeidsfokuset til store deler av KI-industrien.

Biden-administrasjonen hadde ikke bare satt på plass eksportkontrollene som resulterte i at DeepSeek-teamet brukte H800 i stedet for H100 GPUer, men den utvidet også disse restriksjonene i dens siste dager i embetet. President Trump var allerede forventet ytterligere å øke den økonomiske og militære konfrontasjonen med Kina, men DeepSeek-prestasjonen vil sannsynligvis akselerere og intensivere den planlagte eskaleringen.

Loading