Medan teknikjättarna fortsätter att stapla allt större modeller och datacenter på varandra presenterar neuroforskare nu en helt annorlunda väg framåt.

Istället för att sluka ännu fler chips och ännu mer data ställer forskarna frågan: varför inte helt enkelt ta efter den mänskliga hjärnan? Ett amerikanskt team tror sig ha hittat nyckeln. Deras nya metod för att träna neurala nätverk kopplar inlärning direkt till en sorts ”arbetsminne”. Färre beräkningssteg, mindre energi och ett beteende som förvånansvärt mycket liknar mänskligt lärande.

Så slösar dagens AI-modeller energi

Kraften bakom stora språkmodeller och bildgeneratorer har en baksida: de slukar ström. Under träningsfasen passerar miljarder exempel genom gigantiska nätverk. Varje lager utför sin beräkning, skickar allt vidare till nästa, och först i slutet av kedjan uppdateras nätverket.

Det här tillvägagångssättet har två stora nackdelar. För det första flyttar systemet konstant enorma mängder data mellan minne och beräkningsenheter. För det andra måste modellen ofta genomlöpa hela kedjan innan en enda justering av en förbindelse, en synaps, sker.

Den klassiska träningsmetoden för neurala nätverk tvingar data genom en lång pipeline, vilket gör varje inlärningsjustering dyr, långsam och energikrävande.

Forskare från Cold Spring Harbor Laboratory i USA hävdar att här ligger det största slöseriet: inte bara i själva beräkningarna, utan framför allt i informationens logistik.

Vad hjärnan gör annorlunda

Vår hjärna tacklar det här problemet på ett helt annat sätt. Människor lär sig inte genom att upprepa samma situation miljoner gånger. En enda upplevelse kan ibland lämna ett bestående intryck. Det sker tack vare ett subtilt samspel mellan arbetsminne och synaptiska förändringar.

Arbetsminnet håller tillfälligt information fast: ett telefonnummer, en mening i en text, positionen på ett föremål vi just såg. Medan vi håller fast informationen kan förbindelserna mellan neuroner justera sig. Inlärning och minne blir på så sätt direkt sammankopplade.

I hjärnan fungerar arbetsminnet inte bara som ett kladdblock, utan även som en styrmekanisme som bestämmer vilka förbindelser som ska ändras och vilka som kan förbli orörda.

Den här idén från neurovetenskapen har hittills varit svår att översätta till konstgjorda nätverk. De flesta AI-arkitekturer behandlar minne som något separat: en buffert, ett kontextfönster eller en extern lagring.

Ett konstgjort nätverk med arbetsminne

Teamet från Cold Spring Harbor har nu utformat ett tillvägagångssätt där varje konstgjord neuron tar emot feedback via ett extra minnesliknande nätverk. Det här minnet körs inte bara vid sidan av nätverket, utan arbetar genom det.

Synapser som justerar sig i realtid

I den nya arkitekturen behöver information inte längre genomlöpa en komplett kedja av lager innan modellen lär sig något. Varje lager får tillgång till en sorts internt arbetsminne som skickar nödvändiga signaler tillbaka. På så sätt kan en synaps justera sig nästan omedelbart, så snart relevant information finns tillgänglig.

Dataströmmen behöver inte alltid nå det sista lagret.
Varje neuron kan få feedback via minnesvägen.
Synapser anpassar sig redan vid mellansteg.
Det minskar antalet beräkningar per inlärningssteg.

Det här tillvägagångssättet påminner om en korsning mellan klassisk deep learning och en mer biologiskt inspirerad inlärningsmetod, som hebbiansk inlärning, där synapser blir starkare när två neuroner är aktiva tillsammans.

Ett nytt stöd för en gammal teori

Forskarna kopplar sin modell till en ännu inte fullt bevisad idé från neurovetenskapen: att arbetsminne direkt påverkar inlärningsrytmen och till och med skolprestationer. I det nya nätverket ger arbetsminnet inte bara information vidare, utan styr också vilka förbindelser som ska ändras.

Genom att koppla arbetsminne direkt till synaptiska uppdateringar uppstår en mekanism som både accelererar inlärning och minskar energiförbrukning.

Om det här tillvägagångssättet bevisar sig i praktiska tillämpningar kan det i grunden förändra det sätt som AI-modeller designas på: från rå kraft till finmaskiga, kontextstyrda uppdateringar.

Mindre beräkningskraft, mindre utsläpp

AI:s energibehov växer explosivt. Vissa experter varnar för att datacenter snart kommer att konkurrera med hela länders nätkapacitet. Varje teknik som uppnår samma prestationer med mindre beräkningstid räknas därför dubbelt: för kostnaderna och för klimatet.

En modell som tack vare arbetsminne behöver färre exempel förbrukar färre GPU-timmar. Färre GPU-timmar betyder mindre elektrisk energi, mindre kylning och därmed också mindre indirekta CO₂-utsläpp.

Kännetecken	Klassiskt nätverk	Nätverk med arbetsminne
Placering av feedback	Främst i slutet av nätverket	På flera lager via minnesstig
Dataflyttning	Mycket fram och tillbaka genom alla lager	Kortare rutter, fler lokala uppdateringar
Antal exempel nödvändiga för att lära	Mycket stort	Potentiellt betydligt mindre
Energi per träningsrunda	Hög	Lägre, beroende på implementering

För företag som nu spenderar miljoner på molnträning kan det här på längre sikt bli ett ekonomiskt argument. För regeringar spelar ett annat element in: AI-system som kräver mindre energi passar bättre in i klimat- och infrastrukturplaner.

Vad betyder detta för nästa generation AI?

Teknologin befinner sig fortfarande i en forskningsfas, men riktningen är tydlig. Framtida AI-system kommer kanske att likna kognitiva modeller från psykologin mer än rena matematiska funktioner.

Ett nätverk som under en uppgift håller information kortvarigt fast kan förstå kontext bättre. Det gäller för text, men också för robotar som ska agera i en fysiskt oförutsägbar miljö, som vårddrobotar eller logistiksystem.

Från datamonster till effektiva elever

Många nuvarande modeller kräver miljarder parametrar för att ge tillförlitliga resultat. De lär sig långsamt, men generaliserar rimligt bra när de väl är tränade. Ett arbetsminnesstyrda tillvägagångssätt öppnar dörren till mindre nätverk som anpassar sig snabbare.

En AI skulle till exempel efter få exempel redan kunna ta sig an en ny uppgift istället för att behöva en komplett omträning. Det kommer närmare mänsklig ”few-shot”-inlärning: att tillägna sig en färdighet utifrån en handfull exempel eller förklaringsögonblick.

Om synapser i AI-nätverk kan justera sig i mänsklig takt skiftar fokus från att samla in data till att effektivt lära av färre exempel.

Nya risker och möjligheter

En mer människolik inlärningsstil medför också nya frågor. Ett system som lär sig snabbare av få exempel kan bli mer känsligt för fördomar i input. Ett enda snedvridet dataset eller en serie felaktiga instruktioner kan redan få en märkbar inverkan på beteendet.

Därför blir kvaliteten på träningsdata ännu mer kritisk. Kurering, mångfald och kontroll blir lika viktiga som beräkningskraft och modellarkitektur.

Tillvägagångssättet öppnar dock intressanta möjligheter:

Personliga AI-assistenter som verkligen anpassar sig till användaren utan datainsamling i massiv skala.
Industriella tillämpningar som lär sig lokalt i fabriken utan konstant kontakt med molnet.
Utbildningsprogramvara som lär i en elevs takt och justerar sig flexibelt.

Ett steg mot kognitiv AI

Under motorhuven hänvisar den här forskningen till ett koncept som ofta dyker upp i informationsteori: den så kallade ”information bottleneck”. Det här tillvägagångssättet tvingar ett system att endast hålla fast den mest relevanta informationen och kasta bort brus. I kombination med en hebbiansk inlärningsregel får varje signal som passerar genom arbetsminnet extra vikt vid justering av synapser.

Det liknar det sätt människor fokuserar på: vi filtrerar bort det som inte räknas, medan vi just förstärker avgörande detaljer. En AI med en sådan mekanism skulle inte bara beräkna mer effektivt, utan kunde också bli mer robust mot överflödig data och små störningar.

För utvecklare och forskare utgör det här en intressant lekplats. Simuleringar kan till exempel visa hur ett litet nätverk med arbetsminne klarar sig mot ett traditionellt, mycket större nätverk. Tänk på uppgifter som enkel matematik, kortsiktig planering eller interaktioner i en robotmiljö. Varje test ger mer insikt i frågan: hur mycket människolik arkitektur är nödvändig för att verkligen lära sig annorlunda än de nuvarande modellerna gör?