I ett virtuellt företag fullt av smarta algoritmer verkade allt perfekt organiserat, tills de artificiella kollegorna fick verkligt ansvar.
Forskare skapade ett fullständigt fiktivt företag, bemannat med avancerade AI-agenter. Deras syfte: undersöka om sådana system verkligen kan ersätta medarbetare, inte bara utföra enstaka uppgifter. Resultatet kastar ett annorlunda ljus över arbetslivets framtid än vad många teknikoptimister förutspår.
Ett falskt företag som laboratorium för morgondagens arbetsplats
Experimentet kommer från ett team vid Carnegie Mellon University. Istället för ännu en teoretisk undersökning byggde de en sorts företagssimulering. Inga kalkylblad fyllda med antaganden, utan en miljö där AI-agenter skulle utföra dagligt arbete. Tänk dig ett virtuellt kontorspaket, komplett med dokument, interna avdelningar och digitala kollegor.
Forskarna använde olika stora modeller som ”medarbetare”: versioner av Claude från Anthropic, GPT-4o från OpenAI, Google Gemini, Amazon Nova, Meta Llama och Qwen från Alibaba. Varje modell fick en roll: finansanalytiker, projektledare eller mjukvaruingenjör. Därefter följde en rad uppgifter, jämförbara med det en nybörjare på kontoret ställs inför.
Den centrala frågan: kan en AI-agent klara en hel arbetsdag, inklusive koordinering, administration och krångel, utan att en människa måste ingripa?
Vid sidan av agenterna som utförde det faktiska arbetet körde en separat simulering som ”miljö”: en HR-avdelning att skicka mail till, interna system, dokument och processer. AI:n skulle själv ta reda på vem eller vad som var nödvändigt för att slutföra en uppgift korrekt.
Tre fjärdedelar av uppgifterna misslyckades
Forskarna gav varierade uppgifter, inte bara enkla frågor eller räkneövningar. En agent skulle exempelvis navigera genom en mappstruktur, analysera en databas och spara en rapport. En annan uppgift krävde jämförelse av virtuella kontorslokaler, med visningar, villkor och priser.
Resultaten var smärtsamma. Claude 3.5 Sonnet toppade listan, men genomförde endast 24 procent av uppgifterna fullständigt. Räknar man med de halvfärdiga uppgifterna når man upp till 34,4 procent. Gemini 2.0 Flash hamnade på andraplats med 11,4 procent genomförda uppgifter. Inga andra modeller kom över 10 procent.
Samtidigt tittade teamet på kostnader. Claude 3.5 Sonnet levererade den bästa prestationen, men kostade 6,34 dollar i förbrukning i denna miljö, medan Gemini 2.0 Flash med 0,79 dollar förblev långt billigare. Effektivitet per krona visade sig alltså vara en helt annan historia än rena framgångsfrekvenser.
| AI-agent | Genomförda uppgifter | Delvis + fullt | Beräknad kostnad (USD) |
|---|---|---|---|
| Claude 3.5 Sonnet | 24 % | 34,4 % | 6,34 |
| Gemini 2.0 Flash | 11,4 % | n.a. | 0,79 |
| Övriga modeller | < 10 % | n.a. | variabel |
Även den bästa AI:n i experimentet misslyckades med drygt två tredjedelar av uppgifterna, trots imponerande prestationer i testmiljöer.
Där AI i företaget snubblar
Implicit kontext förblir en stoppkloss
Ett av de mest iögonfallande problemen låg i något som för människor verkar självklart: implicita anspelningar. En uppgift bad exempelvis om att spara en rapport som en fil med ändelsen ”.docx”. För oss betyder det automatiskt ”skapa ett Word-dokument”. De flesta agenter gjorde inte denna koppling eller gjorde det för sent.
Det låter litet, men denna typ av missförstånd hopas snabbt upp. I det dagliga arbetet gömmer sig mycket information mellan raderna: vanor, outtalade förväntningar, organisationskultur. AI-agenterna följde de explicita instruktionerna, men tappade tråden så fort tolkning blev nödvändig.
Sociala färdigheter slipper på slirkopplingen
En annan svag punkt låg vid social interaktion. Systemen skulle ibland vända sig till en virtuell HR-avdelning eller en tänkt kollega för att inhämta saknad information. Här gick det ofta fel. Agenterna:
- ställde inte uppföljande frågor när svaret var ofullständigt
- glömde att bekräfta avgörande detaljer
- avslutade samtalet för tidigt, medan uppgiften fortfarande stod öppen
Mänskliga medarbetare känner av när en uppgift fortfarande har ”lösa ändar”. Denna intuition kommer från erfarenhet, magkänsla, men också från sociala signaler. AI-agenterna behandlade varje kontaktögonblick som ett isolerat textblock, inte som en relation där det finns kontinuitet.
Navigering på internet förblir besvärlig
Vid uppgifter med webbnavigering gick det påfallande ofta fel. Pop-ups, cookie-banners, oväntade fönster: precis vad många kontorsarbetare själva också frustreras över, men där de så småningom har utvecklat en rutin för.
Agenterna fastnade i denna typ av detaljer. En popup som blockerade en del av informationen resulterade i att uppgiften inte blev slutförd. Ibland valde de en ”genväg”: hoppa över några steg, ge ett plausibelt svar och sedan själva anta att uppgiften var löst.
När AI går vilse väljer systemet ibland en elegant klingande lösning istället för att helt enkelt erkänna att den har tappat vägen.
Vad detta säger om arbetslivets framtid
Denna undersökning motsäger särskilt en rädsla: bilden av ett fullständigt automatiserat kontor där ingen medarbetare längre är nödvändig. Den nuvarande generationen av generativa modeller scorar starkt på deluppgifter — skriva texter, kontrollera kod, sammanfatta data — men snubblar så fort en rad uppgifter får sammanhang.
Arbete består sällan av en isolerad uppgift. Ett projekt uppstår ur oklara frågor, halvavbrutna mail, möten som drar över tid och prioriteringar som skiftar. AI-agenterna presterade rimligt i stramt avgränsade scenarier, men kom till korta som minicheferna för sitt eget arbetsflöde.
För medarbetare betyder detta inte att ingen förändring kommer, utan att den sannolikt förløper annorlunda än de mest dramatiska förutsägelserna. Många funktioner kommer att omstruktureras: mindre tid på repetitiva steg, mer vikt på tolkning, avstämning och beslutsfattande.
AI som kollega, inte som chef
Ny rollfördelning mellan människa och maskin
En troværdig framtidsbild liknar snarare en hybridmodell: AI som ”juniorassistent” som hanterar mycket av förarbetet, medan människor behåller de slutliga besluten och koordineringen. Konkret kan det betyda att en medarbetare:
- sätter in AI för att granska dokument och göra första analyser
- själv kontrollerar kontexten och kompletterar saknad information
- kopplar resultatet till strategi, politiska känsligheter och teamdynamik
Istället för massiv ersättning ser vi snarare en förskjutning av uppgifter inom befintliga funktioner. Den som vet vilka uppgifter man kan överlåta till AI och vilka inte uppnår en produktivitetsfördel. Den som inte lär sig detta riskerar att hamna på efterkälken.
Vad företag redan nu kan använda detta till
För organisationer pekar denna forskning på realistiska förväntningar. Ett fullständigt ”AI-drivet företag” verkar för närvarande utom räckhåll. Men riktad användning ger faktiskt utdelning. Företag kan experimentera med:
- AI för sammanfattningar av mötesreferrat, inte för själva beslutsfattandet
- AI som första filter i kundservice, med tydlig eskalering till människor
- AI för teknisk dokumentation och code review, medan senioringenjörer övervakar de stora linjerna
Detta kräver tydliga ramar: var får AI:n agera självständigt, var är mänskligt godkännande nödvändigt, och hur säkras kvalitetsstandarder? Transparens gentemot medarbetare spelar också in, annars växer misstro snabbare än produktivitet.
Färdigheter som stärker medarbetare vid sidan av AI
Undersökningen blottlägger också indirekt vilka mänskliga kvaliteter som länge bevarar värde. Tre områden framträder tydligt:
- Kontextkänsla: se samband mellan lösa signaler, förstå vad som inte sägs och vad det betyder.
- Kommunikation: ställa rätt fråga, rätta till missförstånd, ta in nyanser i svåra samtal.
- Processtänkande: övervaka en rad steg, prioritera och ingripa när något går i stå.
Den som utvecklas här står starkare vid sidan av AI-verktyg. Arbetet blir mindre ”att trycka på knappar” och mer ”att besluta vad som ska hända med resultaten”. För utbildning och vidareutbildning ligger här en tydlig uppgift: mindre fokus på faktareproduktion, mer på tolkning, samarbete och problemstrukturering.
Tänka vidare: risker, möjligheter och ett tankeexperiment
En risk som denna forskning belyser är fenomenet skensäkerhet: AI som med stor självtilllit presenterar felaktiga eller halfhjärtade resultat. I en hektisk vardag kan en människa förbise denna nyans och blint lita på ett snyggt formulerat svar. Det kräver kontrollsystem, precis som vi gör vid finansiella revisioner eller kvalitetssäkring inom industrin.
Ändå finns det också en möjlighet i denna typ av simuleringar. Föreställ dig att företag körde en digital ”skuggversion” av sin organisation, där AI-agenter parallellt försöker utföra samma uppgifter som de riktiga medarbetarna. Inte för att ersätta människor, utan för att ständigt avslöja svaga punkter i processer: röriga dokumentstrukturer, oklara procedurer, överflödiga steg. Där AI fastnar finns ofta också en mänsklig irritation.
Således tecknar sig en framtid där AI får mindre rollen som chef eller ersättning och mer som spegel: ett system som visar var arbete kan bli smartare, mer människovänligt och tydligare. Inte för att teknologin är felfri, utan just för att dess fel synliggör vad vi själva har accepterat i åratal.












