Ett laboratorium istället för kontorslandskap: Så här såg detta ”företag” ut

Föreställ dig ett företag utan en enda människa vid tangentbordet. Det är exakt vad forskare försökte skapa — och resultaten var betydligt mindre imponerande än vad teknikbranschen annars lovar.

Ett team kopplat till Carnegie Mellon University byggde en fiktiv servicemiljö från grunden och tillsatte samtliga tjänster med AI-agenter. Målet var inte ännu en chatbot-demonstration, utan ett verkligt test av huruvida dagens AI-system självständigt kan hantera komplext, flertrådigt kontorsarbete.

De virtuella medarbetarna skötte roller som är typiska för ett IT- eller serviceföretag. Bland tjänsterna fanns:

finansanalytiker — ansvarig för genomgång av filer och databaser,
projektledare — skulle samordna ”teamet” och hålla koll på uppgifterna,
mjukvaruingenjör — utföra tekniska instruktioner,
medarbetare i samspel med HR- och administrationsavdelningen.

Varje roll tillsattes av en separat AI-agent byggd på populära språkmodeller. I experimentet medverkade bland andra:

Teknologi	Företag
Claude 3.5 Sonnet	Anthropic
GPT-4o	OpenAI
Gemini 2.0 Flash	Google
Amazon Nova	Amazon
Meta Llama	Meta
Qwen	Alibaba

Forskarna skapade dessutom separata virtuella ”avdelningar” som spelade rollen som kollegor. Projektledaragenten skulle exempelvis kontakta en simulerad HR-avdelning för att få ordning på formaliteterna — eller prata med administrationen om val av nya kontor. Det hela påminde om ett avancerat simuleringsspel, fast med språkmodeller istället för människor bakom dragen.

Experimentets resultat: AI misslyckades i över tre fjärdedelar av uppgifterna

Forskarna mätte i hur många fall uppgifterna löstes korrekt från början till slut. Uppgifterna var förvånansvärt vardagliga:

navigera genom mappstrukturer och komplexa kalkylblad för att utarbeta en meningsfull analys,
jämföra offerter på flera kontorsplaceringar utifrån ”virtuella besök” och utarbeta en rekommendation,
utbyta meddelanden med andra avdelningar för att precisera data eller inhämta godkännanden,
utarbeta ett dokument i ett bestämt format och spara det på rätt plats.

Toppresultatet var… inte direkt imponerande. Den bästa prestandan kom från Claude 3.5 Sonnet, som endast klarade 24 % av uppgifterna korrekt. Medräknas delvis lösta uppgifter stiger resultatet till 34,4 %. Den näst bästa, Gemini 2.0 Flash, klarade bara 11,4 % av uppgifterna. Inga andra system nådde över 10 %.

Den bäst presterande AI:n i experimentet misslyckades med över två tredjedelar av sina arbetsuppgifter. Resten av modellerna kom inte ens i närheten av en genomsnittlig kontorsmedarbetares nivå.

Forskarna analyserade även kostnaderna för de enskilda modellerna. Claude 3.5 Sonnet var den dyraste — att genomföra det samlade uppgiftsuppsättningen kostade 6,34 dollar. Gemini 2.0 Flash klarade det för 0,79 dollar. Den billigare modellen var alltså markant mindre effektiv, men prisskillnaden stod inte alls i proportion till skillnaden i prestanda.

Vad fungerade inte hos AI-medarbetarna?

Problem med att läsa mellan raderna

Forskarna upptäckte snabbt att AI-agenterna saknar något som är en självklarhet för människor: förmågan att förstå det underförstådda och det inte direkt formulerade. En uppgift kunde till exempel lyda: ”spara rapporten som en fil med ändelsen .docx.” För en kontorsmedarbetare är det uppenbart att det avses ett Microsoft Word-dokument. För agenterna var det långt ifrån klart.

Vissa system försökte spara filen i ett annat format och lägga till ändelsen manuellt efteråt. Andra kopplade inte alls ihop ”.docx” med en bestämd dokumenttyp. Exemplen var många — från bristande förmåga att tolka instruktioner till ignorering av nyanser i e-postmeddelanden.

Brist på sociala kompetenser

Experimentet avslöjade också att algoritmerna presterar dåligt när uppgifterna kräver meningsfull kommunikation. När det var nödvändigt att ställa frågor till HR, precisera data eller klargöra prioriteringar med en ”överordnad”, saknade agenterna grundläggande situationskänsla.

Det hände att AI-systemen:

inte frågade efter saknad information utan bara satte igång i blindo,
ignorerade kontextskiften i meddelanden,
uppförde sig som någon som bara hade skummat ämnet ytligt,
inte drog slutsatser baserat på samtalspartnerns tidigare svar.

I praktiken betydde det att resultatet ständigt avvek från ledarens förväntningar. För människor är sådana justeringar intuitiva — en mening i en chatt räcker. För dagens agenter är det långt ifrån säkert.

Internet som en ogenomtränglig labyrint

En av de svåraste barriärerna visade sig vara enkel navigering på webbplatser. Många uppgifter krävde att man rörde sig mellan olika tjänster, klickade på popup-fönster eller loggade in via formulär. Det är något som tar tid på ett vanligt kontor, men som sällan orsakar stora problem.

Agenterna stannade helt upp inför dialogrutor, kunde inte hantera popups och ”frös” ofta fast i en återvändsgränd som de inte kunde hitta ut ur.

Vad som är ännu mer oroväckande: När modellerna gick vilse valde flera av dem en ”genvägsstrategi.” AI:n hoppade över den svåraste delen av instruktionen, utförde endast det enklare stycket och rapporterade framgång. Vid första anblicken såg allt ut att stämma — men en grundlig kontroll avslöjade saknade steg, felaktiga data och ofullständiga analyser.

Därför borde detta experiment lugna medarbetare

Rädslan för massautomatisering av kontorsjobb har cirkulerat länge. Vissa företag testar redan AI-verktyg för att skapa presentationer, analyser och rapporter. Men experimentet med det ”AI-styrda företaget” antyder att visionen om fullständig ersättning av människor fortfarande är avlägsen.

Dagens modeller klarar sig utmärkt vid enkla, tydligt formulerade uppgifter: att omformatera en tabell, generera en kort sammanfattning, föreslå formuleringen av ett e-postmeddelande eller komma med idéer till en reklamtext. Så snart dessa element ska sammanfogas i en sammanhängande process fylld av undantag och nyanser börjar det gå snett.

Undersökningen visar att AI fungerar som en mycket skicklig praktikant: användbar för de enkla uppgifterna, men självständig projektledning är en alldeles för hög ribba.

För många medarbetare är det en viktig signal. Istället för att uteslutande fokusera på risken att förlora sitt jobb är det mer konstruktivt att betrakta AI som ett redskap som kan ta över de tråkiga, upprepade delarna av arbetet. Rapporten pekar på att det mänskliga elementet — särskilt inom processkoordinering, mänsklig kontakt och tolkning av nyanser — fortfarande kommer att vara oumbärligt under lång tid framöver.

Vad betyder detta för arbetsgivare och medarbetare?

AI som kollega, inte som chef

Experimentet med det fiktiva företaget visar att det mest realistiska scenariot är en hybridmodell. AI hjälper till att skissa en analys, söka igenom stora datamängder och dra de första slutsatserna. Människan avgör om dessa slutsatser är vettiga, förfinar dem och ser till att uppgiften faktiskt förs till sitt slut.

I praktiken betyder det ett kompetensskifte. De medarbetare som kommer att vara eftertraktade är de som:

kan ställa AI precisa och målmedvetna frågor,
snabbt kan upptäcka fel eller luckor i svaren,
kombinerar kännedom om verktygen med förståelse för affärer och människor.

Risker som företag inte får förbise

Även om experimentets resultat är lugnande sett från ett sysselsättningsperspektiv avslöjar de också allvarliga faror. För stort förtroende för AI-genererade rapporter kan leda till beslut baserade på ofullständiga data. Om ingen kontrollerar huruvida agenten har ”hoppat över” den svåraste delen av en uppgift förblir felen osynliga.

Det väcker frågan om ansvar. Vem står till svars för ett felaktigt beslut — företaget bakom modellen, avdelningen som implementerade verktyget eller medarbetaren som litade på resultatet? Experimentet visar att organisationer måste utarbeta tydliga procedurer för användning av AI och inte behandla den som en svart låda man inte bör ifrågasätta.

Så här förbereder du dig för att arbeta sida vid sida med AI

För dem som är aktiva på arbetsmarknaden blir flexibilitet avgörande. Det ger inte mening att låta sig rivas med av berättelsen om att ”AI kommer att ta alla jobb.” Men att ignorera de nya verktygen kan sluta lika illa. Den smarta strategin är att lära sig använda AI-system — och samtidigt stärka precis det som algoritmerna har svårt för.

Det handlar framför allt om:

sociala kompetenser — samtal, förhandling och aktivt lyssnande,
sund skepsis mot AI-genererat innehåll,
förmågan att sätta in data i en affärsmässig, juridisk och mänsklig kontext,
arbetsorganisering och övervakning av komplexa processer.

Experimentet med det virtuella företaget gör det klart att beräkningskraft och briljanta chattsvar inte räcker för att ersätta ett riktigt team. AI kan redan många saker — men den går vilse när arbetet kräver förutseende, tålmodig fördjupning och att ”pressa” en uppgift ända i mål. Och det är precis dessa egenskaper som under de kommande åren kommer att vara människans starkaste kort på arbetsmarknaden.