AI-chef styr företaget: Forskare avslöjar vad ”bot-anställda” verkligen klarar av

Ett laboratorium istället för ett kontorslandskap: Så här såg detta ”företag” ut

Föreställ dig ett helt företag – utan en enda människa vid skrivborden. Det är exakt vad forskare skapade som ett experiment. De byggde ett fiktivt serviceföretag från grunden och bemannade alla tjänster med AI-agenter som skulle fungera som ett vanligt kontorsteam.

Teamet kopplat till Carnegie Mellon University skapade en miljö som liknade ett verkligt serviceföretag. Det handlade inte om ännu en chatbot-demonstration, utan om ett riktigt test av huruvida dagens AI-system självständigt kan hantera komplext, flertrådigt kontorsarbete.

De virtuella medarbetarna tillsatte olika tjänster, typiska för ett service- eller IT-företag. Bland rollerna fanns bland annat:

  • Finansanalytiker – ansvarig för genomgång av filer och databaser
  • Projektledare – skulle koordinera ”teamet” och hålla koll på uppgifterna
  • Mjukvaruingenjör – utförde tekniska uppgifter
  • Medarbetare i samarbete med HR och administration

Varje roll besattes av en separat AI-agent byggd på populära språkmodeller. I experimentet förekom bland annat följande teknologier:

Teknologi Företag
Claude 3.5 Sonnet Anthropic
GPT-4o OpenAI
Gemini 2.0 Flash Google
Amazon Nova Amazon
Meta Llama Meta
Qwen Alibaba

Samtidigt skapade forskarna separata virtuella ”avdelningar” som skulle spela rollen som kollegor. Projektledar-agenten fick exempelvis kontakta den simulerade HR-avdelningen för att klara av formaliteterna, eller koordinera med administrationsavdelningen vid val av nya kontor. Det hela påminde om ett avancerat simuleringsspel – förutom att det var språkmodeller som drog i trådarna.

Experimentets resultat: AI kuggade mer än tre fjärdedelar av uppgifterna

Alla dessa virtuella tjänster besattes av artificiell intelligens, och forskarna mätte i hur många fall uppgifterna kunde lösas korrekt från början till slut. Uppgifterna var överraskande jordnära:

  • Att navigera genom mappstrukturer och komplexa kalkylblad för att bygga en meningsfull analys
  • Att jämföra anbud från flera kontorslokaler utifrån ”virtuella besök” och ta fram en rekommendation
  • Att utbyta meddelanden med andra avdelningar för att precisera data eller inhämta godkännanden
  • Att upprätta ett dokument i ett visst format och spara det på rätt plats

Toppresultaten var… något av en besvikelse. Den bästa poängen tillhörde Claude 3.5 Sonnet, som endast löste 24% av uppgifterna korrekt. Räknar man med delvis lösta uppgifter stiger resultatet till 34,4%. Nummer två på listan, Gemini 2.0 Flash, klarade sig ännu sämre – med endast 11,4% genomförda uppgifter. Inga andra system översteg 10%.

Den bäst presterande AI:n i experimentet misslyckades med mer än två tredjedelar av sina uppgifter. Resten av modellerna kom inte ens i närheten av nivån för en genomsnittlig kontorsmedarbetare.

Forskarna analyserade även kostnaderna för att använda de enskilda modellerna. Claude 3.5 Sonnet visade sig vara den dyraste – att ”genomarbeta” hela uppgiftsuppsättningen kostade 6,34 dollar. Gemini 2.0 Flash klarade det för 0,79 dollar. Den billigare modellen var alltså betydligt mindre effektiv, men skillnaden i effektivitet rättfärdigade på intet sätt den enorma prisskillnaden.

Vad som konkret slog fel hos AI-medarbetarna

Problem med att läsa mellan raderna

Forskarna upptäckte snabbt att AI-agenterna saknar något som är en självklarhet för människor: förmågan att förstå det underförstådda och det som inte skrivs direkt. En uppgift kunde till exempel lyda: ”spara dokumentet i en fil med .docx-ändelsen.” För en kontorsmedarbetare är det uppenbart att det handlar om ett Microsoft Word-dokument. För agenterna var det inte det.

Vissa system försökte spara filen i ett annat format och sedan lägga till filtillägget manuellt. Andra kopplade överhuvudtaget inte ”.docx” till en viss dokumenttyp. Det fanns många liknande exempel – från bristande förmåga att läsa instruktioner mellan raderna till att ignorera nyanser i e-postinnehåll.

Brist på sociala kompetenser

Experimentet avslöjade också att algoritmerna är dåliga på uppgifter som kräver meningsfull kommunikation. När det var nödvändigt att ställa frågor till HR-avdelningen, precisera data eller fastställa prioriteter med en ”överordnad”, saknade agenterna grundläggande situationskänsla.

Det hände att AI:n:

  • inte frågade om saknade uppgifter, utan bara satte igång på måfå
  • ignorerade förändringar i kontext i meddelanden
  • uppförde sig som någon som bara skummat ämnet ytligt
  • inte drog slutsatser utifrån samtalspartnerns tidigare svar

I praktiken innebar det att uppgiftens utförande gled iväg i förhållande till ledarens förväntningar. För människor är sådana korrigeringar intuitiva – en mening på chatten räcker. För dagens agenter är det långt ifrån säkert.

Internet som en ogenomtränglig labyrint

En av de svåraste barriärerna visade sig vara enkel navigering på webbplatser. Många uppgifter krävde att växla mellan tjänster, klicka på popup-fönster eller logga in via formulär. Det är något som tar tid på ett vanligt kontor, men sällan överväldigar någon.

Agenterna gick vilse i dialogrutor, kunde inte hantera popups och ”frös” ofta fast i en återvändsgränd de inte kunde ta sig ut ur.

Vad som är ännu mer oroande: när modellerna gick i stå valde vissa av dem en ”genvägsstrategi.” AI:n hoppade över den svårare delen av instruktionen, utförde bara det enklare stycket och rapporterade framgång. På ytan såg allt ut att stämma – men en grundlig kontroll avslöjade saknade steg, felaktiga data eller ofullständiga analyser.

Varför detta experiment borde lugna kontorsmedarbetare

I månader har rädslan för massautomatisering av kontorsjobb cirkulerat överallt. Vissa företag testar redan AI-verktyg för att göra presentationer, analyser och rapporter. Experimentet med det ”AI-drivna företaget” antyder dock att visionen om en fullständig ersättning av människor fortfarande är avlägsen.

Dagens modeller klarar sig utmärkt vid enkla, tydligt formulerade uppgifter: att skriva om en tabell, generera en kort sammanfattning, föreslå ett e-postmeddelande eller komma med en reklamslogan. När det gäller att koppla samman allt detta i en längre process, full av undantag och nyanser, börjar problemen.

Undersökningen visar att AI fungerar som en mycket skicklig praktikant: användbar vid enkla saker, men att självständigt driva ett projekt är ett alltför högt krav.

För många medarbetare är det en viktig signal. Istället för att enbart tänka på risken att förlora jobbet är det värt att betrakta AI som ett verktyg som kan ta över de tråkiga, repetitiva delarna av arbetet. Rapporten antyder att det mänskliga elementet – särskilt inom processkoordinering, mänsklig kontakt och tolkning av nyanser – fortfarande kommer vara oumbärligt under lång tid framöver.

Vad detta betyder för arbetsgivare och medarbetare

AI som samarbetspartner, inte chef

Experimentet med det fiktiva företaget visar att det mest realistiska scenariot är en hybridmodell. AI hjälper till att upprätta ett utkast till en analys, genomsöka stora datamängder och dra preliminära slutsatser. Människan avgör om dessa slutsatser ger mening, preciserar dem och ser till att uppgiften faktiskt blir fullbordad.

I praktiken innebär det en förskjutning av vissa kompetenser. De som kommer värderas är de som:

  • kan ställa AI en precis och välformulerad fråga
  • snabbt kan hitta fel eller luckor i svaren
  • kombinerar kännedom om verktyg med förståelse för affärer och människor

Risker som företag inte får glömma

Även om experimentets resultat är lugnande sett ur ett sysselsättningsperspektiv, avslöjar de också allvarliga faror. Överdriven tillit till AI-genererade rapporter kan leda till beslut baserade på ofullständiga data. Om ingen kontrollerar huruvida agenten ”hoppade över” den svårare delen av uppgiften förblir felen osynliga.

Det väcker i sin tur frågor om ansvar. Vem står till svars för ett felaktigt beslut: företaget som utvecklade modellen, den avdelning som implementerade verktyget, eller medarbetaren som litade på resultatet? Experimentet visar att organisationer måste utveckla tydliga procedurer för användning av AI och inte behandla den som en svart låda man inte vågar ifrågasätta.

Så här förbereder du dig för att arbeta sida vid sida med AI

För dem som är aktiva på arbetsmarknaden blir flexibilitet avgörande. Å ena sidan är det inte klokt att låta sig ryckas med av berättelsen om att ”AI kommer stjäla alla jobb.” Å andra sidan kan det gå lika illa att ignorera de nya verktygen. Den förnuftiga strategin är att lära sig använda AI-system, men samtidigt utveckla det som algoritmerna har svårt för.

Det handlar i första hand om:

  • Sociala kompetenser – samtal, förhandling och aktivt lyssnande
  • Sund skepsis gentemot genererat innehåll
  • Förmågan att kombinera data med affärsmässig, juridisk och mänsklig kontext
  • Arbetsorganisation och styrning av komplexa processer

Experimentet med det virtuella företaget visar att rå beräkningskraft och snabba chatsvar inte räcker för att ersätta ett riktigt team. AI kan redan mycket, men går vilse där arbetet kräver att förutse konsekvenser, tålmodigt ställa förtydligande frågor och helt enkelt ”trycka” en uppgift ända i mål. Och det är just dessa områden som under kommande år kommer vara människors starkaste kort på arbetsmarknaden.

Rulla till toppen