Blogindlæg

5 min læsning

Tidsskriftet.no: Lægen om at bruge kunstig intelligens: „Jeg har mere tid til at trække vejret“

Udgivet

tir. 11 mar. 2025

Flere og flere praktiserende læger bruger kunstigt intelligente assistenter, der transkriberer under patientkonsultationer. En af disse er speciallæge i almen medicin, Benedicte Wardemann.

— Hvis du vil, kan jeg spille en patient og præsentere et problem? Så kan vi se, hvordan programmet opfanger de forskellige dele?

Praktiserende læge Benedicte Wardemann ved Vest Helse og Trening i Bærum demonstrerer, hvordan hendes kunstigt intelligente assistent fungerer. Hun trykker på knappen „ny konsultation“ på pc'en, før hun begynder at tale:

— Hej, jeg vil gerne have hjælp til at tabe sig. Jeg har prøvet før og har prøvet mange forskellige diæter. Jeg formår måske at tabe fem kilo, før jeg bemærker, at det bliver for svært at vedligeholde. Så bryder jeg ned og tager vægten tilbage. Dette er, selvfølgelig, skammeligt for mig, og jeg føler, at jeg fejler med noget, som alle andre tager for givet.

Som Wardemann taler, transskriberes ordene i realtid på pc-skærmen - via en lille, rund, sort mikrofon på skrivebordet. Navnet på programmet er Noteless, en kunstigt intelligent assistent designet til at hjælpe sundhedspersonale med dokumentationsarbejde.

Wardemann fortsætter med at spille en typisk patient, før hun derefter foregiver at være lægen i denne fiktive konsultation.

Systematiseret medicinsk tidsskriftnote

Når samtalen er forbi, foretager den praktiserende læge et par klik på computeren. Resultatet? Et udkast til en udfyldt journalnote. Hun læser resuméet højt:

Nuværende situation: Ønsker hjælp til vægttab. Har tidligere forsøgt forskellige kostvaner med kun midlertidige virkninger. Formår at tabe cirka fem kilo, før det finder det for svært at opretholde vægttabet, og får derefter vægten tilbage. Oplever dette som psykologisk foruroligende, med følelser af skam og manglende kontrol.

Programmet organiserer systematisk indholdet af patientkonsultationen under afsnittene Nuværende situation, resultater, vurdering og foranstaltninger. Ifølge Wardemann ender noten med at være meget længere end hvad hun selv ville have skrevet.

-- Jeg synes, det er fascinerende, at det bruger så velstrukturerede sætninger. Hvis jeg havde skrevet dette selv, ville jeg kun have brugt en eller to linjer - højst. Jeg ville sandsynligvis heller ikke have inkluderet det faktum, at hun oplever følelser af skam og manglende kontrol, som også er en del af kompleksiteten ved at tabe sig.

Efter at have verificeret, at alt i udkastet til note er korrekt, kopierer den praktiserende læge teksten til patientens officielle medicinske journal, hvilket sparer værdifulde minutter i processen.

AI-forskning på vej

Det faktum, at Wardemanns AI-genererede medicinske noter er længere, mere detaljerede og fanger nuancer, som hun måske ikke har prioriteret, er en vigtig overvejelse, når man undersøger forskning på forskellige sprogmodeller. Flere undersøgelser viser, at AI-genererede svar på sundhedsrelaterede spørgsmål ofte opfattes som mere empatiske end dem fra faktiske læger.

For nylig Tidskrift offentliggjorde en undersøgelse med titlen Kunstig intelligens og lægeres svar på sundhedsspørgsmål (1). I denne undersøgelse blev 192 sundhedsrelaterede spørgsmål og deres tilsvarende svar fra læger hentet fra hjemmesiden Studenterspør.no. Sprogmodellen GPT-4 blev derefter brugt til at generere et nyt sæt svar på de samme spørgsmål. I en blind test blev både lægernes og AI-genererede svar evalueret af en gruppe respondenter med sundhedsbaggrund.

Resultaterne?

De AI-genererede svar blev opfattet som mere empatiske, kyndige og hjælpsomme end dem, der blev givet af faktiske læger.

En af forskerne bag undersøgelsen, Ib Jammer, ph.d. og anæstesiolog ved Haukeland Universitetshospital, forklarer baggrunden for forskningen:

I et af sine foredrag havde han præsenteret en lignende undersøgelse fra USA (2), der undersøgte, hvordan ChatGPT reagerede på sundhedsrelaterede spørgsmål.

-- Resultaterne, der blev offentliggjort på det tidspunkt, viste, at ChatGPTs svar ofte blev vurderet som signifikant bedre end dem fra menneskelige læger. Vi fandt det spændende. Kunne en computer virkelig være bedre end os? Hvordan er det muligt? Gælder det også på norsk?

‍

KI-ASSISTENT: Den lille, runde mikrofonen registrerer lyden i rommet slik at KI-programmet kan lage et utkast til… — Den lille, runde mikrofon fanger lyden i rummet, så AI-programmet kan udarbejde en journalnote.
Foto: Leikny Havik Skjærseth

‍

Med denne baggrund gennemførte Jammer og hans kolleger deres undersøgelse. På trods af flere undersøgelser, der viser, at sprogmodelsvar på sundhedsrelaterede spørgsmål ofte opfattes som mere vidende, er det imidlertid afgørende at genkende modellernes svagheder.

Behov for regulering

Der har været tilfælde, hvor sprogmodeller har fremsat udsagn, de ikke burde have, siger Ishita Barua, en læge med en ph.d. i kunstig intelligens.

-- Jeg tror, at der var et tilfælde i Belgien, hvor en mand tog sit eget liv efter at have fulgt råd fra en sprogmodel. Det er netop denne form for utilsigtede konsekvenser, vi skal undgå. Dette har brug for regulering, og det er det, der gør sprogmodeller udfordrende - fordi kommunikation er meget dynamisk. Det er vanskeligt at regulere dette i dag, og det vil fortsat være vanskeligt i fremtiden. Men folk skal forstå, at dette kun er en sprogmodel - det har ikke reel empati.

Barua mener, at sprogmodeller kan være et værdifuldt værktøj for både læger og patienter - så længe de forstås korrekt og bruges korrekt. Hun understreger dog, at der er mange aspekter af deres brug, som vi stadig skal overveje, og nogle er vi måske ikke engang klar over endnu.

-- Der er mange ensomme mennesker uden nogen at tale med, der finder stor trøst i at bruge sprogmodeller. For eksempel er vi i øjeblikket ikke i stand til fuldt ud at imødekomme disse behov inden for psykiatrien. Så i betragtning af at denne teknologi er kommet for at blive, skal vi gøre, hvad vi kan for at sikre, at disse modeller er så sikre som muligt. Men igen - jeg ved ikke, om det er muligt at regulere dette fuldstændigt.

AI bedre end læger - eller ej?

Undersøgelsen offentliggjort i Tidskrift er en af mange nyere undersøgelser, der undersøger brugen af sprogmodeller i sundhedsvæsenet. Flere af disse undersøgelser tyder på, at AI-modeller klarer sig bedre end læger selv, siger Ishita Barua.

-- I de sidste seks måneder har flere undersøgelser testet sprogmodeller på medicinske spørgsmål og sager. ChatGPT er typisk blevet testet, og flere resultater indikerer, at det klarer sig bedre end læger alene - endnu bedre end læger, der bruger sprogmodeller. Det sidste punkt har været særligt overraskende.

Imidlertid, en Svensk undersøgelse, for nylig offentliggjort i BMJ Åben (3), frembragte modsatte resultater. Barua understreger, at denne undersøgelse er mere sammenlignelig med norske forhold, da den blev udført i et naboland og brugte casestudier, der ligner virkelige kliniske situationer.

-- I denne undersøgelse overgik lægerne sprogmodeller. Så resultaterne peger i den modsatte retning. Måske skulle vi lægge større vægt på undersøgelser, der fokuserer på reelle kliniske scenarier, hvor sprogmodeller ikke matcher lægernes præstationer.

Det er fascinerende, at vi nu har undersøgelser med modstridende resultater.

‍

Hoppe på AI-toget

På trods af de varierende undersøgelsesresultater er der ingen tvivl om, at kunstig intelligens er kommet for at blive - ikke kun inden for sundhedsvæsenet, men på tværs af mange områder af samfundet. Mens nogle allerede har omfavnet AI-værktøjer, forbliver andre skeptiske. For nogle kan denne kraftfulde teknologi endda føles som en trussel.

-- Jeg tror ikke, at sundhedspersonale vil blive erstattet af AI, men vi kunne blive erstattet af mennesker, der ved, hvordan man udnytter AI-værktøjer effektivt. Jeg siger altid, at vi ikke bliver forældede - vi skal bare finde nye nicher at arbejde i. At modstå AI hjælper ikke. Den kommer. Vi har et valg: omfavne det og hoppe på toget, eller blive tilbage på stationen, udtaler Jammer.

Ishita Barua sammenligner nutidens AI-revolution med introduktionen af internettet.

-- Dette vil blive dybt integreret i alle aspekter af samfundet. Det svarer til at spørge, hvorfor vi havde brug for at lære at bruge internettet. Vi har brug for, at alle har en grundlæggende forståelse af, hvad AI er. Når læger modtager anbefalinger fra AI-modeller, skal de opretholde deres faglige integritet. De er nødt til at forstå, hvad denne teknologi virkelig er, og genkende, når den krydser ind i et gråt område, der kræver menneskelig indgriben. Det er afgørende at forudse potentielle fejl og faldgruber, før de sker.

Ifølge Barua er de felter, der har avanceret mest inden for AI-adoption inden for sundhedspleje, dem, der er stærkt afhængige af billeddannelse og mønstergenkendelse - såsom radiologi, kardiologi, dermatologi og gastroenterologi.

-- Derudover er der betydeligt fokus på generativ AI og sprogmodeller, tilføjer hun.

‍

Faldgruber ved AI i sundhedsvæsenet

Tilbage på Benedicte Wardemanns Almen praksis på Vest Helse og Trening i Bærum, er der lagt notater rundt på kontoret, der informerer patienter om, at AI bruges under konsultationer. Ifølge Wardemann har ingen patienter reageret negativt, selvom de kan se deres ord blive transskriberet live på computerskærmen.

Hun præciserer, at mikrofonen ikke optager samtalen, men transskriberer hvad der bliver sagt. Derudover fungerer AI-systemet uafhængigt af det officielle medicinske journalsystem.

-- Det er ikke almindelig praksis at sige patientens navn eller fødselsnummer højt under en konsultation. Derfor forbliver systemet helt uafhængigt af personlige data.

Når konsultationen er afsluttet, bruger Wardemann omkring et minut gennemgang af journalnoten for at sikre nøjagtighed.

-- Du skal altid tjekke. AI-modellen er en „fornøjelse“ - den er altid positiv og anerkender ikke begrænsningerne i sin videnbase.

‍

Behovet for tilsyn er afgørende, ifølge Ishita Barua.

-- Jeg tror, at automatiseringsbias er en af de største faldgruber. Vi har en tendens til at overstole på maskiner, hvilket får os til at stole for meget på AI-genererede beslutninger og anbefalinger. Det andet problem er algoritmisk bias - nogle AI-modeller trænes muligvis ikke på et tilstrækkeligt forskelligartet datasæt.

-- Vi har en overdreven tillid til maskiner, hvilket gør os alt for afhængige af AI-genererede beslutninger og anbefalinger.

Når det kommer til sparer tid, Ib Jammer påpeger, at effektiviteten af AI-sprogmodeller i høj grad afhænger af, hvor godt instruktioner er formuleret.

-- Hvis vi ikke havde givet specifikke instruktioner i vores undersøgelse - bare stillet et spørgsmål - ville vi have modtaget svar, der krævede betydelig redigering, forklarer han.

‍

Lægerne har stadig ansvaret

Til praktiserende læge Benedicte Wardemann, der administrerer en patientliste over 1.150 mennesker, AI-drevet teknologi har givet hende mere åndedrætsrum i sit daglige arbejde.

-- Hvor meget tid tror du, du sparer i løbet af en gennemsnitlig arbejdsdag?

-- Mere end en time. Og det har ikke fået mig til at stappe i flere patientaftaler - det har simpelthen givet mig mere vejrtrækningsrum. Jeg har det bedre med mig selv.

Hun mener, at Omfavnelse af ny teknologi er afgørende.

-- Jeg synes, vi er nødt til at turde bruge ny teknologi, der kan hjælpe os i vores daglige arbejde. Jeg føler, at jeg får min tid tilbage og bruger mere af det på min faktiske rolle som læge. Så mit råd til kolleger er at prøve det, være åben for ny teknologi - men husk selvfølgelig altid: vi har stadig ansvaret.

‍