Tutkijat arvioivat ChatGPT:n suorituskykyä lääketieteellisten tiivistelmien tekemisessä

Hiljattain The Annals of Family Medicine -lehdessä julkaistussa tutkimuksessa tutkijat arvioivat Chat Generative Pretrained Transformerin (ChatGPT) tehokkuutta lääketieteellisten tiivistelmien yhteenvedossa lääkäreiden auttamiseksi. Tutkimuksen tavoitteena oli määrittää ChatGPT:n luomien yhteenvetojen laatu, tarkkuus ja harha, mikä antaa käsityksen sen mahdollisuuksista työkaluna sulattaa valtavia määriä lääketieteellistä kirjallisuutta terveydenhuollon ammattilaisten aikarajoitusten keskellä.

Korkeat arvosanat laadusta ja tarkkuudesta

Tutkimuksessa käytettiin ChatGPT:tä tiivistämään 140 lääketieteellistä tiivistelmää 14 erilaisesta lehdestä, mikä pienensi sisältöä keskimäärin 70%. Huolimatta joistakin epätarkkuuksista ja hallusinaatioista, jotka havaittiin pienessä osassa yhteenvetoja, lääkärit arvioivat yhteenvedot erittäin laadukkaasti ja tarkkuuden vuoksi. Tulokset viittaavat siihen, että ChatGPT:llä on potentiaalia auttaa lääkäreitä tutkimaan tehokkaasti lääketieteellistä kirjallisuutta tarjoamalla ytimekkäitä ja tarkkoja yhteenvetoja valtavan tietomäärän keskellä.

Tutkijat valitsivat 10 artikkelia kustakin 14 julkaisusta, jotka kattavat erilaisia lääketieteellisiä aiheita ja rakenteita. He antoivat ChatGPT:n tehtäväksi tehdä yhteenvedon näistä artikkeleista ja arvioivat luotujen tiivistelmien laadun, tarkkuuden, puolueellisuuden ja merkityksen kymmenellä lääketieteen alalla. Tutkimuksessa havaittiin, että ChatGPT tiivisti onnistuneesti lääketieteellisiä tiivistelmiä keskimäärin 70 % ja sai korkeat arviot lääkärien arvioijilta laadusta ja tarkkuudesta.

Vaikutukset terveydenhuoltoon

Korkeasta arvosanasta huolimatta tutkimuksessa havaittiin vakavia epätarkkuuksia ja hallusinaatioita pienessä määrässä yhteenvetoja. Nämä virheet vaihtelivat pois jätetyistä kriittisistä tiedoista tutkimussuunnitelmien väärintulkintoihin, jotka voivat mahdollisesti muuttaa tutkimustulosten tulkintaa. ChatGPT:n suorituskykyä lääketieteellisten tiivistelmien laatimisessa pidettiin kuitenkin luotettavana, ja harhaa havaittiin mahdollisimman vähän.

Vaikka ChatGPT osoitti vahvaa yhdenmukaisuutta ihmisten arvioiden kanssa lehtitasolla, sen suorituskyky yksittäisten artikkelien osuvuuden määrittämisessä tiettyjen lääketieteen erikoisalojen kannalta oli vähemmän vaikuttava. Tämä ero osoitti rajoituksen ChatGPT:n kyvyssä tunnistaa tarkasti yksittäisten artikkelien relevanssi lääketieteen erikoisalojen laajemmassa kontekstissa.

Tutkimus tarjoaa arvokkaita näkemyksiä tekoälyn, erityisesti ChatGPT:n, mahdollisuuksista auttaa lääkäreitä arvioimaan tehokkaasti lääketieteellistä kirjallisuutta. Vaikka ChatGPT on lupaava tiivistää lääketieteelliset tiivistelmät laadukkaasti ja tarkasti, lisätutkimusta tarvitaan rajoitusten korjaamiseksi ja sen suorituskyvyn parantamiseksi tietyissä lääketieteellisissä yhteyksissä.

Tuleva tutkimus voisi keskittyä ChatGPT:n kyvyn jalostamiseen tunnistamaan yksittäisten artikkelien merkityksen tietyille lääketieteen erikoisaloille. Lisäksi pyrkimykset lieventää luotujen yhteenvetojen epätarkkuuksia ja hallusinaatioita voisivat entisestään parantaa tekoälytyökalujen hyödyllisyyttä terveydenhuollon ympäristöissä.

Lähde: https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/