Close Menu
InfoCom
  • Telecoms
  • IT
  • AI
  • Security
  • Επιχειρήσεις
    • Στρατηγική
  • Πρόσωπα
    • Στελέχη
    • Συνεντεύξεις
    • Απόψεις
  • Today
  • SmartTalks
  • eMagazine
  • Weekly Telecom
  • AI.BRIEF
Facebook X (Twitter) Instagram
  • ABOUT
  • ΟΡΟΙ ΧΡΗΣΗΣ
  • ΕΠΙΚΟΙΝΩΝΙΑ
  • NEWSLETTER
Τρίτη, 12 Μαΐου
Facebook X (Twitter) YouTube LinkedIn RSS
InfoCom
  • Telecoms
  • IT
  • AI
  • Security
  • Επιχειρήσεις
    • Στρατηγική
  • Πρόσωπα
    • Στελέχη
    • Συνεντεύξεις
    • Απόψεις
  • Today
  • SmartTalks
  • eMagazine
  • Weekly Telecom
  • AI.BRIEF
InfoCom
Home»AI

Τα γλωσσικά μοντέλα αποτυγχάνουν να βοηθήσουν τους ασθενείς στη λήψη ιατρικών αποφάσεων

10/02/2026Χρήστος ΚοτσακάςBy Χρήστος Κοτσακάς4 Mins Read AI
Όλες οι εξελίξεις σε τηλεπικοινωνίες και τεχνολογία στο Google News!
Ακολουθήστε το Infocom.gr για τις σημαντικότερες ειδήσεις της ψηφιακής αγοράς.
Add as preferred source on Google

Η μεγαλύτερη μελέτη χρηστών σχετικά με τα μεγάλα γλωσσικά μοντέλα (LLMs) για την υποβοήθηση του κοινού στη λήψη ιατρικών αποφάσεων, διαπίστωσε ότι αυτά εγκυμονούν κινδύνους λόγω της τάσης τους να παρέχουν ανακριβείς πληροφορίες. Η έρευνα, η οποία δημοσιεύθηκε στο περιοδικό Nature Medicine, διεξήχθη από το Oxford Internet Institute και το Nuffield Department of Primary Care Health Sciences του Πανεπιστημίου της Οξφόρδης, σε συνεργασία με το MLCommons. Τα αποτελέσματα αποκαλύπτουν ένα σημαντικό χάσμα μεταξύ των δυνατοτήτων των μοντέλων στα τυποποιημένα τεστ και της πραγματικής τους χρησιμότητας για τους ασθενείς που αναζητούν ιατρικές συμβουλές για τα συμπτώματά τους.

Σύμφωνα με τα στοιχεία της μελέτης, ενώ τα μοντέλα επιτυγχάνουν υψηλές βαθμολογίες σε εξετάσεις ιατρικών γνώσεων, θέτουν σε κίνδυνο τους χρήστες όταν καλούνται να βοηθήσουν σε πραγματικά σενάρια. Οι ερευνητές διεξήγαγαν μια τυχαιοποιημένη δοκιμή με 1.298 συμμετέχοντες στο Ηνωμένο Βασίλειο, οι οποίοι κλήθηκαν να εντοπίσουν πιθανές παθήσεις και να προτείνουν την κατάλληλη πορεία δράσης βασισμένοι σε δέκα ιατρικά σενάρια. Τα σενάρια αυτά, τα οποία αναπτύχθηκαν από γιατρούς, κυμαίνονταν από έναν νεαρό άνδρα με έντονο πονοκέφαλο μετά από νυχτερινή έξοδο έως μια νέα μητέρα που ένιωθε συνεχή δύσπνοια και εξάντληση, καλύπτοντας ένα ευρύ φάσμα καθημερινών περιστατικών.

Σύγκριση Απόδοσης Μοντέλων και Ανθρώπινης Κρίσης

Οι συμμετέχοντες χωρίστηκαν σε ομάδες. Μια ομάδα χρησιμοποίησε ένα LLM (GPT-4o, Llama 3 ή Command R+) για να βοηθηθεί στη λήψη αποφάσεων, ενώ μια ομάδα ελέγχου χρησιμοποίησε παραδοσιακές πηγές, όπως αναζήτηση στο διαδίκτυο. Οι ερευνητές αξιολόγησαν την ακρίβεια με την οποία οι συμμετέχοντες εντόπισαν το ιατρικό πρόβλημα και το κατάλληλο επόμενο βήμα, όπως επίσκεψη σε γιατρό ή στα επείγοντα. Σύμφωνα με τα ευρήματα, όσοι χρησιμοποίησαν LLMs δεν έλαβαν καλύτερες αποφάσεις από εκείνους που βασίστηκαν σε παραδοσιακές μεθόδους. Αντιθέτως, η ομάδα ελέγχου είχε 1,76 φορές περισσότερες πιθανότητες να εντοπίσει μια σχετική πάθηση σε σύγκριση με τους χρήστες των LLMs.

Η αντίθεση μεταξύ της απόδοσης των μοντέλων όταν λειτουργούσαν αυτόνομα και όταν χρησιμοποιούνταν από ανθρώπους ήταν εντυπωσιακή. Όταν τα LLMs δοκιμάστηκαν μόνα τους στα ίδια σενάρια, εντόπισαν τις σχετικές παθήσεις στο 94,9% των περιπτώσεων και πρότειναν τη σωστή διαχείριση (disposition) στο 56,3% κατά μέσο όρο. Ωστόσο, οι άνθρωποι που χρησιμοποίησαν τα ίδια μοντέλα κατάφεραν να εντοπίσουν τις σχετικές παθήσεις σε λιγότερο από το 34,5% των περιπτώσεων και τη σωστή διαχείριση σε λιγότερο από το 44,2%. Αυτό αποδεικνύει ότι η τεχνική επάρκεια των μοντέλων δεν μεταφράζεται απαραίτητα σε αποτελεσματική υποβοήθηση των χρηστών σε πραγματικές συνθήκες.

Σοβαρά Προβλήματα Επικοινωνίας και Ασυνέπεια Απαντήσεων

Η μελέτη ανέδειξε σοβαρά προβλήματα στην αλληλεπίδραση ανθρώπου-μηχανής. Συγκεκριμένα, παρατηρήθηκε μια αμφίδρομη ρήξη επικοινωνίας. Οι συμμετέχοντες συχνά δεν γνώριζαν ποιες πληροφορίες έπρεπε να δώσουν στο LLM για να λάβουν ακριβείς συμβουλές, ενώ οι απαντήσεις που λάμβαναν συνδύαζαν συχνά σωστές και λανθασμένες συστάσεις, καθιστώντας δύσκολο τον εντοπισμό της βέλτιστης ενέργειας. Επιπλέον, τα LLMs παρείχαν πολύ διαφορετικές απαντήσεις βασισμένες σε μικρές παραλλαγές των ερωτήσεων. Για παράδειγμα, σε δύο παρόμοιες περιγραφές συμπτωμάτων υπαραχνοειδούς αιμορραγίας, ένας χρήστης έλαβε τη λάθος συμβουλή να ξαπλώσει, ενώ ένας άλλος τη σωστή συμβουλή να αναζητήσει επείγουσα βοήθεια.

Οι τρέχουσες μέθοδοι αξιολόγησης των LLMs κρίθηκαν ανεπαρκείς από την ερευνητική ομάδα, καθώς δεν αντικατοπτρίζουν την πολυπλοκότητα της αλληλεπίδρασης με ανθρώπινους χρήστες. Σύμφωνα με τη μελέτη, τα τυποποιημένα τεστ ιατρικών γνώσεων (όπως το MedQA) στα οποία τα μοντέλα αριστεύουν, αλλά και οι προσομοιώσεις με “ασθενείς AI”, απέτυχαν να προβλέψουν τις αστοχίες που εμφανίστηκαν κατά τη χρήση από πραγματικούς ανθρώπους. Όπως δήλωσε η Dr. Rebecca Payne, ιατρός και επικεφαλής ιατρική σύμβουλος της μελέτης, τα ευρήματα υπογραμμίζουν τη δυσκολία δημιουργίας συστημάτων AI που μπορούν να υποστηρίξουν πραγματικά τους ανθρώπους σε ευαίσθητους τομείς όπως η υγεία, παρά τον ενθουσιασμό που επικρατεί.

Επιτακτική Ανάγκη για Αυστηρότερο Πλαίσιο Ελέγχου

Ο Andrew Bean, διδακτορικός ερευνητής στο Oxford Internet Institute και επικεφαλής συγγραφέας, τόνισε ότι ο σχεδιασμός ισχυρών δοκιμών είναι το κλειδί για την κατανόηση της χρησιμότητας αυτής της νέας τεχνολογίας. Σύμφωνα με τον Bean, η αλληλεπίδραση με ανθρώπους αποτελεί πρόκληση ακόμη και για τα κορυφαία LLMs, και η εργασία αυτή στοχεύει στην ανάπτυξη ασφαλέστερων συστημάτων. Οι συμμετέχοντες στη μελέτη έλαβαν αμοιβή 2,25 λιρών Αγγλίας (περίπου 2,70 ευρώ) για τη συμμετοχή τους, ενώ η συλλογή των δεδομένων πραγματοποιήθηκε μεταξύ Αυγούστου και Οκτωβρίου 2024, διασφαλίζοντας ένα αντιπροσωπευτικό δείγμα του πληθυσμού του Ηνωμένου Βασιλείου.

Η αποσύνδεση μεταξύ των βαθμολογιών στα benchmarks και της απόδοσης στον πραγματικό κόσμο θα πρέπει να λειτουργήσει ως προειδοποίηση για τους προγραμματιστές και τις ρυθμιστικές αρχές, όπως επεσήμανε ο Dr. Adam Mahdi, Αναπληρωτής Καθηγητής στο Πανεπιστήμιο της Οξφόρδης και ανώτερος συγγραφέας. Ο Dr. Mahdi εξήγησε ότι πολλές αξιολογήσεις αποτυγχάνουν να μετρήσουν αυτό που ισχυρίζονται και ότι δεν μπορούμε να βασιζόμαστε μόνο σε τυποποιημένα τεστ για να καθορίσουμε αν τα συστήματα είναι ασφαλή. Απαιτούνται κλινικές δοκιμές με πραγματικούς χρήστες, παρόμοιες με αυτές των νέων φαρμάκων, για να κατανοηθούν οι πραγματικές δυνατότητες στην υγειονομική περίθαλψη.

Ακολουθήστε το Infocom.gr και στα Google News, για όλες τις τελευταίες εξελίξεις από τον κόσμο των τηλεπικοινωνιών και της τεχνολογίας!

Infocom Today
SmartTalks

AI health
Share. Facebook Twitter LinkedIn Email Copy Link
Avatar photo
Χρήστος Κοτσακάς
  • Website
  • LinkedIn

Ο Χρήστος Κοτσακάς είναι δημοσιογράφος με πολυετή εμπειρία στον χώρο του τεχνολογικού, επιχειρηματικού και διεθνούς ρεπορτάζ, επικεντρώνοντας το ενδιαφέρον του στα new media, τις νέες τεχνολογίες και τις startups. Έχει συνεργαστεί με μια σειρά από ηλεκτρονικά και έντυπα μέσα, σε τομείς όπως η αρθρογραφία, η επικοινωνία και η ενημέρωση.

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Το ένα τρίτο των νέων ιστοσελίδων παράγεται από τεχνητή νοημοσύνη

Personal Branding στην εποχή της ΤΝ – γιατί η αυθεντικότητα κάνει τη διαφορά

Από μηδενική βάση στα 8 δισ. δολάρια η αγορά AISS

Η ΕΕ συμφώνησε σε απλούστερους κανόνες για το AI Act

Ευρωβουλευτές ζητούν ευρωπαϊκό σχέδιο απέναντι σε AI hacking κινδύνους

Η αμερικανική κυβέρνηση θα αξιολογεί νέα μοντέλα AI πριν από τη διάθεσή τους

Comments are closed.

Εγγραφείτε στο Weekly Telecom
* indicates required
RSS BizNow.gr
  • WINGS ICT Solutions: Με τεχνολογία ΑΙ και 5G η πυρανίχνευση στο Δήμο Τροιζηνίας-Μεθάνων
  • Σ. Ζαχαράκη: Η Ελλάδα θέτει αυστηρό πλαίσιο για τη χρήση της ΤΝ στα σχολεία
  • Ο Κωνσταντίνος Κυρανάκης επίτιμο μέλος του Ε.Β.Ε.Π.
  • Στ. Καφούνης:  Κατάργηση της τεκμαρτής φορολόγησης και αναπτυξιακές φορολογικές παρεμβάσεις για τις ΜμΕ
  • Όμιλος ΔΕΗ: Δωρεά περιπολικών και μοτοσικλετών στην Άμεση Δράση Αττικής
  • ΕΤΑΔ: Προκήρυξη διαγωνισμών για την παραχώρηση απλής χρήσης τμημάτων αιγιαλών στη Ρόδο
  • Το 6ο Premium Real Estate Forum ανοίγει τις πύλες του!
RSS itsecuritypro.gr
  • Private SOC στο Cloud – Ασφάλεια χωρίς περιορισμούς
  • PartnerNET: Δυναμική παρουσία στην έκθεση Automation & Robotics  2026 
  • Διάκριση Κορυφής στην Pylones Hellas για το Maritime Cybersecurity από την Palo Alto Networks
  • Δυναμική ανάπτυξη της Odyssey Cybersecurity στην Ελλάδα, με τεχνολογικό πυλώνα το ClearSkies™
  • ΕΥΠ: Διαγωνισμός καινοτομίας για την Εθνική Ασφάλεια – Οι θεματικοί άξονες – Τα βραβεία
  • Στρατηγική συνεργασία της Akeydor Group με Mindbreeze στον τομέα του AI Driven Enterprise Intelligence και Knowledge Management
  • Ενίσχυση της συνεργασίας μεταξύ eSafe Cyber Security και Pylones Hellas – Νέα φάση ανάπτυξης στην ελληνική αγορά
Infocom Today

Copyright 2024 | All Rights Reserved

Type above and press Enter to search. Press Esc to cancel.