Close Menu
InfoCom
  • Telecoms
  • IT
  • AI
  • Security
  • Επιχειρήσεις
    • Στρατηγική
  • Πρόσωπα
    • Στελέχη
    • Συνεντεύξεις
    • Απόψεις
  • Today
  • SmartTalks
  • eMagazine
  • Weekly Telecom
  • AI.BRIEF
Facebook X (Twitter) Instagram
  • ABOUT
  • ΟΡΟΙ ΧΡΗΣΗΣ
  • ΕΠΙΚΟΙΝΩΝΙΑ
  • NEWSLETTER
Πέμπτη, 2 Ιουλίου
Facebook X (Twitter) YouTube LinkedIn RSS
InfoCom
  • Telecoms
  • IT
  • AI
  • Security
  • Επιχειρήσεις
    • Στρατηγική
  • Πρόσωπα
    • Στελέχη
    • Συνεντεύξεις
    • Απόψεις
  • Today
  • SmartTalks
  • eMagazine
  • Weekly Telecom
  • AI.BRIEF
InfoCom
Home»AI

Τα γλωσσικά μοντέλα αποτυγχάνουν να βοηθήσουν τους ασθενείς στη λήψη ιατρικών αποφάσεων

10/02/2026Χρήστος ΚοτσακάςBy Χρήστος Κοτσακάς4 Mins Read AI
Όλες οι εξελίξεις σε τηλεπικοινωνίες και τεχνολογία στο Google News!
Ακολουθήστε το Infocom.gr για τις σημαντικότερες ειδήσεις της ψηφιακής αγοράς.
Add as preferred source on Google

Η μεγαλύτερη μελέτη χρηστών σχετικά με τα μεγάλα γλωσσικά μοντέλα (LLMs) για την υποβοήθηση του κοινού στη λήψη ιατρικών αποφάσεων, διαπίστωσε ότι αυτά εγκυμονούν κινδύνους λόγω της τάσης τους να παρέχουν ανακριβείς πληροφορίες. Η έρευνα, η οποία δημοσιεύθηκε στο περιοδικό Nature Medicine, διεξήχθη από το Oxford Internet Institute και το Nuffield Department of Primary Care Health Sciences του Πανεπιστημίου της Οξφόρδης, σε συνεργασία με το MLCommons. Τα αποτελέσματα αποκαλύπτουν ένα σημαντικό χάσμα μεταξύ των δυνατοτήτων των μοντέλων στα τυποποιημένα τεστ και της πραγματικής τους χρησιμότητας για τους ασθενείς που αναζητούν ιατρικές συμβουλές για τα συμπτώματά τους.

Σύμφωνα με τα στοιχεία της μελέτης, ενώ τα μοντέλα επιτυγχάνουν υψηλές βαθμολογίες σε εξετάσεις ιατρικών γνώσεων, θέτουν σε κίνδυνο τους χρήστες όταν καλούνται να βοηθήσουν σε πραγματικά σενάρια. Οι ερευνητές διεξήγαγαν μια τυχαιοποιημένη δοκιμή με 1.298 συμμετέχοντες στο Ηνωμένο Βασίλειο, οι οποίοι κλήθηκαν να εντοπίσουν πιθανές παθήσεις και να προτείνουν την κατάλληλη πορεία δράσης βασισμένοι σε δέκα ιατρικά σενάρια. Τα σενάρια αυτά, τα οποία αναπτύχθηκαν από γιατρούς, κυμαίνονταν από έναν νεαρό άνδρα με έντονο πονοκέφαλο μετά από νυχτερινή έξοδο έως μια νέα μητέρα που ένιωθε συνεχή δύσπνοια και εξάντληση, καλύπτοντας ένα ευρύ φάσμα καθημερινών περιστατικών.

Σύγκριση Απόδοσης Μοντέλων και Ανθρώπινης Κρίσης

Οι συμμετέχοντες χωρίστηκαν σε ομάδες. Μια ομάδα χρησιμοποίησε ένα LLM (GPT-4o, Llama 3 ή Command R+) για να βοηθηθεί στη λήψη αποφάσεων, ενώ μια ομάδα ελέγχου χρησιμοποίησε παραδοσιακές πηγές, όπως αναζήτηση στο διαδίκτυο. Οι ερευνητές αξιολόγησαν την ακρίβεια με την οποία οι συμμετέχοντες εντόπισαν το ιατρικό πρόβλημα και το κατάλληλο επόμενο βήμα, όπως επίσκεψη σε γιατρό ή στα επείγοντα. Σύμφωνα με τα ευρήματα, όσοι χρησιμοποίησαν LLMs δεν έλαβαν καλύτερες αποφάσεις από εκείνους που βασίστηκαν σε παραδοσιακές μεθόδους. Αντιθέτως, η ομάδα ελέγχου είχε 1,76 φορές περισσότερες πιθανότητες να εντοπίσει μια σχετική πάθηση σε σύγκριση με τους χρήστες των LLMs.

Η αντίθεση μεταξύ της απόδοσης των μοντέλων όταν λειτουργούσαν αυτόνομα και όταν χρησιμοποιούνταν από ανθρώπους ήταν εντυπωσιακή. Όταν τα LLMs δοκιμάστηκαν μόνα τους στα ίδια σενάρια, εντόπισαν τις σχετικές παθήσεις στο 94,9% των περιπτώσεων και πρότειναν τη σωστή διαχείριση (disposition) στο 56,3% κατά μέσο όρο. Ωστόσο, οι άνθρωποι που χρησιμοποίησαν τα ίδια μοντέλα κατάφεραν να εντοπίσουν τις σχετικές παθήσεις σε λιγότερο από το 34,5% των περιπτώσεων και τη σωστή διαχείριση σε λιγότερο από το 44,2%. Αυτό αποδεικνύει ότι η τεχνική επάρκεια των μοντέλων δεν μεταφράζεται απαραίτητα σε αποτελεσματική υποβοήθηση των χρηστών σε πραγματικές συνθήκες.

Σοβαρά Προβλήματα Επικοινωνίας και Ασυνέπεια Απαντήσεων

Η μελέτη ανέδειξε σοβαρά προβλήματα στην αλληλεπίδραση ανθρώπου-μηχανής. Συγκεκριμένα, παρατηρήθηκε μια αμφίδρομη ρήξη επικοινωνίας. Οι συμμετέχοντες συχνά δεν γνώριζαν ποιες πληροφορίες έπρεπε να δώσουν στο LLM για να λάβουν ακριβείς συμβουλές, ενώ οι απαντήσεις που λάμβαναν συνδύαζαν συχνά σωστές και λανθασμένες συστάσεις, καθιστώντας δύσκολο τον εντοπισμό της βέλτιστης ενέργειας. Επιπλέον, τα LLMs παρείχαν πολύ διαφορετικές απαντήσεις βασισμένες σε μικρές παραλλαγές των ερωτήσεων. Για παράδειγμα, σε δύο παρόμοιες περιγραφές συμπτωμάτων υπαραχνοειδούς αιμορραγίας, ένας χρήστης έλαβε τη λάθος συμβουλή να ξαπλώσει, ενώ ένας άλλος τη σωστή συμβουλή να αναζητήσει επείγουσα βοήθεια.

Οι τρέχουσες μέθοδοι αξιολόγησης των LLMs κρίθηκαν ανεπαρκείς από την ερευνητική ομάδα, καθώς δεν αντικατοπτρίζουν την πολυπλοκότητα της αλληλεπίδρασης με ανθρώπινους χρήστες. Σύμφωνα με τη μελέτη, τα τυποποιημένα τεστ ιατρικών γνώσεων (όπως το MedQA) στα οποία τα μοντέλα αριστεύουν, αλλά και οι προσομοιώσεις με “ασθενείς AI”, απέτυχαν να προβλέψουν τις αστοχίες που εμφανίστηκαν κατά τη χρήση από πραγματικούς ανθρώπους. Όπως δήλωσε η Dr. Rebecca Payne, ιατρός και επικεφαλής ιατρική σύμβουλος της μελέτης, τα ευρήματα υπογραμμίζουν τη δυσκολία δημιουργίας συστημάτων AI που μπορούν να υποστηρίξουν πραγματικά τους ανθρώπους σε ευαίσθητους τομείς όπως η υγεία, παρά τον ενθουσιασμό που επικρατεί.

Επιτακτική Ανάγκη για Αυστηρότερο Πλαίσιο Ελέγχου

Ο Andrew Bean, διδακτορικός ερευνητής στο Oxford Internet Institute και επικεφαλής συγγραφέας, τόνισε ότι ο σχεδιασμός ισχυρών δοκιμών είναι το κλειδί για την κατανόηση της χρησιμότητας αυτής της νέας τεχνολογίας. Σύμφωνα με τον Bean, η αλληλεπίδραση με ανθρώπους αποτελεί πρόκληση ακόμη και για τα κορυφαία LLMs, και η εργασία αυτή στοχεύει στην ανάπτυξη ασφαλέστερων συστημάτων. Οι συμμετέχοντες στη μελέτη έλαβαν αμοιβή 2,25 λιρών Αγγλίας (περίπου 2,70 ευρώ) για τη συμμετοχή τους, ενώ η συλλογή των δεδομένων πραγματοποιήθηκε μεταξύ Αυγούστου και Οκτωβρίου 2024, διασφαλίζοντας ένα αντιπροσωπευτικό δείγμα του πληθυσμού του Ηνωμένου Βασιλείου.

Η αποσύνδεση μεταξύ των βαθμολογιών στα benchmarks και της απόδοσης στον πραγματικό κόσμο θα πρέπει να λειτουργήσει ως προειδοποίηση για τους προγραμματιστές και τις ρυθμιστικές αρχές, όπως επεσήμανε ο Dr. Adam Mahdi, Αναπληρωτής Καθηγητής στο Πανεπιστήμιο της Οξφόρδης και ανώτερος συγγραφέας. Ο Dr. Mahdi εξήγησε ότι πολλές αξιολογήσεις αποτυγχάνουν να μετρήσουν αυτό που ισχυρίζονται και ότι δεν μπορούμε να βασιζόμαστε μόνο σε τυποποιημένα τεστ για να καθορίσουμε αν τα συστήματα είναι ασφαλή. Απαιτούνται κλινικές δοκιμές με πραγματικούς χρήστες, παρόμοιες με αυτές των νέων φαρμάκων, για να κατανοηθούν οι πραγματικές δυνατότητες στην υγειονομική περίθαλψη.

Ακολουθήστε το Infocom.gr και στα Google News, για όλες τις τελευταίες εξελίξεις από τον κόσμο των τηλεπικοινωνιών και της τεχνολογίας!

Infocom Today
SmartTalks

AI health
Share. Facebook Twitter LinkedIn Email Copy Link
Avatar photo
Χρήστος Κοτσακάς
  • Website
  • LinkedIn

Ο Χρήστος Κοτσακάς είναι δημοσιογράφος με πολυετή εμπειρία στον χώρο του τεχνολογικού, επιχειρηματικού και διεθνούς ρεπορτάζ, επικεντρώνοντας το ενδιαφέρον του στα new media, τις νέες τεχνολογίες και τις startups. Έχει συνεργαστεί με μια σειρά από ηλεκτρονικά και έντυπα μέσα, σε τομείς όπως η αρθρογραφία, η επικοινωνία και η ενημέρωση.

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Τα AI coding agents μπορεί να κοστίζουν περισσότερο από τους developers

AI Act: νέοι ρόλοι για ΕΕΤΤ και ΑΠΔΠΧ – έρχεται AI Sandbox

Γιατί χρειάζεται έλεγχος στη χρήση του ΑΙ και τι λύσεις δίνει η AccurePoint

H Qualco υποστηρικτής της ομιλίας του Κωνσταντίνου Δασκαλάκη στη διάλεξη του Οικονομικού Πανεπιστημίου Αθηνών

Η ανάπτυξη των data centers περνά πλέον και από τα δικαστήρια

Πενταπλασιάστηκαν το 2026 οι επιθέσεις σε ΜμΕ με εργαλεία AI

Comments are closed.

Εγγραφείτε στο Weekly Telecom
* indicates required
RSS BizNow.gr
  • Ευρωβαρόμετρο: Η ανασφάλεια στον κόσμο γεννά υψηλές προσδοκίες από την ΕΕ
  • Κοινωνία της Πληροφορίας: 7 αιώνες ιστορίας διαθέσιμοι στον ψηφιακό κόσμο
  • Revolut: 5 τρόποι να μειώσετε τα έξοδα των διακοπών σας
  • Ο Όμιλος Επιχειρήσεων Σαρακάκη δημιούργησε corporate video γεμάτο δυναμισμό και κίνηση
  • ΕΒΕΘ: Στοχευμένη παρέμβαση στο Υπουργείο Ανάπτυξης
  • CAPA: Καταλυτικός ο ρόλος των Εταιρικών Υποθέσεων στο επενδυτικό περιβάλλον
  • Στ. Καφούνης: «Τέλος εποχής στο προνομιακό καθεστώς των μικροδεμάτων από τρίτες χώρες»
RSS itsecuritypro.gr
  • Η Αθήνα έδρα του νέου ευρωπαϊκού οργανισμού για τις δεξιότητες στην κυβερνοασφάλεια CSC-EDIC
  • Δείκτης Ετοιμότητας Κυβερνοασφάλειας μικρομεσαίων επιχειρήσεων για το 2026: Αυξημένη εμπιστοσύνη αλλά ανησυχία για την ΤΝ
  • Ο Νίκος Γεωργόπουλος αναγνωρίζεται από το Favikon ως Global Insurance Leader – Ο μοναδικός Έλληνας στους top 200 της λίστας
  • Ευρεία προβολή του ευρωπαϊκού έργου κυβερνοασφάλειας NCC-EL στην Έκθεση Beyond 2026 από την ΕΑΚ
  • Η GCC Hellas ολοκλήρωσε με επιτυχία το 1ο Fortinet Consultative Sales Workshop στην Ελλάδα
  • Πενταπλασιάστηκαν το 2026 οι επιθέσεις σε ΜμΕ με «δόλωμα» εργαλεία Τεχνητής Νοημοσύνης
  • Η Sparkle καθιερώνει το Data Center Metamorfosis II ως νέο σημείο αναφοράς για τις ψηφιακές υποδομές στην Ελλάδα
Infocom Today

Copyright 2024 | All Rights Reserved

Type above and press Enter to search. Press Esc to cancel.