Close Menu
InfoCom
  • Telecoms
  • IT
  • AI
  • Security
  • Επιχειρήσεις
    • Στρατηγική
  • Πρόσωπα
    • Στελέχη
    • Συνεντεύξεις
    • Απόψεις
  • Today
  • SmartTalks
  • eMagazine
  • Weekly Telecom
  • AI.BRIEF
Facebook X (Twitter) Instagram
  • ABOUT
  • ΟΡΟΙ ΧΡΗΣΗΣ
  • ΕΠΙΚΟΙΝΩΝΙΑ
  • NEWSLETTER
Κυριακή, 14 Ιουνίου
Facebook X (Twitter) YouTube LinkedIn RSS
InfoCom
  • Telecoms
  • IT
  • AI
  • Security
  • Επιχειρήσεις
    • Στρατηγική
  • Πρόσωπα
    • Στελέχη
    • Συνεντεύξεις
    • Απόψεις
  • Today
  • SmartTalks
  • eMagazine
  • Weekly Telecom
  • AI.BRIEF
InfoCom
Home»AI

Τα γλωσσικά μοντέλα αποτυγχάνουν να βοηθήσουν τους ασθενείς στη λήψη ιατρικών αποφάσεων

10/02/2026Χρήστος ΚοτσακάςBy Χρήστος Κοτσακάς4 Mins Read AI
Όλες οι εξελίξεις σε τηλεπικοινωνίες και τεχνολογία στο Google News!
Ακολουθήστε το Infocom.gr για τις σημαντικότερες ειδήσεις της ψηφιακής αγοράς.
Add as preferred source on Google

Η μεγαλύτερη μελέτη χρηστών σχετικά με τα μεγάλα γλωσσικά μοντέλα (LLMs) για την υποβοήθηση του κοινού στη λήψη ιατρικών αποφάσεων, διαπίστωσε ότι αυτά εγκυμονούν κινδύνους λόγω της τάσης τους να παρέχουν ανακριβείς πληροφορίες. Η έρευνα, η οποία δημοσιεύθηκε στο περιοδικό Nature Medicine, διεξήχθη από το Oxford Internet Institute και το Nuffield Department of Primary Care Health Sciences του Πανεπιστημίου της Οξφόρδης, σε συνεργασία με το MLCommons. Τα αποτελέσματα αποκαλύπτουν ένα σημαντικό χάσμα μεταξύ των δυνατοτήτων των μοντέλων στα τυποποιημένα τεστ και της πραγματικής τους χρησιμότητας για τους ασθενείς που αναζητούν ιατρικές συμβουλές για τα συμπτώματά τους.

Σύμφωνα με τα στοιχεία της μελέτης, ενώ τα μοντέλα επιτυγχάνουν υψηλές βαθμολογίες σε εξετάσεις ιατρικών γνώσεων, θέτουν σε κίνδυνο τους χρήστες όταν καλούνται να βοηθήσουν σε πραγματικά σενάρια. Οι ερευνητές διεξήγαγαν μια τυχαιοποιημένη δοκιμή με 1.298 συμμετέχοντες στο Ηνωμένο Βασίλειο, οι οποίοι κλήθηκαν να εντοπίσουν πιθανές παθήσεις και να προτείνουν την κατάλληλη πορεία δράσης βασισμένοι σε δέκα ιατρικά σενάρια. Τα σενάρια αυτά, τα οποία αναπτύχθηκαν από γιατρούς, κυμαίνονταν από έναν νεαρό άνδρα με έντονο πονοκέφαλο μετά από νυχτερινή έξοδο έως μια νέα μητέρα που ένιωθε συνεχή δύσπνοια και εξάντληση, καλύπτοντας ένα ευρύ φάσμα καθημερινών περιστατικών.

Σύγκριση Απόδοσης Μοντέλων και Ανθρώπινης Κρίσης

Οι συμμετέχοντες χωρίστηκαν σε ομάδες. Μια ομάδα χρησιμοποίησε ένα LLM (GPT-4o, Llama 3 ή Command R+) για να βοηθηθεί στη λήψη αποφάσεων, ενώ μια ομάδα ελέγχου χρησιμοποίησε παραδοσιακές πηγές, όπως αναζήτηση στο διαδίκτυο. Οι ερευνητές αξιολόγησαν την ακρίβεια με την οποία οι συμμετέχοντες εντόπισαν το ιατρικό πρόβλημα και το κατάλληλο επόμενο βήμα, όπως επίσκεψη σε γιατρό ή στα επείγοντα. Σύμφωνα με τα ευρήματα, όσοι χρησιμοποίησαν LLMs δεν έλαβαν καλύτερες αποφάσεις από εκείνους που βασίστηκαν σε παραδοσιακές μεθόδους. Αντιθέτως, η ομάδα ελέγχου είχε 1,76 φορές περισσότερες πιθανότητες να εντοπίσει μια σχετική πάθηση σε σύγκριση με τους χρήστες των LLMs.

Η αντίθεση μεταξύ της απόδοσης των μοντέλων όταν λειτουργούσαν αυτόνομα και όταν χρησιμοποιούνταν από ανθρώπους ήταν εντυπωσιακή. Όταν τα LLMs δοκιμάστηκαν μόνα τους στα ίδια σενάρια, εντόπισαν τις σχετικές παθήσεις στο 94,9% των περιπτώσεων και πρότειναν τη σωστή διαχείριση (disposition) στο 56,3% κατά μέσο όρο. Ωστόσο, οι άνθρωποι που χρησιμοποίησαν τα ίδια μοντέλα κατάφεραν να εντοπίσουν τις σχετικές παθήσεις σε λιγότερο από το 34,5% των περιπτώσεων και τη σωστή διαχείριση σε λιγότερο από το 44,2%. Αυτό αποδεικνύει ότι η τεχνική επάρκεια των μοντέλων δεν μεταφράζεται απαραίτητα σε αποτελεσματική υποβοήθηση των χρηστών σε πραγματικές συνθήκες.

Σοβαρά Προβλήματα Επικοινωνίας και Ασυνέπεια Απαντήσεων

Η μελέτη ανέδειξε σοβαρά προβλήματα στην αλληλεπίδραση ανθρώπου-μηχανής. Συγκεκριμένα, παρατηρήθηκε μια αμφίδρομη ρήξη επικοινωνίας. Οι συμμετέχοντες συχνά δεν γνώριζαν ποιες πληροφορίες έπρεπε να δώσουν στο LLM για να λάβουν ακριβείς συμβουλές, ενώ οι απαντήσεις που λάμβαναν συνδύαζαν συχνά σωστές και λανθασμένες συστάσεις, καθιστώντας δύσκολο τον εντοπισμό της βέλτιστης ενέργειας. Επιπλέον, τα LLMs παρείχαν πολύ διαφορετικές απαντήσεις βασισμένες σε μικρές παραλλαγές των ερωτήσεων. Για παράδειγμα, σε δύο παρόμοιες περιγραφές συμπτωμάτων υπαραχνοειδούς αιμορραγίας, ένας χρήστης έλαβε τη λάθος συμβουλή να ξαπλώσει, ενώ ένας άλλος τη σωστή συμβουλή να αναζητήσει επείγουσα βοήθεια.

Οι τρέχουσες μέθοδοι αξιολόγησης των LLMs κρίθηκαν ανεπαρκείς από την ερευνητική ομάδα, καθώς δεν αντικατοπτρίζουν την πολυπλοκότητα της αλληλεπίδρασης με ανθρώπινους χρήστες. Σύμφωνα με τη μελέτη, τα τυποποιημένα τεστ ιατρικών γνώσεων (όπως το MedQA) στα οποία τα μοντέλα αριστεύουν, αλλά και οι προσομοιώσεις με “ασθενείς AI”, απέτυχαν να προβλέψουν τις αστοχίες που εμφανίστηκαν κατά τη χρήση από πραγματικούς ανθρώπους. Όπως δήλωσε η Dr. Rebecca Payne, ιατρός και επικεφαλής ιατρική σύμβουλος της μελέτης, τα ευρήματα υπογραμμίζουν τη δυσκολία δημιουργίας συστημάτων AI που μπορούν να υποστηρίξουν πραγματικά τους ανθρώπους σε ευαίσθητους τομείς όπως η υγεία, παρά τον ενθουσιασμό που επικρατεί.

Επιτακτική Ανάγκη για Αυστηρότερο Πλαίσιο Ελέγχου

Ο Andrew Bean, διδακτορικός ερευνητής στο Oxford Internet Institute και επικεφαλής συγγραφέας, τόνισε ότι ο σχεδιασμός ισχυρών δοκιμών είναι το κλειδί για την κατανόηση της χρησιμότητας αυτής της νέας τεχνολογίας. Σύμφωνα με τον Bean, η αλληλεπίδραση με ανθρώπους αποτελεί πρόκληση ακόμη και για τα κορυφαία LLMs, και η εργασία αυτή στοχεύει στην ανάπτυξη ασφαλέστερων συστημάτων. Οι συμμετέχοντες στη μελέτη έλαβαν αμοιβή 2,25 λιρών Αγγλίας (περίπου 2,70 ευρώ) για τη συμμετοχή τους, ενώ η συλλογή των δεδομένων πραγματοποιήθηκε μεταξύ Αυγούστου και Οκτωβρίου 2024, διασφαλίζοντας ένα αντιπροσωπευτικό δείγμα του πληθυσμού του Ηνωμένου Βασιλείου.

Η αποσύνδεση μεταξύ των βαθμολογιών στα benchmarks και της απόδοσης στον πραγματικό κόσμο θα πρέπει να λειτουργήσει ως προειδοποίηση για τους προγραμματιστές και τις ρυθμιστικές αρχές, όπως επεσήμανε ο Dr. Adam Mahdi, Αναπληρωτής Καθηγητής στο Πανεπιστήμιο της Οξφόρδης και ανώτερος συγγραφέας. Ο Dr. Mahdi εξήγησε ότι πολλές αξιολογήσεις αποτυγχάνουν να μετρήσουν αυτό που ισχυρίζονται και ότι δεν μπορούμε να βασιζόμαστε μόνο σε τυποποιημένα τεστ για να καθορίσουμε αν τα συστήματα είναι ασφαλή. Απαιτούνται κλινικές δοκιμές με πραγματικούς χρήστες, παρόμοιες με αυτές των νέων φαρμάκων, για να κατανοηθούν οι πραγματικές δυνατότητες στην υγειονομική περίθαλψη.

Ακολουθήστε το Infocom.gr και στα Google News, για όλες τις τελευταίες εξελίξεις από τον κόσμο των τηλεπικοινωνιών και της τεχνολογίας!

Infocom Today
SmartTalks

AI health
Share. Facebook Twitter LinkedIn Email Copy Link
Avatar photo
Χρήστος Κοτσακάς
  • Website
  • LinkedIn

Ο Χρήστος Κοτσακάς είναι δημοσιογράφος με πολυετή εμπειρία στον χώρο του τεχνολογικού, επιχειρηματικού και διεθνούς ρεπορτάζ, επικεντρώνοντας το ενδιαφέρον του στα new media, τις νέες τεχνολογίες και τις startups. Έχει συνεργαστεί με μια σειρά από ηλεκτρονικά και έντυπα μέσα, σε τομείς όπως η αρθρογραφία, η επικοινωνία και η ενημέρωση.

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Η χρήση AI στις επιχειρήσεις συγκεντρώνεται σε μικρή ομάδα εργαζομένων

Η Anthropic θέλει κρατικό έλεγχο για AI μοντέλα υψηλού κινδύνου

Η nvisionist στο επίκεντρο της αμυντικής καινοτομίας

Μόλις το 6% των οργανισμών είναι έτοιμο για την εποχή της AI

10 ρυθμίσεις του ChatGPT που πρέπει να ξέρεις

Η Cloudflare βλέπει τα bots να περνούν μπροστά από τους ανθρώπους online

Comments are closed.

Εγγραφείτε στο Weekly Telecom
* indicates required
RSS BizNow.gr
  • The Media Business Game: Αλαφούζος, Strawstream, ANT1+ και περιφερειακά κανάλια!
  • Infocom Today #172: Όλα όσα μάθαμε στο Workforce Innovation 2026!
  • ΣΕΤΠΕ: Πολύχρωμο ψηφιδωτό τεχνολογίας και καινοτομίας στην Beyond 2026
  • Όμιλος Fourlis: Επιταχύνει τον μετασχηματισμό του και παρουσιάζει τις προβλέψεις του για το 2026
  • Συνεργασία OroraTech & Υπουργείου Ψηφιακής Διακυβέρνησης
  • Coffeeco Upcycle: Νέες στρατηγικές συνεργασίες με τρεις μεγάλους φορείς του κλάδου
  • Έναρξη δεύτερου κύκλου αξιολόγησης υπηρεσιών της Δημόσιας Διοίκησης από τους πολίτες
RSS itsecuritypro.gr
  • Η κατάχρηση διαπιστευτηρίων παραμένει το ισχυρότερο όπλο των κυβερνοεγκληματιών, παρά τα αυστηρά μέτρα ασφαλείας
  • Έρευνα Forscope: 1 στις 2 επιχειρήσεις «παγιδευμένη» σε συνδρομές λογισμικού που δεν χρειάζεται
  • Με επιτυχία ολοκληρώθηκε η συμμετοχή της Cysoft στα Ποσειδώνια 2026
  • Pylones Hellas και AEG αναδεικνύουν νέα εργαλεία που ενισχύουν Compliance και Operations ενόψει των αλλαγών του SWIFT
  • Νέα ευρωπαϊκά μεταπτυχιακά προγράμματα στην Κυβερνοασφάλεια με πλήρη χρηματοδότηση για πολίτες της ΕΕ
  • Έκθεση APT της ESET: Ομάδες που συνδέονται με την Κίνα διενεργούν επιχειρήσεις κατασκοπείας σε Βενεζουέλα, Κόλπο και Ν. Κορέα
  • Η TrendAI™ συμμετέχει στο Project Glasswing της Anthropic
Infocom Today

Copyright 2024 | All Rights Reserved

Type above and press Enter to search. Press Esc to cancel.