Σε παγκόσμια επαναφορά του Claude Fable 5 προχωρά η Anthropic, μετά την άρση στις 30 Ιουνίου των αμερικανικών ελέγχων εξαγωγών που είχαν επιβληθεί στα μοντέλα Fable 5 και Mythos 5. Η πρόσβαση στο Fable 5 αποκαθίσταται από την 1η Ιουλίου μέσω των Claude Platform, Claude.ai, Claude Code και Claude Cowork, ενώ η εταιρεία θα επανενεργοποιήσει τις υπηρεσίες σε AWS, Google Cloud και Microsoft Foundry το συντομότερο δυνατό. Για τα προγράμματα Pro, Max, Team και επιλεγμένα Enterprise, το Fable 5 θα μπορεί να χρησιμοποιείται για έως το 50% του εβδομαδιαίου ορίου χρήσης μέχρι τις 7 Ιουλίου και στη συνέχεια θα διατίθεται μέσω πιστώσεων χρήσης.
Για το Mythos 5, η αποκατάσταση παραμένει περιορισμένη σε επιλεγμένους αμερικανικούς οργανισμούς, μετά την έγκριση που δόθηκε στις 26 Ιουνίου, με την Anthropic να συνεχίζει τις επαφές για ευρύτερη διάθεση. Οι περιορισμοί είχαν τεθεί σε ισχύ στις 12 Ιουνίου, τρεις ημέρες μετά την κυκλοφορία των μοντέλων, και υποχρέωναν την εταιρεία να αποκλείσει την πρόσβαση ξένων υπηκόων εντός και εκτός ΗΠΑ. Επειδή απουσίαζε αξιόπιστος μηχανισμός επαλήθευσης της εθνικότητας σε πραγματικό χρόνο, ανεστάλη καθολικά η πρόσβαση. Ο υπουργός Εμπορίου Χάουαρντ Λάτνικ ανέφερε ότι η κυβέρνηση συνεργάστηκε με την Anthropic για την ανάλυση και την έγκριση του Fable 5.
Νέος ταξινομητής ενισχύει τις δικλίδες κυβερνοασφάλειας
Η κυβερνητική παρέμβαση ακολούθησε έκθεση ερευνητών της Amazon, οι οποίοι είχαν εντοπίσει τεχνική παράκαμψης μίας από τις δικλίδες κυβερνοασφάλειας του Fable 5. Τα δύο μοντέλα βασίζονται στο ίδιο υποκείμενο σύστημα, αλλά κυκλοφόρησαν με διαφορετικό επίπεδο προστασίας. Το Fable 5 προορίζεται για ευρύτερη χρήση και διαθέτει αυστηρότερες δικλίδες, ενώ το Mythos 5, με λιγότερες δικλίδες ασφαλείας, διατέθηκε μόνο σε έμπιστους συνεργάτες του Project Glasswing για αμυντικές εφαρμογές κυβερνοασφάλειας.
Μετά την εξέταση των ευρημάτων μαζί με την Amazon και την αμερικανική κυβέρνηση, η Anthropic έκρινε ότι η τεχνική δεν αποκάλυπτε μοναδικές δυνατότητες επιπέδου Mythos 5. Κατά την εταιρεία, αφορούσε οριακή περίπτωση για τις δικλίδες του Fable 5 και εργασίες συνήθους αμυντικής κυβερνοασφάλειας. Οι δοκιμές της έδειξαν ότι λιγότερο ισχυρά μοντέλα μπορούσαν να εντοπίσουν τις ίδιες ευπάθειες και να παραγάγουν αντίστοιχη επίδειξη εκμετάλλευσης της συγκεκριμένης αδυναμίας.
Η Anthropic εκπαίδευσε εκ νέου τον ταξινομητή ασφαλείας, ώστε να εντοπίζει και να μπλοκάρει τη συμπεριφορά που περιγραφόταν στην έκθεση. Η εταιρεία αναφέρει ότι η τεχνική αποκλείεται πλέον σε ποσοστό άνω του 99% των περιπτώσεων. Όταν ένα αίτημα προς το Fable 5 απορρίπτεται, θα προωθείται στο Opus 4.8, ενώ ο χρήστης θα λαμβάνει σχετική ειδοποίηση. Η αυστηρότερη ρύθμιση αυξάνει τα ψευδώς θετικά αποτελέσματα σε νόμιμες εργασίες προγραμματισμού και εντοπισμού σφαλμάτων.
Η Anthropic αναφέρει ότι τις προηγούμενες και τις νέες δικλίδες αξιολόγησαν επίσης ερευνητές του Center for AI Standards and Innovation του αμερικανικού υπουργείου Εμπορίου. Η εταιρεία χρησιμοποιεί μικρότερα αυτοματοποιημένα συστήματα AI ως ταξινομητές, ώστε να εντοπίζει δυνητικά επιβλαβή αιτήματα ή απαντήσεις και να τα μπλοκάρει. Για το Fable 5 είχε επιλέξει μεγαλύτερο περιθώριο ασφαλείας σε σχέση με προηγούμενα μοντέλα, αποδεχόμενη ότι περισσότερα νόμιμα αιτήματα θα μπορούσαν να απορριφθούν.
Η διαθεσιμότητα περνά υπό κανονιστικό έλεγχο
Το επεισόδιο ανέδειξε τον κίνδυνο να επηρεάζεται η πρόσβαση σε frontier AI μοντέλα από αποφάσεις πολιτικής, ανεξάρτητα από την τεχνική διαθεσιμότητα των υποδομών. Ο Sanchit Vir Gogia, επικεφαλής αναλυτής της Greyhound Research, χαρακτήρισε την πρόσβαση σε αυτά τα συστήματα «υποδομή υπό όρους», επισημαίνοντας ότι ένας περιορισμός που στόχευε ξένους υπηκόους οδήγησε σε παγκόσμια διακοπή για όλους τους χρήστες. Κατά τον ίδιο, η χρήση πολλών παρόχων cloud δεν προστατεύει μια επιχείρηση από ρυθμιστικές αποφάσεις που αφορούν τον ίδιο τον πάροχο του μοντέλου.
Ο Gogia προτείνει η αξιολόγηση των πλατφορμών frontier AI να περιλαμβάνει πλέον τον κίνδυνο κανονιστικής διακοπής, τους περιορισμούς ταυτοποίησης μεταξύ χωρών, τις καθυστερήσεις αποκατάστασης ανά κανάλι και την επιλεξιμότητα για καθεστώς έμπιστου συνεργάτη. Παρόμοια κατεύθυνση καταγράφηκε και στην πρόσφατη διάθεση των GPT-5.6 Sol, Terra και Luna. Η OpenAI ανέφερε ότι είχε παρουσιάσει στην αμερικανική κυβέρνηση τα σχέδια διάθεσης και τις δυνατότητες των μοντέλων πριν από την κυκλοφορία, περιορίζοντας αρχικά την πρόσβαση σε μικρή ομάδα έμπιστων συνεργατών κατόπιν κυβερνητικού αιτήματος.
Κοινό πλαίσιο για την αξιολόγηση των jailbreaks
Η Anthropic προτείνει τη δημιουργία κοινού πλαισίου για την αντικειμενική αξιολόγηση της σοβαρότητας των jailbreaks, καθώς σήμερα απουσιάζει ενιαίο πρότυπο για την ιεράρχηση νέων τεχνικών παράκαμψης. Μαζί με τις Amazon, Microsoft, Google και άλλους συνεργάτες του Project Glasswing, επεξεργάζεται σύστημα βαθμολόγησης με τέσσερα κριτήρια: το πρόσθετο επίπεδο δυνατότητας που αποκτά ο επιτιθέμενος, το εύρος των επιθετικών ενεργειών, την ευκολία μετατροπής της τεχνικής σε πραγματική επίθεση και τη δυνατότητα εντοπισμού ή διάδοσής της.
Η εταιρεία σχεδιάζει επίσης παρακολούθηση σε 24ωρη βάση βασικών καναλιών υποβολής ευρημάτων και νέο πρόγραμμα στο HackerOne, μέσω του οποίου ερευνητές ασφαλείας θα μπορούν να αναφέρουν δυνητικά cyber jailbreaks του Fable 5. Παράλληλα, διευρύνει τη συνεργασία της με την αμερικανική κυβέρνηση σε δοκιμές πριν από την κυκλοφορία, ανταλλαγή πληροφοριών για σημαντικά jailbreaks, κοινή έρευνα και ανεξάρτητη αξιολόγηση δικλίδων. Η Anthropic ζητεί οι κανόνες να αποκτήσουν σταθερή και διαφανή βάση, να κωδικοποιηθούν σε ισχυρό κανονιστικό πλαίσιο και να εφαρμόζονται ισότιμα σε όλους τους δημιουργούς frontier μοντέλων.
