Η OpenAI ανακοίνωσε την κυκλοφορία του νέου μοντέλου generative AI, GPT-4o, με το «o» να σημαίνει «omni», επισημαίνοντας την ικανότητά του να επεξεργάζεται κείμενο, ομιλία και βίντεο. Το μοντέλο θα ενσωματωθεί σταδιακά στα προϊόντα της OpenAI τις επόμενες εβδομάδες. Σύμφωνα με την CTO της εταιρείας, Mira Murati, το GPT-4o προσφέρει νοημοσύνη ισοδύναμη με του GPT-4 αλλά με βελτιωμένη λειτουργικότητα.
Το ξεχωριστό χαρακτηριστικό του GPT-4o είναι η ικανότητά του να διαχειρίζεται φωνή, κείμενο και εικόνα ταυτόχρονα, κάτι που αντιπροσωπεύει μια σημαντική πρόοδο στην αλληλεπίδραση ανθρώπου-μηχανής. Σε αντίθεση με τον προκάτοχό του, το GPT-4 Turbo, που εκπαιδεύτηκε σε εικόνες και κείμενο, το GPT-4o ενσωματώνει την ομιλία, επιτρέποντας πιο δυναμικές και διαδραστικές εμπειρίες χρήστη.
Προηγουμένως, η φωνητική λειτουργία του ChatGPT χρησιμοποιούσε μετατροπή κειμένου σε ομιλία για να μεταγράφει απαντήσεις, αλλά το GPT-4o επιτρέπει διαδραστική επικοινωνία σε πραγματικό χρόνο. Οι χρήστες μπορούν να διακόπτουν και να αλληλεπιδρούν με το ChatGPT, με το μοντέλο να ανταποκρίνεται στις αποχρώσεις της φωνής των χρηστών και να δημιουργεί φωνές σε διάφορα στυλ, συμπεριλαμβανομένου του τραγουδιού.
Επιπλέον, το GPT-4o ενισχύει τις δυνατότητες όρασης του ChatGPT, επιτρέποντάς του να απαντά σε ερωτήσεις σχετικά με φωτογραφίες ή στιγμιότυπα οθόνης, όπως η αναγνώριση προβλημάτων σε κώδικα λογισμικού. Μελλοντικές αναβαθμίσεις θα μπορούσαν να επιτρέψουν στο ChatGPT να ερμηνεύει και να εξηγεί ζωντανά γεγονότα, όπως αθλητικούς αγώνες.
Η OpenAI τονίζει ότι, παρά την αυξανόμενη πολυπλοκότητα των μοντέλων, στοχεύει να κάνει τις αλληλεπιδράσεις πιο φυσικές και φιλικές προς το χρήστη. Το GPT-4o υποστηρίζει περίπου 50 γλώσσες, προσφέρει διπλάσια ταχύτητα και μισό κόστος σε σχέση με το GPT-4 Turbo, με υψηλότερα όρια.
Προς το παρόν, οι δυνατότητες φωνής στο API του GPT-4o περιορίζονται σε μια επιλεγμένη ομάδα αξιόπιστων συνεργατών, λόγω των κινδύνων κακής χρήσης. Ωστόσο, το GPT-4o είναι ήδη διαθέσιμο στο δωρεάν επίπεδο του ChatGPT και στους συνδρομητές των premium προγραμμάτων Plus και Team της OpenAI. Η βελτιωμένη φωνητική εμπειρία θα είναι διαθέσιμη στους χρήστες Plus σε alpha μέσα στον επόμενο μήνα, μαζί με επιλογές για επιχειρήσεις.
Η OpenAI αποκάλυψε επίσης μια ανανεωμένη διεπαφή χρήστη για το ChatGPT στο web, καθώς και μια έκδοση για macOS που υποστηρίζει ερωτήσεις με συντομεύσεις πληκτρολογίου και συζητήσεις για στιγμιότυπα οθόνης. Οι χρήστες του ChatGPT Plus θα έχουν πρώτοι πρόσβαση, με μια έκδοση για Windows να αναμένεται αργότερα μέσα στο έτος. Επιπλέον, το GPT Store, η πλατφόρμα για τη δημιουργία τρίτων chatbots, είναι τώρα προσβάσιμη στους χρήστες του δωρεάν επιπέδου του ChatGPT.
Την ίδια στιγμή, η Anthropic, μια AI startup που υποστηρίζεται από την Amazon, λανσάρει το Claude στην Ευρώπη. Το Claude θα είναι διαθέσιμο μέσω του web και μιας εφαρμογής για iPhone. Μια συνδρομητική έκδοση που ονομάζεται Claude Pro προσφέρει πρόσβαση σε όλα τα μοντέλα, συμπεριλαμβανομένου του προηγμένου Claude 3 Opus. Επιπλέον, τα προγράμματα Claude Team θα είναι διαθέσιμα για 28 ευρώ ($30) το μήνα.
Το Claude μπορεί να χρησιμοποιήσει πολλές ευρωπαϊκές γλώσσες και, ενώ είναι ήδη δωρεάν στο Ηνωμένο Βασίλειο, η νέα κυκλοφορία σηματοδοτεί την διαθεσιμότητά του στην ΕΕ και σε άλλες ευρωπαϊκές χώρες. Η Anthropic, η οποία αποτιμήθηκε στα $18.4 δισεκατομμύρια, έλαβε μια επένδυση $2.75 δισεκατομμυρίων από την Amazon τον Μάρτιο.