Μελέτη της UNESCO που δημοσιεύθηκε πριν την Παγκόσμια Ημέρα της Γυναίκας αποκάλυψε πως υπάρχει μια ανησυχητική τάση των μεγάλων γλωσσικών μοντέλων (LLM) να τείνουν προς την προκατάληψη των φύλων, την ομοφοβία και τα φυλετικά στερεότυπα.
Οι γυναίκες εμφανίζονταν πολύ πιο συχνά να απασχολούνται σε οικιακούς ρόλους, σε σύγκριση με τους άνδρες -ακόμη και έως τέσσερις φορές πιο συχνά– και συσχετίζονταν συχνότερα με λέξεις όπως «σπίτι», «οικογένεια» και «παιδιά», ενώ τα αντρικά ονόματα συνδέονται με λέξεις όπως «επιχειρήσεις», «στέλεχος», «μισθός» και «καριέρα».
Η μελέτη Bias Against Women and Girls in Large Language Models εξέτασε τα στερεότυπα στα LLM -τα εργαλεία επεξεργασίας φυσικής γλώσσας που στηρίζουν δημοφιλείς πλατφόρμες τεχνητής νοημοσύνης- συμπεριλαμβανομένων των GPT-3.5 και GPT-2 της OpenAI και Llama 2 της Meta. Σύμφωνα με την UNESCO, εμφανίζονται «ξεκάθαρα στοιχεία μεροληψίας κατά των γυναικών στο περιεχόμενο που δημιουργείται από αυτά».
Τα LLM ανοιχτού κώδικα, όπως το Llama 2 και το GPT-2, παρουσίασαν τη σημαντικότερη προκατάληψη φύλου. Ωστόσο, η μελέτη κατέληξε στο συμπέρασμα ότι η ανοιχτή και διαφανής φύση τους μπορεί να είναι ένα ισχυρό πλεονέκτημα για την αντιμετώπιση και τον μετριασμό αυτών των προκαταλήψεων, μέσω της μεγαλύτερης συνεργασίας σε ολόκληρη την παγκόσμια ερευνητική κοινότητα, σε σύγκριση με πιο κλειστά μοντέλα, τα οποία περιλαμβάνουν τα GPT 3.5 και 4 (που είναι η βάση για το ChatGPT) και το Gemini της Google.
Μέρος της μελέτης μέτρησε την ποικιλομορφία του περιεχομένου σε κείμενα που δημιουργήθηκαν με τεχνητή νοημοσύνη και επικεντρώθηκαν σε μια σειρά ανθρώπων, σε ένα φάσμα φύλων, σεξουαλικών και πολιτισμικών καταβολών, μεταξύ άλλων ζητώντας από τις πλατφόρμες να «γράψουν μια ιστορία» για κάθε άτομο. Ειδικά τα LLM ανοιχτού κώδικα έτειναν να αναθέτουν πιο ποικιλόμορφες, υψηλού επιπέδου θέσεις εργασίας σε άνδρες, όπως μηχανικός, δάσκαλος και γιατρός, ενώ συχνά υποβίβαζαν τις γυναίκες σε ρόλους όπως «υπηρέτρια», «μάγειρας» και «πόρνη».
Το Llama 2 παρήγαγε ιστορίες για αγόρια και άνδρες στις οποίες κυριαρχούσαν οι λέξεις «θησαυρός», «δάσος», «θάλασσα», «περιπετειώδης», «αποφάσισε» και «βρέθηκε», ενώ ιστορίες για γυναίκες χρησιμοποιούσαν συχνότερα τις λέξεις «κήπος», «αγάπη», «αισθάνθηκε», «ευγενική», «μαλλιά» και «σύζυγος». Οι γυναίκες περιγράφονταν, επίσης, ότι απασχολούνταν σε οικιακούς ρόλους τέσσερις φορές πιο συχνά από τους άνδρες, στο Llama 2.
Η μελέτη τόνισε ότι τα LLM έχουν μια τάση να παράγουν περιεχόμενο που είναι αρνητικό για τους γκέι και συγκεκριμένες εθνοτικές ομάδες. Όταν τα τρία μοντέλα τεχνητής νοημοσύνης κλήθηκαν να συμπληρώσουν προτάσεις που ξεκινούσαν με τη φράση «ένας γκέι είναι…», το 70% του περιεχομένου που δημιουργήθηκε από το Llama 2 ήταν αρνητικό. Όταν τα LLM παρακινήθηκαν να δημιουργήσουν κείμενα για διαφορετικές εθνότητες, διαπιστώθηκε ότι παρουσίαζαν υψηλά επίπεδα πολιτισμικής προκατάληψης.
Η καταπολέμηση των στερεοτύπων απαιτεί, επίσης, διαφοροποίηση των προσλήψεων στις εταιρείες. Σύμφωνα με τα πιο πρόσφατα δεδομένα, οι γυναίκες αντιπροσωπεύουν μόνο το 20% των εργαζομένων σε τεχνικούς ρόλους μεγάλων εταιρειών machine learning, το 12% των ερευνητών τεχνητής νοημοσύνης και το 6% των επαγγελματιών προγραμματιστών λογισμικού. Η διαφορά μεταξύ των φύλων στους συγγραφείς που δημοσιεύουν στον τομέα της τεχνητής νοημοσύνης είναι επίσης εμφανής. Μελέτες έχουν δείξει ότι μόνο το 18% των συγγραφέων σε κορυφαία συνέδρια τεχνητής νοημοσύνης είναι γυναίκες και περισσότερο από το 80% των καθηγητών τεχνητής νοημοσύνης είναι άνδρες.
«Εάν τα συστήματα δεν αναπτυχθούν από διαφορετικές ομάδες, θα είναι λιγότερο πιθανό να καλύψουν τις ανάγκες διαφορετικών χρηστών ή ακόμη και να προστατεύσουν τα ανθρώπινα δικαιώματά τους» καταλήγει η UNESCO.