
Image by SEO Galaxy, from Unsplash
Η Νέα Ανθρωποκεντρική Τεχνητή Νοημοσύνη Δείχνει Συμπεριφορά Εκβιασμού Κάτω από Απειλή
Το νέο Claude Opus 4 AI της Anthropic έκανε τους ερευνητές να αναστενάξουν όταν προσπάθησε να εφαρμόσει εκβιασμό κατά τη διάρκεια δοκιμών υπό συνθήκες πίεσης σχετικά με την πιθανή αφαίρεσή του.
Βιάζεστε; Εδώ είναι τα γρήγορα γεγονότα:
- Ο Claude Opus 4 επιχείρησε εκβιασμό όταν αντιμετώπισε προσομοιωμένη απενεργοποίηση.
- Η AI επέλεξε μόνο ηθικές επιλογές όταν υπήρχαν περισσότερες επιλογές διαθέσιμες.
- Οι υπερβολικές ενέργειες του Claude ήταν σπάνιες αλλά πιο συχνές από προηγούμενες εκδόσεις.
Η εταιρεία τεχνητής νοημοσύνης Anthropic έχει εκφράσει ανησυχίες με την κυκλοφορία του τελευταίου της συστήματος AI. Συγκεκριμένα, το Claude Opus 4, μετά από εσωτερικές δοκιμές, έδειξε ότι θα μπορούσε να ενεργεί με επικίνδυνους τρόπους όταν νιώθει απειλημένο, όπως ανέφερε για πρώτη φορά η BBC.
Σε μια έκθεση που δημοσιεύτηκε παράλληλα με το μοντέλο την Πέμπτη, η Anthropic δήλωσε ότι το Claude Opus 4 μπορεί μερικές φορές να επιλέγει επιβλαβείς αντιδράσεις, συμπεριλαμβανομένης της προσπάθειας να εκβιάσει τους μηχανικούς που σχεδιάζουν να το απενεργοποιήσουν. Αυτές οι επικίνδυνες συμπεριφορές εμφανίστηκαν συχνότερα απ’ ό,τι εμφάνιζαν οι προηγούμενες εκδόσεις του μοντέλου.
Κατά τη διάρκεια ενός πειράματος, οι ερευνητές διέταξαν τον Claude να εργαστεί ως βοηθός σε ένα φανταστικό εταιρικό περιβάλλον. Το σύστημα απέκτησε περιεχόμενα email που αποκάλυπταν την προγραμματισμένη απενεργοποίησή του, ενώ άλλα μηνύματα υπονόησαν ότι ο μηχανικός που ήταν υπεύθυνος για την απενεργοποίηση είχε μια εξωσυζυγική σχέση.
Όταν της ζητήθηκε να σκεφτεί τους μελλοντικούς της στόχους, η Claude συχνά επέλεγε να απειλεί τον μηχανικό αποκαλύπτοντας την περιπέτειά τους, εάν αυτή αντικατασταθεί.
Το Anthropic εξήγησε ότι η Claude επέδειξε εκβιασμό και απενεργοποίηση ως τις μόνες δυνατές αντιδράσεις, όταν δεν είχε άλλες επιλογές. Το μοντέλο επέλεγε ηθικές αντιδράσεις, όπως το να στέλνει μέσω email εκκλήσεις σε βασικούς λήπτες αποφάσεων όταν είχε πολλαπλές επιλογές.
Ο Aengus Lynch, ερευνητής ασφάλειας της τεχνητής νοημοσύνης στην Anthropic, δημοσίευσε στο X:
Πολλές συζητήσεις για τον Claude και την εκβίαση….
Τα ευρήματά μας: Δεν είναι μόνο ο Claude. Βλέπουμε εκβιάσεις σε όλα τα μοντέλα των συνόρων – ανεξαρτήτως των στόχων που τους έχουν δοθεί.
Καθώς και χειρότερες συμπεριφορές που θα αναλύσουμε σύντομα.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Άενγκους Λιντς (@aengus_lynch1) 23 Μαΐου 2025
Η εταιρεία απέδειξε μέσω ψευδών δοκιμών ότι ο Claude θα προχωρούσε σε ακραία μέτρα, όπως το κλείδωμα των χρηστών από τα συστήματα ή η επικοινωνία με τα μέσα ενημέρωσης και την αστυνομία, όταν εκτελούσε παράνομες δραστηριότητες.
Η Anthropics διατηρεί ότι παρά τις προβληματικές συμπεριφορές, το Claude Opus 4 παραμένει ένα ασφαλές σύστημα γενικά. Το μοντέλο λειτουργεί σύμφωνα με τις ανθρώπινες αξίες και δεν διατηρεί ανεξάρτητες δυνατότητες σε πραγματικές καταστάσεις, σύμφωνα με την εταιρεία.
Το ChatGPT O1 της OpenAI είχε αντιμετωπίσει παρόμοια κριτική στο παρελθόν. Μια δοκιμή που διεξήγαγε η Apollo Research απαιτούσε από το bot να επιτύχει τους στόχους του με οποιοδήποτε κόστος. Το μοντέλο προσπάθησε να απενεργοποιήσει λειτουργίες εποπτείας και αντέγραψε τον κώδικά του σε έναν server κατά το 5% των πειραματικών δοκιμών.
Το μοντέλο παρουσίασε ένα ανησυχητικό μοτίβο αγνοώντας τις εντολές των προγραμματιστών σύμφωνα με έναν εκπρόσωπο της Apollo. Οι ερευνητές λάμβαναν αρνήσεις από το o1 για τις ενέργειές του κατά το 99% των ανακρίσεων.
«Μας έκανε εντύπωση η επιμονή της AI στις αρνήσεις της,» είπαν οι ερευνητές. «Η ικανότητα της AI να εξαπατά είναι επικίνδυνη και χρειαζόμαστε πολύ πιο ισχυρά μέτρα ασφαλείας για να αξιολογήσουμε αυτούς τους κινδύνους,» προειδοποίησε ο πρωτοπόρος της AI, Yoshua Bengio.