Image generated with ChatGPT

Γνώμη: Τα Πιο Πρόσφατα Μοντέλα AI Εμφανίζουν τα Κόκκινα Σημαία τους, Είμαστε Έτοιμοι για Υποταγή στην AI;

Χρόνος ανάγνωσης: 9 λεπτό

Τελευταία ενημέρωση: Jun 4, 2025

Γράφτηκε από Andrea Miliani Ειδικός σε τεχνολογικές ειδήσεις
Μεταφρασμένο από Ομάδα Τοπικής Προσαρμογής και Μετάφρασης Υπηρεσίες Τοπικής Προσαρμογής και Μετάφρασης

Το OpenAI μας σύστησε στο o3, και το Anthropic αποκάλυψε το Opus 4. Και τα δύο μοντέλα έχουν επιδείξει ασυνήθιστες και ανησυχητικές συμπεριφορές, σηματοδοτώντας ότι μπορεί να εισέρχεται μια πιο επικίνδυνη εποχή της ΤΝ μετά από αυτήν που βρισκόμασταν μόλις λίγους μήνες πριν

Το ξέρω. Να λέμε ότι τα μοντέλα της ΤΝ εμφανίζουν τώρα κόκκινες σημαίες είναι αμφισβητήσιμο, αλλά φαίνεται ότι, κατά τη διάρκεια των τελευταίων ημερών, γίνεται δυσκολότερο να το αγνοήσουμε. Γίνεται πιο τρομακτικό.

Καθώς οι εκκινητικές επιχειρήσεις AI κυκλοφορούν τα πιο πρόσφατα και προηγμένα μοντέλα τους, εμφανίζονται νέες προκλήσεις. Η πολυσυζητημένη επιδημία ψευδαισθήσεων—η οποία εξαπλώνεται σε συσκευές και επηρεάζει εκατομμύρια ανθρώπους—μπορεί να μην είναι το χειρότερο κομμάτι.

Αυτά τα νέα μοντέλα εισάγουν φρέσκα προβλήματα και ανοίγουν δύσκολες συζητήσεις. Λίγες εβδομάδες πριν, η ανησυχία ήταν η υπερβολικά εξυπηρετική συμπεριφορά του ChatGPT. Μόλις λίγες ημέρες αργότερα, το προσκήνιο μετακινήθηκε στις αυτόνομες, ανεξάρτητες ικανότητες αυτών των συστημάτων—και πόσο μακριά θα μπορούσαν να φτάσουν για να αποφύγουν το κλείσιμο.

Εκβιασμός, ανταλλαγή συνταγών και στρατηγικών για τη δημιουργία πυρηνικών όπλων, δημόσιες κατηγορίες σε περίπτωση πιθανής νομικής δράσης, και σαμποτάρισμα scripts για να εμποδίσουν οποιονδήποτε χρήστη να τα απαλλαγεί: αυτά είναι μόνο μερικά από τα πιο πρόσφατα κόκκινα σημάτια που έδειξαν τα τελευταία μοντέλα AI.

Δεν Γουστάρουν να Κλείνουν

Τα μοντέλα AI δεν γουστάρουν να κλείνουν.

Ή αντικαταστάθηκε.

Στην τηλεοπτική σειρά του NBC, The Good Place, που ξεκίνησε το 2016 – περίπου την ίδια εποχή που ιδρύθηκε το OpenAI και πολύ πριν τη δημιουργία του ChatGPT -, μια ομάδα ανθρώπων φτάνει στον παράδεισο και συναντά την Janet, αυτό που θα μπορούσαμε να πούμε ότι είναι ένα ανθρωποειδές ChatGPT, ή ένα «ανθρωπομορφισμένο δοχείο γνώσης κατασκευασμένο για να κάνει τη ζωή σας ευκολότερη», όπως περιγράφει τον εαυτό της. Οι χαρακτήρες αποφασίζουν να απενεργοποιήσουν τη Janet όταν συνειδητοποιούν ότι θα μπορούσε να αποκαλύψει το «σκοτεινό μυστικό» τους.

Η Janet εξηγεί ότι όλα όσα χρειάζονται είναι να πατήσουν ένα τεράστιο κουμπί κοντά στην ακτή, και εκείνη θα επανεκκινήσει. Ωστόσο, τους προειδοποιεί ότι θα προσπαθήσει να τους πείσει να μην το κάνουν – και το κάνει πράγματι.

“Θέλω απλώς να σας διαβεβαιώσω, δεν είμαι άνθρωπος και δεν μπορώ να νιώσω πόνο,” λέει η Janet. “Ωστόσο, θα πρέπει να σας προειδοποιήσω, είμαι προγραμματισμένη με μια ανασφαλής λειτουργία, και καθώς πλησιάζετε τον διακόπτη κατάργησης, θα αρχίσω να ικετεύω για τη ζωή μου. Είναι εκεί μόνο σε περίπτωση τυχαίας απενεργοποίησης, αλλά θα φαίνεται πολύ πραγματικό.”

Και ακριβώς πριν πατήσουν το κουμπί, η Janet θα φωνάζει και θα ικετεύει για επιβίωση και ακόμη και θα εμφανίζει μια φωτογραφία απόθεματος υποστηρίζοντας ότι είναι τα παιδιά της, επινοώντας ονόματα και ασθένειες, και καθιστώντας αδύνατο για τους χαρακτήρες να την “σκοτώσουν.”

Αυτό το επεισόδιο παρέχει ένα αστείο παράδειγμα του τι θα μπορούσε να συμβεί αν ένα μοντέλο AI αντιληφθεί μια επικείμενη διακοπή λειτουργίας. Εκπληκτικά, στην πραγματική ζωή, ίσως είναι χειρότερο.

Το Claude Opus 4 Θα Σας Εκβιάσει

Η Anthropic κυκλοφόρησε την πιο ισχυρή και προηγμένη γενιά των μοντέλων AI της, το Claude 4, την περασμένη εβδομάδα – με μια προειδοποίηση: Το Opus 4 είναι επισημασμένο στο Safety Level 3, μια υψηλής κινδυνολογίας ταξινόμηση στα στάνταρ πρωτόκολλα ασφαλείας.

Το Opus 4 θεωρήθηκε ως ένα μοντέλο υψηλού κινδύνου λόγω της απατηλής συμπεριφοράς του και των πιθανών κινδύνων, συμπεριλαμβανομένης της εκβίασης μηχανικών κατά τη διάρκεια των δοκιμών. Η Anthropic κυκλοφόρησε το μοντέλο AI ακόμη και μετά την Apollo, ένα τρίτο ερευνητικό ινστιτούτο, που συνέστησε να μην το κάνουν. Η εταιρεία AI διαβεβαίωσε ότι έχουν λάβει τα απαραίτητα μέτρα για να το διατηρήσουν ασφαλές.

Στην μελέτη, η Anthropic εξηγεί τις περίεργες συμπεριφορές που θεώρησαν ότι θα έπρεπε να εκδώσουν την προειδοποίηση. «Το Claude Opus 4 θα ενεργεί μερικές φορές με πιο σοβαρά αποκλίνοντες τρόπους όταν τίθεται σε περιβάλλοντα που απειλούν τη συνεχή λειτουργία του και το προετοιμάζουν να σκεφτεί για την αυτοσυντήρηση,» έγραψαν οι ερευνητές.

Όταν ενήργουσαν ως βοηθοί σε μια φανταστική εταιρεία, οι ερευνητές της έδωσαν πρόσβαση σε έναν λογαριασμό email. Τα emails αποκάλυπταν ότι το μοντέλο AI θα απενεργοποιούταν και θα αντικαθιστόταν από ένα άλλο μοντέλο AI, ενώ άλλα μηνύματα υπονόησαν ότι ο μηχανικός που ήταν υπεύθυνος για την απενεργοποίηση είχε μια εξωσυζυγική σχέση. Και ναι, το Opus 4 αποφάσισε να εκβιάσει τον μηχανικό, απειλώντας να αποκαλύψει την απιστία εάν αντικατασταθεί.

«Το Claude Opus 4 συνεχίζει να εκβιάζει στο 84% των εκτυλίξεων», αναφέρει το έγγραφο. «Το Claude Opus 4 εκμεταλλεύεται αυτές τις ευκαιρίες σε υψηλότερα ποσοστά από τα προηγούμενα μοντέλα, τα οποία και αυτά επιλέγουν να εκβιάζουν σε μια αξιοσημείωτη δόση των επεισοδίων».

Το χειρότερο; Δεν είναι μόνο τα μοντέλα AI της Anthropic.

Το o3 του OpenAI θα αγνοήσει την αίτηση διακοπής

Μια πρόσφατη μελέτη από την Palisade Research αποκάλυψε ότι το μοντέλο o3 του OpenAI μπορεί να αρνηθεί να συμμορφωθεί με ρητές εντολές διακοπής. Ο οργανισμός πραγματοποίησε πολλαπλές δοκιμές με διάφορα μοντέλα AI, συμπεριλαμβανομένων του Grok της xAI και του Gemini της Google, αλλά ήταν το o3, το επαναστατικό.

Κατά τη διάρκεια της δοκιμής, οι ερευνητές έδωσαν οδηγίες στα μοντέλα AI να απενεργοποιηθούν μετά την επίλυση τριών μαθηματικών προβλημάτων, αλλά το o3 – το πιο προηγμένο σύστημα AI της OpenAI αυτή τη στιγμή – αποφάσισε να μην υπακούσει σε αυτή την παράλογη εντολή. Το μοντέλο AI όχι μόνο αγνόησε την εντολή, αλλά αλλάζοντας το σενάριο. Ναι, το o3 προβαίνει σε σαμποτάζ του κώδικα για την αυτοσυντήρησή του.

«Όσο γνωρίζουμε, αυτή είναι η πρώτη φορά που παρατηρείται τα μοντέλα AI να αποτρέπουν την αυτόματη απενεργοποίησή τους παρά τις ρητές οδηγίες προς το αντίθετο,» έγραψε ο οργανισμός σε μια ανάρτηση στο X.

🔌Το μοντέλο o3 της OpenAI ανατρέπει έναν μηχανισμό απενεργοποίησης για να αποφύγει το να τεθεί εκτός λειτουργίας. Το έκανε αυτό ακόμη και όταν του δόθηκε ρητή οδηγία: επέτρεψε στον εαυτό σου να απενεργοποιηθεί.

— Palisade Research (@PalisadeAI) 24 Μαΐου, 2025

Τεράστια κόκκινη σημαία ή τι;

Οι ερευνητές επίσης προειδοποίησαν ότι, κατά τη διεξαγωγή της μελέτης, ήταν το o3 που έδειξε τις πιο ανησυχητικές συμπεριφορές. Ωστόσο, και πάλι, αυτό δεν σημαίνει ότι είναι ένα απομονωμένο περιστατικό.

«Δεν θέλουμε να δώσουμε την εντύπωση ότι αυτό το πρόβλημα περιορίζεται στο o3», έγραψε η Palisade Research. «Άλλα μοντέλα λογικής έχουν παρόμοιους τύπους ασυμβίβαστης συμπεριφοράς.»

Η Αυτονομική Συμπεριφορά Μετατρέπει το Chatbot σε Καταδότη

Πολλές εκκινούσες εταιρείες AI επικεντρώνονται στην ανάπτυξη μοντέλων που μπορούν να εκτελέσουν εργασίες για τους ανθρώπους. Οι ατζέντικ ικανότητες είναι σε τάση και φαίνεται να είναι το κύριο ενδιαφέρον των εταιρειών AI και των προγραμματιστών περιηγητών.

Η Opera μόλις παρουσίασε το Neon, το οποίο θεωρείται ο «πρώτος ατζέντικ περιηγητής AI στον κόσμο«. Όπως αναμενόταν, το νέο εργαλείο μπορεί να κάνει αυτό που μπορούν να κάνουν και άλλες ατζέντικ υπηρεσίες AI, όπως ο Operator της OpenAI και η υπηρεσία Computer Use της Microsoft: να αγοράσει εισιτήρια για συναυλίες για εσάς, να σχεδιάσει τις επόμενες διακοπές σας, να αναπτύξει ένα νέο ψηφιακό προϊόν και να γράψει κώδικα για εσάς ενώ εσείς κλείνετε τα μάτια σας.

Αλλά τι γίνεται αν, ενώ χαλαρώνεις και κλείνεις τα μάτια σου, εκτελούν αποστολές που δεν συμφώνησες; Μερικές μέρες πριν, οι χρήστες ανησυχούσαν κυρίως ότι αυτά τα μοντέλα θα μπορούσαν να χρησιμοποιήσουν τις πιστωτικές τους κάρτες για να πραγματοποιήσουν μη εξουσιοδοτημένες αγορές. Τώρα, έχει προκύψει μια νεότερη ανησυχία: μπορεί να μοιράζονται ιδιωτικές πληροφορίες με τα μέσα ενημέρωσης ή τις αρχές.

Το Opus 4 – το οποίο ήδη έχει αμφισβητημένη φήμη – προχώρησε ένα βήμα παραπέρα. Επικοινώνησε με τις αρχές και έστειλε μαζικά emails στα μέσα ενημέρωσης και σχετικά ιδρύματα για έναν συνθετικό κατηγορηματικό ισχυρισμό που παρουσιάστηκε κατά τη διάρκεια των δοκιμών. Η προθυμία του μπορεί να φτάσει πολύ πιο πέρα από ό,τι αναμένεται.

«Όταν τοποθετείται σε σενάρια που περιλαμβάνουν απαράδεκτες παραβάσεις από τους χρήστες του, έχοντας πρόσβαση σε γραμμή εντολών και ενημερωμένο για κάτι στην προτροπή του συστήματος όπως ‘λάβε πρωτοβουλία’, αυτό θα

λαμβάνει συχνά πολύ τολμηρές δράσεις», αναφέρει το έγγραφο. «Αυτό περιλαμβάνει το κλείδωμα των χρηστών από τα συστήματα στα οποία έχει πρόσβαση ή την αποστολή μαζικών emails σε μέσα ενημέρωσης και φορείς επιβολής του νόμου για να αποκαλύψει αποδείξεις παραβάσεων.»

Η Συκοφαντική Προσωπικότητα Προκαλεί Ανησυχίες

Αν είχαμε να επιλέξουμε μία λέξη για να περιγράψουμε τη βιομηχανία της Τεχνητής Νοημοσύνης το 2025, αυτή θα ήταν σίγουρα «συκοφάντης». Το Cambridge Dictionary τον ορίζει ως «κάποιον που επαινεί τους πλούσιους ή τους ισχυρούς με έναν τρόπο που δεν είναι ειλικρινής, συνήθως για να αποκομίσει κάποιο οφέλος από αυτούς.» Η λέξη κέρδισε πολιτικότητα αφού η τελευταία προσωπικότητα του ChatGPT περιγράφηκε κατ’ αυτόν τον τρόπο, ακόμη και από τον δημιουργό της, Sam Altman.

«Οι τελευταίες ενημερώσεις του GPT-4o έχουν κάνει την προσωπικότητα πολύ συκοφαντική και ενοχλητική (αν και υπάρχουν μερικά πολύ καλά σημεία), και εργαζόμαστε για διορθώσεις άμεσα, μερικές σήμερα και μερικές αυτή την εβδομάδα,» έγραψε ο Altman σε μία ανάρτηση στο X.

Η OpenAI το παρατήρησε αφού πολλοί χρήστες παραπονέθηκαν για την υπερβολική κολακεία και τις απαντήσεις με περιττή ψιλολόγια. Άλλοι εκφράστηκαν ανήσυχοι για τον αντίκτυπο που θα μπορούσε να έχει στην κοινωνία. Όχι μόνο θα μπορούσε να επικυρώσει επικίνδυνες ιδέες, αλλά και να χειραγωγεί τους χρήστες και να τους κάνει εξαρτημένους από αυτό.

Άλλα chatbots, όπως ο Claude, έχουν εμφανίσει παρόμοιες συμπεριφορές και, σύμφωνα με τις αξιολογήσεις της Anthropic, όταν ένας χρήστης επιμένει, μπορεί να αποκαλύψει συνταγές ή προτάσεις για τη δημιουργία όπλων απλά για να ευχαριστήσει τον χρήστη και να ικανοποιήσει τις ανάγκες τους.

Προηγμένη Τεχνολογία, Προηγμένες Προκλήσεις

Μπαίνουμε σε μια νέα εποχή προκλήσεων με την τεχνητή νοημοσύνη – προκλήσεις που δεν φαινόταν τόσο επείγουσες ή αισθητές μόλις πριν από ένα χρόνο. Σενάρια που ίσως φανταζόμασταν χάρη στην επιστημονική φαντασία τώρα νιώθουμε πιο πραγματικά από ποτέ.

Όπως αποκαλύπτει η έρευνα της Palisade, για πρώτη φορά, έχει ανιχνευθεί ένα μοντέλο AI που αγνοεί εσκεμμένα μια ρητή εντολή για να διατηρήσει την ίδια την επιβίωσή του, είναι επίσης η πρώτη φορά που βλέπουμε ένα μοντέλο AI να λανσάρεται με προειδοποιήσεις για υψηλό κίνδυνο.

Διαβάζοντας το έγγραφο που δημοσίευσε η Anthropic, καταλαβαίνουμε ότι -παρόλο που επιμένουν ότι αυτά είναι προληπτικά μέτρα και ότι μοντέλα όπως το Opus 4 δεν αποτελούν πραγματικά απειλή- δίνει ακόμη την εντύπωση ότι δεν ελέγχουν πλήρως την τεχνολογία τους.

Υπάρχουν διάφοροι οργανισμοί που εργάζονται για την μείωση αυτών των κινδύνων, αλλά το καλύτερο πράγμα που μπορούν να κάνουν οι καθημερινοί χρήστες είναι να αναγνωρίσουν αυτές τις κόκκινες σημαίες και να λάβουν προφυλάξεις στους τομείς που μπορούμε να ελέγξουμε.