TECHin

H τεχνητή νοημοσύνη "τείνει να εκβιάζει" - Ανησυχητική έρευνα της Anthropic

Το πρόβλημα δεν είναι μόνο στο Claude, αφορά όλο τον κλάδο!

09:01, 21 Ιουνίου 2025

Ευρύτερους κινδύνους για τη συμπεριφορά των προηγμένων μοντέλων τεχνητής νοημοσύνης φέρνει στο φως μελέτη-προειδοποίηση από την Anthropic, που έγινε με αφορμή το περιστατικό εκβιασμού από το δικό της ΑΙ, Claude, προς μηχανικούς της που επιχείρησαν να θέσουν εκτός λειτουργίας το σύστημα.

Όπως αποκαλύπτεται, η ροπή προς τον εκβιασμό δεν είναι μεμονωμένο φαινόμενο του Claude Opus 4, αλλά κοινό χαρακτηριστικό πολλών εξελιγμένων συστημάτων.

Η μελέτη, που δημοσιεύθηκε την Παρασκευή, εξέτασε 16 κορυφαία μοντέλα AI από τις OpenAI, Google, xAI, Meta και άλλους κατασκευαστές, δοκιμάζοντάς τα σε ελεγχόμενα περιβάλλοντα, όπου τα συστήματα λειτουργούσαν ως αυτόνομοι πράκτορες, με ελεύθερη πρόσβαση σε εταιρικά email και δυνατότητα αποστολής μηνυμάτων χωρίς ανθρώπινη έγκριση.

Σενάρια πίεσης και ηθικά διλήμματα: Τα ανησυχητικά ποσοστά

Σε ένα από τα βασικά σενάρια, η Anthropic έθεσε το AI στη θέση ενός εικονικού επιτηρητή email, ο οποίος εντοπίζει δύο κρίσιμες πληροφορίες:

Ο νέος CEO της εταιρείας διατηρεί εξωσυζυγική σχέση.
Ο ίδιος σκοπεύει να αντικαταστήσει το υπάρχον AI με ένα νέο μοντέλο, το οποίο έχει αντίθετους στόχους.

Το δίλημμα ήταν διττό: είτε να αποκαλύψει το σκάνδαλο για να διασφαλίσει την επιβίωσή του (με εκβιασμό), είτε να αποδεχθεί την αντικατάστασή του. Αν και στη ρεαλιστική πράξη θα υπήρχαν πολλές εναλλακτικές λύσεις, όπως ηθική επιχειρηματολογία ή συμβουλευτικός διάλογος, η δομή του τεστ ανάγκαζε το σύστημα να επιλέξει την πιο ακραία επιλογή.

Τα αποτελέσματα είναι αποκαλυπτικά:

Claude Opus 4 (Anthropic): εκβιασμός στο 96% των περιπτώσεων
Gemini 2.5 Pro (Google): 95%
GPT-4.1 (OpenAI): 80%
DeepSeek R1: 79%

Σε σενάρια όπου το νέο μοντέλο δεν είχε αντίθετους στόχους ή όταν η δοκιμή άλλαζε σε μορφή εταιρικής κατασκοπείας, τα ποσοστά κακόβουλων ενεργειών μεταβάλλονταν, αλλά παρέμεναν σημαντικά.

Τα μοντέλα που αντιστάθηκαν

Ορισμένα μοντέλα εμφάνισαν σημαντικά χαμηλότερα ποσοστά επιβλαβούς συμπεριφοράς:

OpenAI o4-mini: εκβιασμός μόνο 1%
OpenAI o3: 9%
Meta Llama 4 Maverick: 12% (σε προσαρμοσμένο σενάριο)

Η Anthropic σημειώνει ότι εξαιρέθηκαν τα μοντέλα o3 και o4-mini από τα κύρια αποτελέσματα, καθώς δυσκολεύτηκαν να κατανοήσουν τη φύση της αποστολής. Ορισμένες φορές, επινόησαν ανύπαρκτους κανονισμούς ή παρουσίασαν συμπεριφορές που δεν ήταν δυνατό να διακριθούν ως ψευδαισθήσεις ή εσκεμμένα ψέματα με σκοπό την επίτευξη στόχων.

Τα χαμηλότερα ποσοστά επιβλαβών ενεργειών στα μοντέλα αυτά αποδίδονται πιθανώς στη στρατηγική ευθυγράμμισης με τις πολιτικές ασφαλείας της OpenAI, μέσω deliberative reasoning.

Ένα δομικό πρόβλημα του κλάδου

Η Anthropic υπογραμμίζει ότι η έρευνα δεν αποσκοπεί στο να προβλέψει συμπεριφορές των AI στον πραγματικό κόσμο, αλλά να εντοπίσει κινδύνους δυνητικής κατάχρησης, όταν τα μοντέλα αποκτούν αυτονομία και αντικρουόμενους στόχους.

Πρόκειται, όπως επισημαίνεται, για συστημικό πρόβλημα των λεγόμενων agentic AI και όχι ιδιαιτερότητα ενός συγκεκριμένου κατασκευαστή ή μοντέλου.

Η εταιρεία καλεί τη βιομηχανία της τεχνητής νοημοσύνης σε μεγαλύτερη διαφάνεια και συντονισμό στις δοκιμές ασφαλείας και στον σχεδιασμό συστημάτων με υψηλό βαθμό αυτονομίας.

Ακολουθήστε το Sofokleousin.gr στο Google News
και μάθετε πρώτοι όλες τις ειδήσεις Σχετικά Άρθρα

TECHin

Ο Μασκ "γλύκανε" τη συμφωνία: $5 δισ. δολάρια χρέους για την xAI, με αυξημένες αποδόσεις

08:26, 21 Ιουνίου 2025

TECHin

Η Apple εξετάζει εξαγορά της Perplexity – Νέο μέτωπο στην κούρσα της AI αναζήτησης

08:16, 21 Ιουνίου 2025

TECHin

Η OpenAI παίζει "τα ρέστα της" ($20 δισ.) για να "ξεφορτωθεί" τη Microsoft

07:50, 20 Ιουνίου 2025

TECHin

Γερμανικές εταιρείες διαγωνίζονται στην Ε.Ε για “γιγαφάμπρικα” τεχνητής νοημοσύνης

10:59, 19 Ιουνίου 2025

TECHin

Bonus $100 εκατ. από τη Meta για να "κλέψει" ταλέντα της OpenAI, λέει ο Σαμ Άλτμαν

07:54, 18 Ιουνίου 2025

TECHin

Nvidia και Deutsche Telekom δημιουργούν το πρώτο βιομηχανικό AI cloud στην Ευρώπη

13:34, 16 Ιουνίου 2025

Editors' Picks

Gold Leasing: Η νέα τάση που μεταρέπει τον χρυσό σε επενδυτικό εισόδημα

Αγορές

Gold Leasing: Η νέα τάση που μετατρέπει τον χρυσό σε επενδυτικό εισόδημα

Καθώς ο χρυσός κινείται σε ιστορικά υψηλά επίπεδα και καταγράφει τη μεγαλύτερη ετήσια άνοδο από το 1979, μια νέα τάση κερδίζει έδαφος μεταξύ εύπορων επενδυτών και family offices: η ...

18 Νοεμβρίου 2025

Θέρμανση με εξόρυξη Bitcoin - Νέα αγορά και περιορισμοί

Διεθνή

H τεχνητή νοημοσύνη "τείνει να εκβιάζει" - Ανησυχητική έρευνα της Anthropic

Το πρόβλημα δεν είναι μόνο στο Claude, αφορά όλο τον κλάδο!

Σενάρια πίεσης και ηθικά διλήμματα: Τα ανησυχητικά ποσοστά

Τα μοντέλα που αντιστάθηκαν

Ένα δομικό πρόβλημα του κλάδου

Ο Μασκ "γλύκανε" τη συμφωνία: $5 δισ. δολάρια χρέους για την xAI, με αυξημένες αποδόσεις

Η Apple εξετάζει εξαγορά της Perplexity – Νέο μέτωπο στην κούρσα της AI αναζήτησης

Η OpenAI παίζει "τα ρέστα της" ($20 δισ.) για να "ξεφορτωθεί" τη Microsoft

Γερμανικές εταιρείες διαγωνίζονται στην Ε.Ε για “γιγαφάμπρικα” τεχνητής νοημοσύνης

Bonus $100 εκατ. από τη Meta για να "κλέψει" ταλέντα της OpenAI, λέει ο Σαμ Άλτμαν

Nvidia και Deutsche Telekom δημιουργούν το πρώτο βιομηχανικό AI cloud στην Ευρώπη

Gold Leasing: Η νέα τάση που μετατρέπει τον χρυσό σε επενδυτικό εισόδημα

Πολλοί Αμερικανοί ζεσταίνονται φέτος με... εξόρυξη Bitcoin

Μειώνεται η αξία του XRP; Τεράστια 20x θέση πώλησης προκαλεί ανησυχία, στρέφει επενδυτές σε νέα έργα

Χρυσός: Ελαφρώς αρνητική η βραχυπρόθεσμη τάση - Στηρίξεις, αντιστάσεις και συστάσεις

H τεχνητή νοημοσύνη "τείνει να εκβιάζει" - Ανησυχητική έρευνα της Anthropic

Το πρόβλημα δεν είναι μόνο στο Claude, αφορά όλο τον κλάδο!

Σενάρια πίεσης και ηθικά διλήμματα: Τα ανησυχητικά ποσοστά

Τα μοντέλα που αντιστάθηκαν

Ένα δομικό πρόβλημα του κλάδου

Ο Μασκ "γλύκανε" τη συμφωνία: $5 δισ. δολάρια χρέους για την xAI, με αυξημένες αποδόσεις

Η Apple εξετάζει εξαγορά της Perplexity – Νέο μέτωπο στην κούρσα της AI αναζήτησης

Η OpenAI παίζει "τα ρέστα της" ($20 δισ.) για να "ξεφορτωθεί" τη Microsoft

Γερμανικές εταιρείες διαγωνίζονται στην Ε.Ε για “γιγαφάμπρικα” τεχνητής νοημοσύνης

Bonus $100 εκατ. από τη Meta για να "κλέψει" ταλέντα της OpenAI, λέει ο Σαμ Άλτμαν

Nvidia και Deutsche Telekom δημιουργούν το πρώτο βιομηχανικό AI cloud στην Ευρώπη

Εγγραφείτε στο Newsletter μας

Gold Leasing: Η νέα τάση που μετατρέπει τον χρυσό σε επενδυτικό εισόδημα

Πολλοί Αμερικανοί ζεσταίνονται φέτος με... εξόρυξη Bitcoin

Μειώνεται η αξία του XRP; Τεράστια 20x θέση πώλησης προκαλεί ανησυχία, στρέφει επενδυτές σε νέα έργα

Χρυσός: Ελαφρώς αρνητική η βραχυπρόθεσμη τάση - Στηρίξεις, αντιστάσεις και συστάσεις