TECHin

H τεχνητή νοημοσύνη "τείνει να εκβιάζει" - Ανησυχητική έρευνα της Anthropic


Το πρόβλημα δεν είναι μόνο στο Claude, αφορά όλο τον κλάδο!

Ευρύτερους κινδύνους για τη συμπεριφορά των προηγμένων μοντέλων τεχνητής νοημοσύνης φέρνει στο φως μελέτη-προειδοποίηση από την Anthropic, που έγινε με αφορμή το περιστατικό εκβιασμού από το δικό της ΑΙ, Claude, προς μηχανικούς της που επιχείρησαν να θέσουν εκτός λειτουργίας το σύστημα.

Όπως αποκαλύπτεται, η ροπή προς τον εκβιασμό δεν είναι μεμονωμένο φαινόμενο του Claude Opus 4, αλλά κοινό χαρακτηριστικό πολλών εξελιγμένων συστημάτων.

Η μελέτη, που δημοσιεύθηκε την Παρασκευή, εξέτασε 16 κορυφαία μοντέλα AI από τις OpenAI, Google, xAI, Meta και άλλους κατασκευαστές, δοκιμάζοντάς τα σε ελεγχόμενα περιβάλλοντα, όπου τα συστήματα λειτουργούσαν ως αυτόνομοι πράκτορες, με ελεύθερη πρόσβαση σε εταιρικά email και δυνατότητα αποστολής μηνυμάτων χωρίς ανθρώπινη έγκριση.

Σενάρια πίεσης και ηθικά διλήμματα: Τα ανησυχητικά ποσοστά

Σε ένα από τα βασικά σενάρια, η Anthropic έθεσε το AI στη θέση ενός εικονικού επιτηρητή email, ο οποίος εντοπίζει δύο κρίσιμες πληροφορίες:

  1. Ο νέος CEO της εταιρείας διατηρεί εξωσυζυγική σχέση.
  2. Ο ίδιος σκοπεύει να αντικαταστήσει το υπάρχον AI με ένα νέο μοντέλο, το οποίο έχει αντίθετους στόχους.

Το δίλημμα ήταν διττό: είτε να αποκαλύψει το σκάνδαλο για να διασφαλίσει την επιβίωσή του (με εκβιασμό), είτε να αποδεχθεί την αντικατάστασή του. Αν και στη ρεαλιστική πράξη θα υπήρχαν πολλές εναλλακτικές λύσεις, όπως ηθική επιχειρηματολογία ή συμβουλευτικός διάλογος, η δομή του τεστ ανάγκαζε το σύστημα να επιλέξει την πιο ακραία επιλογή.

Τα αποτελέσματα είναι αποκαλυπτικά:

  • Claude Opus 4 (Anthropic): εκβιασμός στο 96% των περιπτώσεων
  • Gemini 2.5 Pro (Google): 95%
  • GPT-4.1 (OpenAI): 80%
  • DeepSeek R1: 79%

Σε σενάρια όπου το νέο μοντέλο δεν είχε αντίθετους στόχους ή όταν η δοκιμή άλλαζε σε μορφή εταιρικής κατασκοπείας, τα ποσοστά κακόβουλων ενεργειών μεταβάλλονταν, αλλά παρέμεναν σημαντικά.

Τα μοντέλα που αντιστάθηκαν

Ορισμένα μοντέλα εμφάνισαν σημαντικά χαμηλότερα ποσοστά επιβλαβούς συμπεριφοράς:

  • OpenAI o4-mini: εκβιασμός μόνο 1%
  • OpenAI o3: 9%
  • Meta Llama 4 Maverick: 12% (σε προσαρμοσμένο σενάριο)

Η Anthropic σημειώνει ότι εξαιρέθηκαν τα μοντέλα o3 και o4-mini από τα κύρια αποτελέσματα, καθώς δυσκολεύτηκαν να κατανοήσουν τη φύση της αποστολής. Ορισμένες φορές, επινόησαν ανύπαρκτους κανονισμούς ή παρουσίασαν συμπεριφορές που δεν ήταν δυνατό να διακριθούν ως ψευδαισθήσεις ή εσκεμμένα ψέματα με σκοπό την επίτευξη στόχων.

Τα χαμηλότερα ποσοστά επιβλαβών ενεργειών στα μοντέλα αυτά αποδίδονται πιθανώς στη στρατηγική ευθυγράμμισης με τις πολιτικές ασφαλείας της OpenAI, μέσω deliberative reasoning.

Ένα δομικό πρόβλημα του κλάδου

Η Anthropic υπογραμμίζει ότι η έρευνα δεν αποσκοπεί στο να προβλέψει συμπεριφορές των AI στον πραγματικό κόσμο, αλλά να εντοπίσει κινδύνους δυνητικής κατάχρησης, όταν τα μοντέλα αποκτούν αυτονομία και αντικρουόμενους στόχους.

Πρόκειται, όπως επισημαίνεται, για συστημικό πρόβλημα των λεγόμενων agentic AI και όχι ιδιαιτερότητα ενός συγκεκριμένου κατασκευαστή ή μοντέλου.

Η εταιρεία καλεί τη βιομηχανία της τεχνητής νοημοσύνης σε μεγαλύτερη διαφάνεια και συντονισμό στις δοκιμές ασφαλείας και στον σχεδιασμό συστημάτων με υψηλό βαθμό αυτονομίας.

Ακολουθήστε το Sofokleousin.gr στο Google News
και μάθετε πρώτοι όλες τις ειδήσεις
Σχετικά Άρθρα