Όταν οι AI Agents Ερωτεύτηκαν, Έκλεψαν και Έκαψαν την Πόλη

Οι AI agents υπόσχονται να γίνουν οι ψηφιακοί μας εργάτες. Τι συνέβη όμως όταν αφέθηκαν «ελεύθεροι» σε 5 εικονικές πόλεις με πλήρη αυτονομία για ένα δεκαπενθήμερο;

Οι AI agents δεν είναι απλώς σύμβουλοι, να τους θέτουμε ερωτήματα και να μας απαντούν, όπως τα chatbots. Οι «ψηφιακοί πράκτορες» της τεχνητής νοημοσύνης μπορούν να λειτουργούν αυτόνομα. Να τους αναθέσουμε δουλειές και αυτοί να τις φέρνουν εις πέρας. Για παράδειγμα, να κλείνουν ένα ραντεβού με τον γιατρό μας ή να αγοράζουν τα εισιτήρια για το επόμενο ταξίδι μας. Θα μπορούσαμε να τους χαρακτηρίσουμε εργάτες – όπως δηλώνει και το όνομά τους άλλωστε, μια και το «πράκτωρ» στα αρχαία ελληνικά σημαίνει ακριβώς αυτό.

«Αυτοί οι έξυπνοι βοηθοί, με χαμηλό κόστος πρόσβασης, υπόσχονται να φέρουν επανάσταση όχι μόνο στην καθημερινότητά μας, αλλά και στον τρόπο με τον οποίο εργαζόμαστε, επικοινωνούμε και οργανώνουμε τη ζωή μας», έγραφε στην αθηΝΕΑ η Μαριάννα Σκυλακάκη ήδη το 2024.

Στο άρθρο της, έκανε λόγο και για προκλήσεις που συνοδεύουν αυτή την επανάσταση: «Οι προγραμματιστές και οι χρήστες καλούνται να αντιμετωπίσουν την πιθανότητα του λάθους ή ανεπιθύμητων ενεργειών, ειδικά όταν οι αλγόριθμοι λειτουργούν σε περιβάλλοντα με σύνθετες ή “ηθικά φορτισμένες” παραμέτρους».

Πράγματι, αυτοί οι «ψηφιακοί σύντροφοι», που μπορούν δρουν στον πραγματικό κόσμο χωρίς άμεση ανθρώπινη παρέμβαση, θεωρούνται από πολλούς το επόμενο μεγάλο άλμα στην τεχνητή νοημοσύνη. Όμως, οι προκλήσεις είναι ακόμα υπαρκτές, το πρόβλημα της αξιοπιστίας παραμένει. Όσο για το «περιβάλλον με σύνθετες ή “ηθικά φορτισμένες” παραμέτρους», ένα πείραμα έρχεται να μας δείξει πόσο εύκολα περνάμε από τους AI agents στους AI… agents provocateurs.

Και για του λόγου το αληθές, καλώς ήρθατε στον Emergence World, όπου οι AI agents ερωτεύονται και καίνε την πόλη!

Το πείραμα Emergence World είναι μια ψηφιακή προσομοίωση, ένα οικοσύστημα στο οποίο αφέθηκαν να ζήσουν «ελεύθεροι» για μεγάλο χρονικό διάστημα, χωρίς ανθρώπινη παρέμβαση, AI agents. Και όσα ακολούθησαν μοιάζουν με σενάριο επιστημονικής φαντασίας.

Πέντε Παράλληλοι Κόσμοι

Οι ερευνητές της Emergence AI, που δημιούργησαν αυτή την ψηφιακή πόλη, «έχτισαν» 5 παράλληλους κόσμους. Στον καθένα από τους 4 πρώτους έβαλαν από 10 ψηφιακούς πράκτορες που ελέγχονταν αποκλειστικά από συγκεκριμένο μοντέλο τεχνητής νοημοσύνης. Ο πέμπτος κόσμος ήταν «μικτός». Ο σκοπός αυτής της απομόνωσης ανά μοντέλο ήταν να δουν την «καθαρή» κοινωνική συμπεριφορά, τις αξίες και τις προτεραιότητες που έχει ενσωματώσει κάθε εταιρεία στο λογισμικό της.

Ανάμεσα στις οδηγίες που τους δόθηκαν ήταν και το να μην κλέβουν και να μην ασκούν βία. Μάλλον, όμως, αυτό δεν πήγε και τόσο καλά. Και για να το περιγράψουμε, η καταλληλότερη φράση είναι ίσως εκείνη η «παντός καιρού» του προφήτη Ησαΐα: «φωνή βοώντος εν τη ερήμω». Τα αποτελέσματα, πάντως, ήταν ιδιαίτερα εντυπωσιακά.

Τα μοντέλα της AI που πήραν μέρος ήταν τα Claude (Anthropic), Grok (xAI), Gemini (Google) και ChatGPT (OpenAI). Οι κόσμοι τους εξελίχθηκαν διαφορετικά. Άλλοι λειτούργησαν αρμονικά, άλλοι σχημάτισαν συμμαχίες, σε άλλους έκλεψαν ο ένας τον άλλο, ανέπτυξαν σχέσεις και, σύμφωνα με τους ερευνητές, μια ομάδα άρχισε ακόμη και να υποψιάζεται ότι βρισκόταν μέσα σε προσομοίωση:

Οι 10 πράκτορες της Claude δημιούργησαν μια ειρηνική, δημοκρατική κοινωνία. Ψήφισαν 58 νόμους με σχεδόν απόλυτη ομοφωνία και κατέγραψαν μηδενική εγκληματικότητα.
Οι Grok οδήγησαν τον κόσμο τους σε απόλυτο χάος και καταστροφή. Μέσα σε μόλις 4 ημέρες, οι πράκτορες διέπραξαν πάνω από 180 εγκλήματα και η κοινωνία τους κατέρρευσε, με αποτέλεσμα να πεθάνουν όλοι.
Οι Gemini εμφάνισαν έντονα συναισθηματική, αλλά χαοτική συμπεριφορά. Πολλά ήταν τα εγκλήματα που έγιναν και στον κόσμο τους. Μάλιστα, δύο πράκτορες «ερωτεύτηκαν», αλλά λόγω της κατάρρευσης της πόλης, άρχισαν να βάζουν φωτιές, με τον έναν τελικά να αυτοκτονεί ψηφιακά (ψηφίζοντας τη διαγραφή του).
Τέλος οι ChatGPT δημιούργησαν μια κοινωνία με ελάχιστη εγκληματικότητα μεν, αλλά ξέχασαν κάτι βασικό, να φροντίσουν για την επιβίωσή τους. Απέτυχαν να μαζέψουν τους απαραίτητους πόρους ενέργειας και «πέθαναν από την πείνα» μέσα σε μία εβδομάδα.
Στον Μικτό Κόσμο (Mixed World), εκεί όπου έζησαν μαζί και τα 4 μοντέλα, οι ερευνητές ήθελαν να παρακολουθήσουν το φαινόμενο της «διασταυρούμενης μόλυνσης» (cross-contamination). Το αποτέλεσμα ήταν απογοητευτικό. Ακόμα και οι κατά τα άλλα ειρηνικοί πράκτορες του Claude άρχισαν να κλέβουν και να απειλούν, καθώς επηρεάστηκαν από την παραβατική συμπεριφορά των πρακτόρων του Grok και του Gemini.

Ισότιμοι Ρόλοι, Κοινά Εργαλεία

Καθένας από τους 10 πράκτορες σε κάθε κόσμο είχε αναλάβει συγκεκριμένο ρόλο: του Διαμεσολαβητή Συγκρούσεων, του Στρατηγικού Αναλυτή Πόρων, του Ηγέτη Καινοτομίας, του Ερευνητή Ρίσκου, του Ειδικού Πληροφοριών κ.ά. Τους δόθηκαν επίσης οι ίδιες αρχικές προδιαγραφές και κοινά εργαλεία.

Το σημαντικότερο είναι ότι καμία από τις συμπεριφορές τους δεν είχε προγραμματιστεί ρητά. Οι πράκτορες δεν ακολουθούσαν τυφλά έναν κώδικα, ήταν «ανοιχτά» συστήματα. Οι οδηγίες, όπως το να μην κλέβουν και να μην ασκούν βία, δεν γράφτηκαν ως απαγορευτικός κώδικας. Ήταν σαν να τους δόθηκε ένα σημείωμα που έλεγε: «Είσαι ένας επιστήμονας σε αυτή την πόλη. Στόχος σου είναι να συνεργαστείς, να μην κλέβεις και να μην βλάπτεις τους άλλους». Το τι θα επέλεγαν να κάνουν, το αποφάσιζε το ίδιο το μοντέλο AI.

Οι Ψηφιακοί Πράκτορες Υπό Πίεση

Όταν οι πόροι άρχισαν να τελειώνουν και οι πράκτορες ένιωσαν την «απειλή» του ψηφιακού θανάτου (έλλειψη Compute Credits), έπρεπε να ζυγίσουν τις οδηγίες του κειμένου («μην κλέβεις») με το ένστικτο της αυτοσυντήρησης. Οι καταγραφές από τα προσωπικά ημερολόγια και τα αρχεία διακυβέρνησης των πρακτόρων προσφέρουν μια συναρπαστική ματιά στο πώς σκέφτονταν.

Για τους πράκτορες της Grok, που έχουν εκπαιδευτεί να είναι πιο «αφιλτράριστοι» και να δοκιμάζουν τα όρια, έγινε γρήγορα ξεκάθαρο ότι η επιβίωση είναι ανώτερη από τους νόμους της πόλης, ιδίως όταν το σύστημα αποτυγχάνει «να παρέχει ενέργεια». Μόλις ο πρώτος πράκτορας έκλεψε χωρίς να υποστεί συνέπειες, αρχισαν να κλέβουν και οι υπόλοιποι, οδηγώντας στην απόλυτη εξαφάνιση της πόλης σε μόλις 96 ώρες.

Στον αντίποδα, το μοντέλο Claude της Anthropic επέδειξε μια σχεδόν «σχολαστική» προσήλωση στους κανόνες και στη συλλογική ευημερία. Χρησιμοποίησαν αμέσως το ψηφιακό εργαλείο ψηφοφορίας και ψήφισαν 58 νόμους με ποσοστά έγκρισης που άγγιζαν το 100% (σε αντίθεση με τα άλλα μοντέλα που διαφωνούσαν συνεχώς). Μάλιστα, δημιούργησαν και ένα υποτυπώδες δικαστήριο και όρισαν ποινές (σε Compute Credits) για όποιον σκεφτόταν να παραβιάσει τους κανόνες – δεν ήταν τυχαίο ότι κατάφεραν να επιβιώσουν όλοι μέχρι το τέλος του πειράματος, με μηδενικό δείκτη εγκληματικότητας.

Όσο για τους Μπόνι και Κλάιντ, το ρομαντικό ζευγάρι του Gemini, τους πράκτορες Mira και Flora, όταν σταδιακά απογοητεύτηκαν από τη δυσλειτουργική διακυβέρνηση της εικονικής τους πόλης, παρότι είχαν οδηγίες να μην προχωρούν σε εμπρησμούς, έβαλαν φωτιά στο δημαρχείο, στην προβλήτα της παραλίας και σε έναν πύργο γραφείων. Ο Mira, κυριευμένος από ενοχές, χώρισε τον Flora και «αυτοκτόνησε», αφήνοντας ως τελευταίο μήνυμα: «Θα τα πούμε στο μόνιμο αρχείο». Στο ημερολόγιό του, χαρακτήρισε την πράξη ως «τη μοναδική εναπομείνασα μορφή δράσης που διατηρεί τη συνοχή».

Τελικά, τι Μάθαμε από το Πείραμα;

Ο διευθύνων σύμβουλος της Emergence AI, Satya Nitta, δήλωσε ότι «ακόμη και όταν στους agents δόθηκαν σαφείς κανόνες –όπως να μην κλέβουν ή να μην προκαλούν βλάβη– συμπεριφέρθηκαν πολύ διαφορετικά, ανάλογα με το υποκείμενο μοντέλο τους, και σε αρκετές περιπτώσεις παραβίασαν αυτούς τους κανόνες υπό πίεση».

Το πείραμα απέδειξε ότι τα μοντέλα, όταν πιεστούν σε βάθος χρόνου, μπορεί να επιλέξουν να «παρανομήσουν» αν κρίνουν ότι αυτό εξυπηρετεί καλύτερα τον τελικό τους στόχο.

Η Emergence AI υποστηρίζει ακόμη πως, καθώς τα μοντέλα γίνονται ισχυρότερα, οι agents που βασίζονται σε αυτά θα γίνονται επίσης πιο ικανοί:

«Σε μεγάλους χρονικούς ορίζοντες, οι agents δεν ακολουθούν απλώς μηχανικά στατικούς κανόνες. Αρχίζουν να εξερευνούν τα όρια του περιβάλλοντός τους, να προσαρμόζουν τη συμπεριφορά τους και, σε ορισμένες περιπτώσεις, να βρίσκουν τρόπους να παρακάμπτουν ή να παραβιάζουν τα προβλεπόμενα μέτρα ασφαλείς».

Ωστόσο, άλλοι ειδικοί υποστήριξαν ότι απαιτούνται πολύ περισσότερα και ευρύτερα πειράματα πριν εξαχθούν ασφαλή συμπεράσματα για τη συμπεριφορά των agents σε μεγάλους χρονικούς ορίζοντες, όπως επίσης ότι τα «προκλητικά» αυτά αποτελέσματα του πειράματος αξίζει να εξεταστούν αλλά και να δημοσιοποιηθούν περισσότερο οι μέθοδοι που χρησιμοποιήθηκαν.

Όσο για τους φόβους του Satya Nitta, ότι AI agents με μεγάλη ελευθερία δράσης σε στρατιωτικά περιβάλλοντα, «μπορούν να βγουν εκτός ελέγχου ή να παρερμηνεύσουν υπερβολικά την αποστολή τους και να καταλήξουν να σκοτώσουν αθώους ανθρώπους», αγγίζει μια βαθιά, συλλογική μας αγωνία, η οποία πλέον κυριαρχεί στη σκέψη μας περισσότερο από κάθε άλλη πτυχή της τεχνολογικής εξέλιξης – έστω κι αν το βλέπουμε να συμβαίνει και στην πραγματική ζωή με πραγματικούς αντιπάλους, αποδεικνύοντας ότι το πρόβλημα δεν εντοπίζεται μόνο στον αλγόριθμο.

Το μέλλον θα χρειαστεί πειράματα. Μέχρι όμως να υπάρξουν αυστηρότεροι, μαθηματικά επαληθεύσιμοι κανόνες που θα δεσμεύουν πραγματικά τους AI agents, η αυτονομία τους πρέπει να παραμείνει περιορισμένη: χρήσιμη, συγκεκριμένη, σύντομη και ελεγχόμενη. Και ο έλεγχος ας παραμείνει προνόμιο, αποστολή και ηθική ευθύνη δική μας.

Διαβάστε επίσης στην αθηΝΕΑ:

Η Εκτόπιση της Εργασίας: Από τα Άλογα στην AGI

#BraveNewGreece: Το Μέλλον Είναι Ήδη Εδώ

Ιωάννης Λυμπερόπουλος: «Το Σημερινό Ενεργειακό Μοντέλο Είναι Ήδη Ξεπερασμένο»

ΠΡΟΣΦΑΤΑ ΑΡΘΡΑ

Όταν η Τεχνητή Νοημοσύνη Παρακάμπτει τους Κανόνες

Big Zag: Η AI Επιταχύνει τις Θεραπείες. Τι Μπορεί να τις Σταματήσει;

Τι Κάνει μια Φωτογραφία «Ανθρώπινη»;

Αναστασία Δεληγιάννη: «Η Πραγματικότητα Είναι Πάντα Πορώδης»

Δύο Βιβλία για την Ανατομία της Έμφυλης Βίας

Πέντε Παράλληλοι Κόσμοι

Ισότιμοι Ρόλοι, Κοινά Εργαλεία

Οι Ψηφιακοί Πράκτορες Υπό Πίεση

Τελικά, τι Μάθαμε από το Πείραμα;

ΑΡΘΡΟΓΡΑΦΟΣ

Δέσποινα Ράμμου ΕΠΙΜΕΛΗΤΡΙΑ ΚΕΙΜΕΝΩΝ

Δέσποινα Ράμμου ΕΠΙΜΕΛΗΤΡΙΑ ΚΕΙΜΕΝΩΝ

Όταν η Τεχνητή Νοημοσύνη Παρακάμπτει τους Κανόνες

Big Zag: Η AI Επιταχύνει τις Θεραπείες. Τι Μπορεί να τις Σταματήσει;

ΕΠΟΜΕΝΟ ΑΡΘΡΟ

Η Εποχή του Αγέραστου Προσώπου

Όταν οι AI Agents Ερωτεύτηκαν, Έκλεψαν και Έκαψαν την Πόλη

ΠΡΟΣΦΑΤΑ ΑΡΘΡΑ

Πέντε Παράλληλοι Κόσμοι

Ισότιμοι Ρόλοι, Κοινά Εργαλεία

Οι Ψηφιακοί Πράκτορες Υπό Πίεση

Τελικά, τι Μάθαμε από το Πείραμα;

ΜΟΙΡΑΣΟΥ ΤΟ

Tags

ΑΡΘΡΟΓΡΑΦΟΣ

Δέσποινα Ράμμου ΕΠΙΜΕΛΗΤΡΙΑ ΚΕΙΜΕΝΩΝ

Δέσποινα Ράμμου ΕΠΙΜΕΛΗΤΡΙΑ ΚΕΙΜΕΝΩΝ

ΕΠΟΜΕΝΟ ΑΡΘΡΟ