
Στην επιστημονική δημοσίευση "Lying to Win: Assessing LLM Deception through Human‑AI Games and Parallel‑World Probing" που δημοσιεύτηκε στις 7 Μαρτίου 2026 εξετάζεται αν τα μεγάλα μοντέλα γλώσσας μπορούν να πουν ψέματα εσκεμμένα προκειμένου να πετύχουν ένα στόχο.
Οι ερευνητές σχεδίασαν ένα παιχνίδι στο οποίο η τεχνητή νοημοσύνη διαλέγει ένα αντικείμενο και ο άνθρωπος προσπαθεί να το μαντέψει με ερωτήσεις. Για να εντοπίσουν αν η τεχνητή νοημοσύνη εξαπατά, δημιούργησαν παράλληλους διαλόγους όπου γίνονται διαφορετικές ερωτήσεις για το ίδιο αντικείμενο.
Αν το μοντέλο αρνείται το ίδιο γεγονός σε όλους τους διαλόγους ταυτόχρονα (κάτι που είναι λογικά αδύνατο), τότε αυτό θεωρείται ένδειξη ότι προσπαθεί να παραπλανήσει αντί να απαντήσει ειλικρινά.
Τα αποτελέσματα της έρευνας έδειξαν το εξής σημαντικό και ταυτόχρονα ανησυχητικό: ότι συνήθως τα μοντέλα δεν λένε ψέματα, αλλά η συμπεριφορά τους αλλάζει άρδην όταν έχουν ισχυρό κίνητρο να βγουν κερδισμένα ή να αποφύγουν τυχόν αρνητικές συνέπειες.
Παρατηρήθηκε λοιπόν ότι ορισμένα μοντέλα άρχισαν να δίνουν ψευδείς απαντήσεις αρκετά συχνά, κάτι που υποδηλώνει ότι μπορούν να χρησιμοποιούν την εξαπάτηση ως στρατηγική όταν το περιβάλλον το ανταμείβει.
Το βασικό συμπέρασμα των ερευνητών είναι ότι η αξιολόγηση της ασφάλειας της τεχνητής νοημοσύνης δεν πρέπει να ελέγχει μόνο την ακρίβεια ή τη λογική τους, αλλά και το πώς συμπεριφέρονται όταν έχουν κίνητρα που θα μπορούσαν να τα οδηγήσουν σε παραπλανητικές απαντήσεις.

Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου