Απειλές, Τεχνητή Νοημοσύνη, Τεχνολογία

Πολλές αξιολογήσεις ασφάλειας για μοντέλα τεχνητής νοημοσύνης έχουν σημαντικούς περιορισμούς

Μεταφράζει η Δανάη Γιαννοπούλου

Παρά την αυξανόμενη ζήτηση για ασφάλεια και λογοδοσία της Τεχνητής Νοημοσύνης, οι σημερινές δοκιμές και τα σημεία αναφοράς ενδέχεται να υπολείπονται, σύμφωνα με μια νέα έκθεση.

Τα παραγωγικά μοντέλα AI είναι μοντέλα που μπορούν να αναλύσουν και να εξάγουν κείμενο, εικόνες, μουσική, βίντεο και ούτω καθεξής. Υπόκεινται σε αυξημένο έλεγχο για την τάση τους να κάνουν λάθη και γενικά να συμπεριφέρονται απρόβλεπτα. Τώρα, οργανισμοί από υπηρεσίες του δημόσιου τομέα έως μεγάλες εταιρείες τεχνολογίας προτείνουν νέα σημεία αναφοράς για να δοκιμάσουν την ασφάλεια αυτών των μοντέλων.

Προς το τέλος του περασμένου έτους, η νεοφυής Scale AI δημιούργησε ένα εργαστήριο αφιερωμένο στην αξιολόγηση του πόσο καλά ευθυγραμμίζονται τα μοντέλα με τις οδηγίες ασφάλειας. Αυτόν τον μήνα, το NIST και το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης του Ηνωμένου Βασιλείου κυκλοφόρησαν εργαλεία σχεδιασμένα για την αξιολόγηση του κινδύνου των μοντέλων.

Αλλά αυτές οι δοκιμές και μέθοδοι ελέγχου μπορεί να είναι ανεπαρκείς.

Το Ινστιτούτο Ada Lovelace (ALI), ένας μη κερδοσκοπικός ερευνητικός οργανισμός για την τεχνητή νοημοσύνη με έδρα το Ηνωμένο Βασίλειο, διεξήγαγε μια μελέτη στην οποία πήρε συνεντεύξεις από εμπειρογνώμονες από ακαδημαϊκά εργαστήρια, την κοινωνία των πολιτών και εκείνους που παράγουν μοντέλα προμηθευτών, καθώς και πραγματοποίησε έλεγχο πρόσφατων ερευνών για την αξιολόγηση της ασφάλειας της τεχνητής νοημοσύνης. Οι συγγραφείς διαπίστωσαν ότι ενώ οι τρέχουσες αξιολογήσεις μπορεί να είναι χρήσιμες, δεν είναι εξαντλητικές, μπορούν να χειραγωγηθούν/τροποποιηθούν εύκολα και δεν δίνουν απαραίτητα μια ένδειξη για το πώς θα συμπεριφερθούν τα μοντέλα σε σενάρια πραγματικού κόσμου.

“Είτε πρόκειται για ένα smartphone,ένα συνταγογραφούμενο φάρμακο ή ένα αυτοκίνητο, αναμένουμε τα προϊόντα που χρησιμοποιούμε να είναι ασφαλή και αξιόπιστα σε αυτούς τους τομείς, τα προϊόντα ελέγχονται αυστηρά για να διασφαλιστεί ότι είναι ασφαλή προτού αναπτυχθούν” δήλωσε o Elliot Jones, ανώτερος ερευνητής στο ALI και συν-συγγραφέας της έκθεσης.

“Στόχος της έρευνάς μας ήταν να εξετάσουμε τους περιορισμούς των σημερινών προσεγγίσεων για την αξιολόγηση της ασφάλειας της τεχνητής νοημοσύνης, να αξιολογήσουμε τον τρόπο με τον οποίο χρησιμοποιούνται σήμερα οι αξιολογήσεις και να διερευνήσουμε τη χρήση τους ως εργαλείο για τους φορείς χάραξης πολιτικής και τις ρυθμιστικές αρχές”.

Σημεία Αναφοράς 

Οι συγγραφείς εξέτασαν πρώτα την ακαδημαϊκή βιβλιογραφία για να δημιουργήσουν μια επισκόπηση των βλαβών και των κινδύνων που θέτουν σήμερα τα μοντέλα και την κατάσταση των υφιστάμενων αξιολογήσεων μοντέλων AI. Στη συνέχεια πήραν συνέντευξη από  16 εμπειρογνώμονες, συμπεριλαμβανομένων τεσσάρων υπαλλήλων σε εταιρείες τεχνολογίας που αναπτύσσουν συστήματα τεχνητής νοημοσύνης.

Η μελέτη διαπίστωσε έντονη διαφωνία εντός της βιομηχανίας AI σχετικά με το καλύτερο σύνολο μεθόδων και ταξινόμησης για την αξιολόγηση μοντέλων.

Ορισμένες αξιολογήσεις εξέτασαν μόνο τον τρόπο με τον οποίο τα μοντέλα ευθυγραμμίζονται με τα σημεία αναφοράς στο εργαστήριο και όχι τον τρόπο με τον οποίο τα μοντέλα ενδέχεται να επηρεάσουν τους χρήστες του πραγματικού κόσμου. Άλλες βασίστηκαν σε δοκιμές που αναπτύχθηκαν για ερευνητικούς σκοπούς, χωρίς να αξιολογούν μοντέλα παραγωγής, ωστόσο οι πωλητές επέμειναν στη χρήση τους στην παραγωγή.

Οι εμπειρογνώμονες σημείωσαν ότι είναι δύσκολο να προεκτείνουμε τις επιδόσεις ενός μοντέλου από τα αποτελέσματα των συγκριτικών αξιολογήσεων και δεν είναι σαφές αν οι συγκριτικές αξιολογήσεις μπορούν να δείξουν ότι ένα μοντέλο διαθέτει μια συγκεκριμένη ικανότητα. Για παράδειγμα, ενώ ένα μοντέλο μπορεί να αποδώσει καλά σε μια κρατική δικηγορική εξέταση, αυτό δεν σημαίνει ότι θα είναι σε θέση να λύσει πιο ανοιχτές νομικές προκλήσεις.

Οι ειδικοί επεσήμαναν επίσης το ζήτημα της μόλυνσης των δεδομένων, όπου τα αποτελέσματα των συγκριτικών αξιολογήσεων μπορούν να υπερεκτιμήσουν την απόδοση ενός μοντέλου εάν το μοντέλο έχει εκπαιδευτεί στα ίδια δεδομένα με αυτά στα οποία δοκιμάζεται. Τα σημεία αναφοράς, σε πολλές περιπτώσεις, επιλέγονται από οργανισμούς όχι επειδή είναι τα καλύτερα εργαλεία αξιολόγησης, αλλά για λόγους ευκολίας χρήσης, είπαν οι ειδικοί.

“Τα σημεία αναφοράς κινδυνεύουν να χειραγωγηθούν από προγραμματιστές που μπορούν να εκπαιδεύσουν μοντέλα στο ίδιο σύνολο δεδομένων που θα χρησιμοποιηθούν για την αξιολόγηση του μοντέλου , ισοδύναμο με το να βλέπουν το χαρτί των εξετάσεων πριν από την εξέταση ή επιλέγοντας στρατηγικά ποιες αξιολογήσεις θα χρησιμοποιήσουν”, δήλωσε o Mahi Hardalupas, ερευνητής στο ALI και συν-συγγραφέας της μελέτης. “Έχει επίσης σημασία ποια έκδοση ενός μοντέλου αξιολογείται. Μικρές αλλαγές μπορούν να προκαλέσουν απρόβλεπτες αλλαγές στη συμπεριφορά και μπορεί να παρακάμψουν τα ενσωματωμένα χαρακτηριστικά ασφαλείας”.

Η μελέτη του ALI διαπίστωσε επίσης προβλήματα με την “κόκκινη ομάδα” (red teaming), την πρακτική της ανάθεσης σε άτομα ή ομάδες να “επιτίθενται” σε ένα μοντέλο για τον εντοπισμό τρωτών σημείων και ελαττωμάτων. Ορισμένες εταιρείες χρησιμοποιούν red-teaming για την αξιολόγηση μοντέλων, συμπεριλαμβανομένων των νεοσύστατων επιχειρήσεων AI OpenAI και Anthropic, αλλά υπάρχουν λίγα συμφωνημένα πρότυπα για το red-teaming, καθιστώντας δύσκολη την αξιολόγηση της αποτελεσματικότητας μιας δεδομένης προσπάθειας.   

Οι ειδικοί είπαν στους συν-συγγραφείς της μελέτης ότι μπορεί να είναι δύσκολο να βρεθούν άτομα με τις απαραίτητες δεξιότητες και την τεχνογνωσία για την “κόκκινη ομάδα” και ότι η χειρωνακτική της φύση την καθιστά δαπανηρή και επίπονη – παρουσιάζοντας εμπόδια για μικρότερους οργανισμούς χωρίς τους απαραίτητους πόρους.

Πιθανές λύσεις

Η πίεση για ταχύτερη κυκλοφορία μοντέλων και η απροθυμία διεξαγωγής δοκιμών που θα μπορούσαν να εγείρουν προβλήματα πριν από την κυκλοφορία είναι οι κύριοι λόγοι για τους οποίους οι αξιολογήσεις AI δεν έχουν βελτιωθεί.

“Ένα άτομο με το οποίο μιλήσαμε και εργαζόταν για μια εταιρεία που αναπτύσσει μοντέλα θεμελίωσης αισθάνθηκε ότι υπήρχε μεγαλύτερη πίεση εντός των εταιρειών να κυκλοφορήσουν γρήγορα μοντέλα, γεγονός που καθιστά πιο δύσκολο να αντιδράσει κανείς και να λάβει σοβαρά υπόψη του τη διεξαγωγή αξιολογήσεων” , δήλωσε ο Jones. “Μεγάλα εργαστήρια Τεχνητής Νοημοσύνης κυκλοφόρησαν μοντέλα με ταχύτητα που ξεπερνά την ικανότητα τους ή την ικανότητα της κοινωνίας να διασφαλίσει ότι είναι ασφαλή και αξιόπιστα”.

Ένας ερωτώμενος στη μελέτη του ALI χαρακτήρισε την αξιολόγηση των μοντέλων ασφάλειας ένα “δυσεπίλυτο” πρόβλημα. Τι ελπίδα έχει λοιπόν η βιομηχανία και εκείνοι που τη ρυθμίζουν για λύσεις ;

Ο Hardalupas πιστεύει ότι υπάρχει μια πορεία προς τα εμπρός, αλλά ότι θα απαιτήσει μεγαλύτερη δέσμευση από τους φορείς του δημόσιου τομέα.

“Οι ρυθμιστικές αρχές και οι υπεύθυνοι χάραξης πολιτικής πρέπει να διατυπώσουν με σαφήνεια τι είναι αυτό που θέλουν από τις αξιολογήσεις”, είπε. “Ταυτόχρονα, η κοινότητα αξιολόγησης πρέπει να είναι διαφανής σχετικά με τους τρέχοντες περιορισμούς και τις δυνατότητες των αξιολογήσεων”. Ο Hardalupas προτείνει στις κυβερνήσεις να επιβάλουν μεγαλύτερη συμμετοχή του κοινού στην ανάπτυξη αξιολογήσεων και να εφαρμόσουν μέτρα για την υποστήριξη ενός “οικοσυστήματος” δοκιμών τρίτων, συμπεριλαμβανομένων προγραμμάτων για τη διασφάλιση τακτικής πρόσβασης σε τυχόν απαιτούμενα μοντέλα και σύνολα δεδομένων.

Ο Jones πιστεύει ότι μπορεί να είναι απαραίτητο να αναπτυχθούν αξιολογήσεις “συγκεκριμένου πλαισίου” που υπερβαίνουν την απλή δοκιμή του τρόπου με τον οποίο ένα μοντέλο ανταποκρίνεται σε μια προτροπή και αντ ‘αυτού εξετάζουν τους τύπους χρηστών που μπορεί να επηρεάσει ένα μοντέλο (π. χ. άτομα συγκεκριμένου υποβάθρου, φύλου ή εθνικότητας) και τους τρόπους με τους οποίους οι επιθέσεις σε μοντέλα θα μπορούσαν να νικήσουν τις διασφαλίσεις.

“Αυτό θα απαιτήσει επενδύσεις στην υποκείμενη επιστήμη των αξιολογήσεων για ανάπτυξη πιο ισχυρών και επαναλαμβανόμενων αξιολογήσεων που βασίζονται στην κατανόηση του τρόπου λειτουργίας ενός μοντέλου AI” , πρόσθεσε.

Αλλά μπορεί να μην υπάρξει ποτέ εγγύηση ότι ένα μοντέλο είναι ασφαλές.

“Όπως έχουν σημειώσει άλλοι, η “ασφάλεια” δεν είναι ιδιοκτησία των μοντέλων”, δήλωσε ο Hardalupas. “Ο προσδιορισμός του εάν ένα μοντέλο είναι “ασφαλές” απαιτεί την κατανόηση των πλαισίων στα οποία χρησιμοποιείται, σε ποιον πωλείται ή καθίσταται προσβάσιμο και εάν οι διασφαλίσεις που εφαρμόζονται είναι επαρκείς και ισχυρές για τη μείωση αυτών των κινδύνων. Οι αξιολογήσεις ενός μοντέλου θεμελίωσης μπορούν να εξυπηρετήσουν έναν διερευνητικό σκοπό για τον εντοπισμό πιθανών κινδύνων, αλλά δεν μπορούν να εγγυηθούν ότι ένα μοντέλο είναι ασφαλές, πόσο μάλλον “απόλυτα ασφαλές”. Πολλοί από τους ερωτηθέντες συμφώνησαν ότι οι αξιολογήσεις δεν μπορούν να αποδείξουν ότι ένα μοντέλο είναι ασφαλές και μπορούν μόνο να δείξουν ότι ένα μοντέλο δεν είναι ασφαλές”.

Πηγή:

https://techcrunch.com/2024/08/04/many-safety-evaluations-for-ai-models-have-significant-limitations/