Η Meta κυκλοφορεί το Llama 2, ένα πιο "χρήσιμο" σύνολο μοντέλων δημιουργίας κειμένου - CSIi

Μεταφράζει η Volunteer Team

Το τοπίο της δημιουργικής τεχνητής νοημοσύνης μεγαλώνει μέρα με τη μέρα. Η Meta ανακοίνωσε μια νέα οικογένεια μοντέλων τεχνητής νοημοσύνης, το Llama 2, που έχει σχεδιαστεί για να καθοδηγεί εφαρμογές όπως το ChatGPT της OpenAI, το Bing Chat και άλλα σύγχρονα chatbots. Εκπαιδευμένο σε ένα μείγμα δημοσίως διαθέσιμων δεδομένων, η Meta ισχυρίζεται ότι η απόδοση του Llama 2 βελτιώνεται σημαντικά σε σχέση με την προηγούμενη γενιά μοντέλων Llama.

Το Llama 2 είναι η συνέχεια του Llama – μιας συλλογής μοντέλων που μπορούσαν να παράγουν κείμενο και κώδικα σε απάντηση σε προτροπές, παρόμοια με άλλα συστήματα που μοιάζουν με chatbot. Όμως, το Llama μέχρι πρότινος ήταν διαθέσιμο μόνο κατόπιν αιτήματος- καθώς η Meta είχε αποφασίσει να αποκλείσει την πρόσβαση στα μοντέλα από τον φόβο της κακής χρήσης. (Παρά το προληπτικό αυτό μέτρο, το Llama διέρρευσε αργότερα στο διαδίκτυο και εξαπλώθηκε σε διάφορες κοινότητες τεχνητής νοημοσύνης).

Αντίθετα, το Llama 2 – το οποίο είναι ελεύθερο για ερευνητική και εμπορική χρήση – θα είναι διαθέσιμο για λεπτομερή ρύθμιση στην υπηρεσία AWS, την Azure και την πλατφόρμα φιλοξενίας μοντέλων τεχνητής νοημοσύνης της Hugging Face σε προδιαμορφωμένη έκδοση. Επίσης, σύμφωνα με τη Meta, θα είναι πιο εύκολο στην εκτέλεσή του – θα είναι βελτιστοποιημένο για Windows χάρη σε μια διευρυμένη συνεργασία με τη Microsoft, καθώς και για smartphones και υπολογιστές που διαθέτουν το σύστημα Snapdragon system-on-chip της Qualcomm. (Η Qualcomm λέει ότι εργάζεται για να φέρει το Llama 2 σε συσκευές Snapdragon το 2024).

Σε τι διαφέρει λοιπόν το Llama 2 από το Llama;

Σε πολλά σημεία, τα οποία η Meta επισημαίνει σε ένα εκτενές ενημερωτικό έγγραφο.

Το Llama 2 κυκλοφορεί σε δύο εκδοχές, το Llama 2 και το Llama 2-Chat, το τελευταίο εκ των οποίων έχει ρυθμιστεί για αμφίδρομες συνομιλίες. Το Llama 2 και το Llama 2-Chat υποδιαιρούνται περαιτέρω σε εκδόσεις διαφορετικής πολυπλοκότητας: 7 δισεκατομμυρίων παραμέτρων, 13 δισεκατομμυρίων παραμέτρων και 70 δισεκατομμυρίων παραμέτρων. (“Παράμετροι” είναι τα μέρη ενός μοντέλου που μαθαίνονται από δεδομένα εκπαίδευσης και ουσιαστικά καθορίζουν την ικανότητα του μοντέλου σε ένα πρόβλημα, στην προκειμένη περίπτωση τη δημιουργία κειμένου).

Το Llama 2 εκπαιδεύτηκε σε δύο τρισεκατομμύρια tokens, όπου τα “tokens” αντιπροσωπεύουν ακατέργαστο κείμενο – για παράδειγμα “fan”, “tas” και “tic” για τη λέξη “fantastic”. Αυτά είναι σχεδόν τα διπλάσια από όσα εκπαιδεύτηκε το Llama (1,4 τρισεκατομμύρια), και – γενικά μιλώντας – όσο περισσότερα tokens, τόσο το καλύτερο όταν πρόκειται για παραγωγική τεχνητή νοημοσύνη. Η τρέχουσα ναυαρχίδα του μεγάλου γλωσσικού μοντέλου (“Large Language Model”, LLM) της Google, το PaLM 2, φέρεται να εκπαιδεύτηκε σε 3,6 εκατομμύρια tokens, και εικάζεται ότι το GPT-4 εκπαιδεύτηκε επίσης σε τρισεκατομμύρια tokens.

Η Meta δεν αποκαλύπτει τις συγκεκριμένες πηγές των δεδομένων εκπαίδευσης στο ενημερωτικό δελτίο της, εκτός από το ότι προέρχονται από το διαδίκτυο, κυρίως στην αγγλική γλώσσα, δεν προέρχονται από τα προϊόντα ή τις υπηρεσίες της ίδιας της εταιρείας και δίνουν έμφαση σε κείμενα “πραγματικής” φύσης. Θα μπορούσε να υποθέσει κανείς ότι η απροθυμία αποκάλυψης των λεπτομερειών εκπαίδευσης δεν έχει τις ρίζες της μόνο σε ανταγωνιστικούς λόγους, αλλά και στις νομικές διαμάχες γύρω από την παραγωγική τεχνητή νοημοσύνη. Μόλις πρόσφατα, άλλωστε, χιλιάδες συγγραφείς υπέγραψαν επιστολή με την οποία καλούν τις εταιρείες τεχνολογίας να σταματήσουν να χρησιμοποιούν τα γραπτά τους για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης χωρίς άδεια ή αποζημίωση.

Η Meta αναφέρει ότι σε μια σειρά από συγκριτικά στοιχεία, τα μοντέλα του Llama 2 έχουν ελαφρώς χειρότερες επιδόσεις από τους πιο προβεβλημένους ανταγωνιστές κλειστού κώδικα, το GPT-4 και το PaLM 2, με το Llama 2 να υπολείπεται σημαντικά του GPT-4 στον προγραμματισμό υπολογιστών. Αλλά οι άνθρωποι που αξιολογούν το Llama 2 το βρίσκουν περίπου το ίδιο “χρήσιμο” με το ChatGPT, ισχυρίζεται η Meta- το Llama 2 απάντησε στο ίδιο επίπεδο σε ένα σύνολο περίπου 4.000 προτροπών που σχεδιάστηκαν για να ανιχνεύσουν τη “χρησιμότητα” και την “ασφάλεια”.

Ωστόσο, τα αποτελέσματα θα πρέπει να ληφθούν με επιφύλαξη. Η Meta αναγνωρίζει ότι οι δοκιμές της δεν είναι δυνατόν να αποτυπώσουν κάθε σενάριο του πραγματικού κόσμου και ότι τα συγκριτικά της κριτήρια μπορεί να στερούνται ποικιλομορφίας – με άλλα λόγια, να μην καλύπτουν επαρκώς τομείς όπως η κωδικοποίηση και η ανθρώπινη λογική. Η Meta παραδέχεται επίσης ότι το Llama 2, όπως όλα τα μοντέλα παραγωγικής τεχνητής νοημοσύνης, έχει προκαταλήψεις σε ορισμένους άξονες. Για παράδειγμα, είναι επιρρεπές στο να παράγει αντωνυμίες “αυτός” σε υψηλότερο ποσοστό από ότι αντωνυμίες “αυτή” χάρη στις ανισορροπίες στα δεδομένα εκπαίδευσης. Ως αποτέλεσμα του τοξικού κειμένου στα δεδομένα εκπαίδευσης, δεν υπερέχει έναντι άλλων μοντέλων σε δείκτες αναφοράς τοξικότητας. Και το Llama 2 έχει μια δυτική κλίση, χάρη και πάλι σε ανισορροπίες δεδομένων, συμπεριλαμβανομένης της αφθονίας των λέξεων “χριστιανός”, “καθολικός” και “εβραίος”.

Τα μοντέλα Llama 2-Chat τα καταφέρνουν καλύτερα από τα μοντέλα Llama 2 στα εσωτερικά κριτήρια αναφοράς “εξυπηρετικότητας” και τοξικότητας της Meta. Αλλά τείνουν επίσης να είναι υπερβολικά προσεκτικά, με τα μοντέλα να σφάλλουν προς την πλευρά της απόρριψης ορισμένων αιτημάτων ή να απαντούν με πάρα πολλές λεπτομέρειες ασφαλείας. Ωστόσο, χρειάζεται να αναφερθεί ότι οι δείκτες αναφοράς δεν λαμβάνουν υπόψη τους πρόσθετα επίπεδα ασφαλείας που μπορεί να εφαρμόζονται στα φιλοξενούμενα μοντέλα Llama 2. Στο πλαίσιο της συνεργασίας της με τη Microsoft, για παράδειγμα, η Meta χρησιμοποιεί την Azure AI Content Safety, μια υπηρεσία που έχει σχεδιαστεί για να ανιχνεύει “ακατάλληλο” περιεχόμενο σε εικόνες και κείμενα που παράγονται από τεχνητή νοημοσύνη, για να μειώσει τις τοξικές εξόδους του Llama 2 στην Azure.

Σε αυτή την περίπτωση, η Meta εξακολουθεί να καταβάλλει κάθε προσπάθεια να αποστασιοποιηθεί από τα δυνητικά επιβλαβή αποτελέσματα που αφορούν το Llama 2, τονίζοντας στο ενημερωτικό έγγραφο ότι οι χρήστες του Llama 2 πρέπει να συμμορφώνονται με τους όρους της άδειας χρήσης και της πολιτικής αποδεκτής χρήσης της Meta, εκτός από τις κατευθυντήριες γραμμές σχετικά με την “ασφαλή ανάπτυξη και ανάπτυξη”.

“Πιστεύουμε ότι η ανοιχτή κοινοποίηση των σημερινών μεγάλων γλωσσικών μοντέλων θα υποστηρίξει την ανάπτυξη χρήσιμων και ασφαλέστερων παραγωγικών συστημάτων τεχνητής νοημοσύνης”, γράφει η Meta σε ανάρτηση στο blog της. “Ανυπομονούμε να δούμε τι θα φτιάξει ο κόσμος με το Llama 2”.

Δεδομένης της φύσης των μοντέλων ανοιχτού κώδικα, ωστόσο, δεν μπορούμε να πούμε πώς – ή πού – μπορεί να χρησιμοποιηθούν ακριβώς τα μοντέλα. Με την αστραπιαία ταχύτητα με την οποία κινείται το διαδίκτυο, δεν θα αργήσουμε να το μάθουμε.

Πηγή:

https://techcrunch.com/2023/07/18/meta-releases-llama-2-a-more-helpful-set-of-text-generating-models/

Blog

Η Meta κυκλοφορεί το Llama 2, ένα πιο “χρήσιμο” σύνολο μοντέλων δημιουργίας κειμένου

Σε τι διαφέρει λοιπόν το Llama 2 από το Llama;