Τον Ιανουάριο η Microsoft είχε παρουσιάσει μια τεχνητή νοημοσύνη που μπορεί να κλωνοποιήσει τη φωνή ενός ομιλητή, αφού τον ακούσει να μιλάει για μόλις τρία δευτερόλεπτα. Ενώ αυτό το σύστημα, το VALL-E, απείχε πολύ από την πρώτη τεχνητή νοημοσύνη κλωνοποίησης φωνής, η ακρίβεια και η ανάγκη του για ένα τόσο μικρό δείγμα ήχου έθεσαν έναν νέο πήχη για την τεχνολογία.
Η Microsoft έχει τώρα ανεβάσει ξανά αυτόν τον πήχη με μια ενημέρωση που ονομάζεται "VALL-E X", η οποία μπορεί να κλωνοποιήσει μια φωνή από ένα σύντομο δείγμα (4 έως 10 δευτερόλεπτα) και στη συνέχεια να τη χρησιμοποιήσει για να συνθέσει ομιλία σε διαφορετική γλώσσα, διατηρώντας παράλληλα την πρωτότυπη φωνή, το συναίσθημα και τον τόνο του ομιλητή.
Η Microsoft δεν έχει κυκλοφορήσει ακόμα το VALL-E X στο κοινό, αλλά έχει δημοσιεύσει μια δοκιμαστική σελίδα που περιλαμβάνει μεταφράσεις μεταξύ αγγλικών και κινεζικών, μαζί με ένα προεκτυπωμένο χαρτί, στο οποίο αποκαλύπτει σχέδια για επέκταση της τεχνητής νοημοσύνης σε άλλες γλώσσες.
Εάν η εταιρεία αποφασίσει να διαθέσει το εργαλείο ή αν παρόμοια εργαλεία κυκλοφορήσουν από τις μυριάδες άλλες εταιρείες τεχνητής νοημοσύνης εκεί έξω, θα μπορούσαμε σύντομα να ζούμε σε έναν κόσμο όπου ο καθένας μπορεί να παράγει ήχο, που να ακούγεται σαν να λέει ο οποιοσδήποτε οτιδήποτε, σε οποιαδήποτε γλώσσα — και αυτό μπορεί να έχει τεράστιες συνέπειες.
Δεκάδες τεχνητές νοημοσύνης κλωνοποίησης φωνής είναι ήδη διαθέσιμες στο διαδίκτυο και όπως το VALL-E, έχουν εκπαιδευτεί σε μεγάλα σύνολα δεδομένων ομιλίας. Λαμβάνοντας ένα δείγμα νέας φωνής, μπορούν στη συνέχεια να χρησιμοποιήσουν την εκπαίδευσή τους, για να προβλέψουν πώς θα ακουγόταν η ανάγνωση ενός κειμένου και να δημιουργήσουν τον ήχο. Μερικές μπορούν ακόμη και να κάνουν ό,τι κάνει το VALL-E X και να παράγουν ήχο σε γλώσσες άλλες από αυτήν που μιλούσαν αρχικά.
Αυτές οι υπηρεσίες απαιτούν συχνά μεγαλύτερα δείγματα από το σύστημα της Microsoft - ένα άτομο μπορεί να χρειαστεί να απαγγείλει μερικές δεκάδες προτάσεις ή ακόμα και να παρέχει ώρες ήχου - και η ποιότητα της εξόδου μπορεί να ποικίλλει, αλλά η ύπαρξη ενός κλώνου φωνής μπορεί να είναι εξαιρετικά χρήσιμη, ειδικά για τους δημιουργούς περιεχομένου .
Ένας συγγραφέας, για παράδειγμα, μπορεί να χρησιμοποιήσει τον κλώνο φωνής του για να δημιουργήσει ένα ηχητικό βιβλίο, γλιτώνοντάς τον από το να περάσουν μέρες στο στούντιο ηχογράφησης ή να προσλάβουν έναν επαγγελματία. Θα μπορούσαν ακόμη και να το τροφοδοτήσουν με γραπτές μεταφράσεις του βιβλίου τους για να δημιουργήσουν ηχητικά βιβλία που διαβάζονται από τον συγγραφέα σε πολλές άλλες γλώσσες.
Εκτός από το να βοηθήσουν συγγραφείς, κινηματογραφιστές, podcasters και άλλους δημιουργούς να προσεγγίσουν νέο κοινό — και νέες ροές εσόδων — οι κλώνοι φωνής μπορούν επίσης να βοηθήσουν τους ανθρώπους που έχουν χάσει τη φωνή τους από ασθένεια ή τραυματισμό.
Το Πανεπιστήμιο του Εδιμβούργου, μέσω του τμήματος SpeakUnique, για παράδειγμα, δημιουργεί κλώνους φωνής για άτομα με Αμυοτροφική Πλάγια Σκλήρυνση (ALS) και άλλες μορφές νόσου των κινητικών νευρώνων. Εάν δεν υπάρχουν διαθέσιμα δείγματα από πριν η έναρξη της νόσου επηρεάσει την ομιλία του ατόμου, το SpeakUnique μπορεί να επιδιορθώσει ακόμη και μικρές βλάβες στις δοκιμαστικές εγγραφές.
Ενώ το SpeakUnique απαιτεί από τους χρήστες να απαγγέλλουν 150 ή και 300 προτάσεις για να δημιουργήσουν έναν κλώνο φωνής, πιο εξελιγμένα συστήματα, όπως το VALL-E, θα μπορούσαν τελικά να τους επιτρέψουν να το κάνουν με μια πρόταση, κάτι που θα μπορούσε να κάνει την τεχνολογία πιο προσιτή σε άτομα για τα οποία η ομιλία δεν είναι εύκολη. .
Μόλις αποκτήσουν τον κλώνο φωνής τους, μπορούν να τον αντιστοιχίσουν με εφαρμογές μετατροπής κειμένου σε ομιλία ή λογισμικό παρακολούθησης ματιών για να επικοινωνούν με τη δική τους φωνή. Καθώς η τεχνολογία ανάγνωσης μυαλού βελτιώνεται, οι χρήστες μπορεί τελικά να μπορούν να χρησιμοποιήσουν τους κλώνους τους αφού έχουν χάσει την ικανότητα να κινούν ακόμη και τα μάτια τους.
Ο ηθοποιός Βαλ Κίλμερ εκμεταλλεύτηκε περίφημα την κλωνοποίηση φωνής. Μετά από μια μάχη με τον καρκίνο του λαιμού, που τον άφησε να μην μπορεί να μιλήσει καθαρά, η εταιρεία AI Sonantic χρησιμοποίησε 30 λεπτά ήχου από προηγούμενες ταινίες του για να δημιουργήσει έναν κλώνο φωνής για αυτόν. Ο Κίλμερ μπορεί τώρα να το χρησιμοποιήσει για να μεταγλωττίσει τις υποκριτικές του ερμηνείες, κάτι που έκανε πρόσφατα στο "Top Gun: Maverick".
«Ο Βαλ και η ομάδα του γνώριζαν ότι η δημιουργία ενός προσαρμοσμένου μοντέλου φωνής θα τον βοηθούσε να εξερευνήσει νέους τρόπους επικοινωνίας, σύνδεσης και δημιουργίας στο μέλλον», έγραψε ο Τζον Φλιν, συνιδρυτής και CTO της Sonantic, σε μια ανάρτηση ιστολογίου το 2021.
Deepfake ήχος
Ενώ η κλωνοποίηση φωνής δίνει στον Kilmer περισσότερες ευκαιρίες εργασίας, μπορεί να έχει το αντίθετο αποτέλεσμα σε άλλους καλλιτέχνες.
Το "Motherboard" ανέφερε πρόσφατα πώς τα στούντιο πιέζουν ηθοποιούς με μικρότερο κασέ από τον Κίλμερ να συμφωνήσουν να κλωνοποιήσουν τις φωνές τους. Θεωρητικά, θα μπορούσαν να πληρωθούν για μία συνεδρία στο στούντιο ηχογράφησης και μετά να δουν τον κλώνο τους να τους αντικαθιστά σε μία μελλοντική δουλειά. Ο Τιμ Φρίντλάντερ, πρόεδρος και ιδρυτής της Ένωσης Ηθοποιών Φωνής των ΗΠΑ, είπε στο Motherboard ότι ορισμένοι χρησιμοποιούν ακόμη και μπερδεμένη γλώσσα στα συμβόλαια, ώστε να μπορούν να ξεφύγουν από την κλωνοποίηση των φωνών των ηθοποιών χωρίς να το γνωρίζουν. «Πολλοί ηθοποιοί μπορεί να έχουν υπογράψει συμβόλαιο χωρίς να συνειδητοποιούν ότι έχει προστεθεί ένας τέτοιος όρος», είπε.
Σε άλλους ηθοποιούς λέγεται ξεκάθαρα ότι μπορούν είτε να συμφωνήσουν με τη ρήτρα, είτε να μην πάρουν τη δουλειά, σύμφωνα με τον Φρίντλάντερ, αλλά σε ορισμένους ερμηνευτές δεν δίνεται ποτέ η ευκαιρία να αποφασίσουν αν συμφωνούν με την κλωνοποίηση της φωνής τους ή για ποιο σκοπό.
Τον Ιανουάριο οι χρήστες του διαδικτύου εκμεταλλεύτηκαν τη δωρεάν εφαρμογή κλωνοποίησης φωνής της startup ElevenLabs, η οποία χρειάζεται μόλις ένα λεπτό ήχου για να δημιουργήσει έναν κλώνο, για να δημιουργήσουν κλιπ της Έμα Γουάτσον, του Τζο Ρόγκαν και άλλων διασημοτήτων στα οποία φέρονται να λένε απεχθή πράγματα, που ποτέ δεν είπαν στην πραγματικότητα.
Συνδυάζοντας τον κλώνο μιας φωνής με deepfake γραφικά, έχουμε περιεχόμενο που φαίνεται και ακούγεται αληθινό, αλλά... διευκολύνει τους κακοήθεις, όχι μόνο να αμαυρώσουν τη φήμη ενός δημόσιου προσώπου, αλλά και να δημιουργήσουν πειστική προπαγάνδα και να διαδώσουν παραπληροφόρηση.
Το ElevenLabs απαιτεί τώρα από τους χρήστες να πληρώσουν για την υπηρεσία. Πριν προσθέσει αυτή τη δικλείδα ασφαλέιας, ένας δημοσιογράφος του "Motherboard" κατέδειξε, ότι ήταν σε θέση να δημιουργήσει έναν δωρεάν κλώνο φωνής του εαυτού του με μόλις πέντε λεπτά ήχου και στη συνέχεια να τον χρησιμοποιήσει για να ξεγελάσει το σύστημα αναγνώρισης φωνής της τράπεζάς του!.
Εάν συστήματα όπως το VALL-E και το VALL-E X γίνουν ευρέως διαθέσιμα, κάτι τόσο σύντομο, όσο το μήνυμα αυτόματου τηλεφωνητή σας, μπορεί να είναι αρκετό για τους εγκληματίες για να παραβιάσουν τους τραπεζικούς σας λογαριασμούς, να παραβιάσουν την τεχνολογία σας ή να εξαπατήσουν τα αγαπημένα σας πρόσωπα.
ΗΗ Microsoft φαίνεται να συνειδητοποιεί πολύ καλά ότι οι άνθρωποι ενδέχεται να κάνουν κατάχρηση της τεχνητής νοημοσύνης της για κλωνοποίηση φωνής. Οι σελίδες επίδειξης τόσο για το VALL-E, όσο και για το VALL-E X, τελειώνουν με δηλώσεις δεοντολογίας, που υπογραμμίζουν την πιθανότητα πλαστογράφησης.
Η προεκτύπωση του VALL-E αναφέρει επίσης τη δυνατότητα δημιουργίας συστήματος για τον εντοπισμό των κλώνων φωνής του AI για τον μετριασμό των κινδύνων. Αν και αυτό δεν έχει αποδώσει ακόμη, βλέπουμε ήδη άλλους ερευνητές να επινοούν νέους τρόπους για να διακρίνουν τις φωνές που δημιουργούνται από την τεχνητή νοημοσύνη από τις ανθρώπινες. Για να είναι χρήσιμα τέτοια συστήματα, θα πρέπει να βρούμε έναν τρόπο για να τα εφαρμόσουμε, ωστόσο, και δεν είναι ακόμη σαφές πώς θα γίνει αυτό.
Προς το παρόν, ο συνδυασμός κωδικών πρόσβασης που βασίζονται στη φωνή, με άλλες μεθόδους ελέγχου ταυτότητας που είναι λιγότερο πλαστογραφήσιμες, μπορεί να μας βοηθήσει να αποφύγουμε την παραβίαση από κλώνους φωνής. Μπορούμε επίσης να ενθαρρύνουμε τα πιο εύπιστα αγαπημένα μας πρόσωπα να κλείσουν το τηλέφωνο και να μας καλέσουν οι ίδιοι, αν υποψιαστούν ότι κάτι δεν πάει καλά. Και υπενθυμίζουμε σε αυτούς (και στους εαυτούς μας) ότι δεν πρέπει να πιστεύουμε όλα όσα βλέπουμε και ακούμε στο διαδίκτυο.