Microsoft-Forscher haben eine neue Anwendung angekündigt, die künstliche Intelligenz nutzt, um die Stimme einer Person mit nur wenigen Sekunden Training nachzuahmen. Das Modell der Stimme kann dann für Text-to-Speech-Anwendungen verwendet werden.
Die Anwendung namens VALL-E kann verwendet werden, um qualitativ hochwertige personalisierte Sprache mit nur einer dreisekündigen Registrierungsaufzeichnung eines Sprechers als akustische Aufforderung zu synthetisieren, schrieben die Forscher in einem Artikel, der online auf arXiv, einem kostenlosen Verteilungsdienst und einem offenen, veröffentlicht wurde -Zugriff auf das Archiv für wissenschaftliche Artikel.
Es gibt jetzt Programme, die Sprache ausschneiden und in einen Audiostream einfügen können, und diese Sprache wird aus getipptem Text in die Stimme eines Sprechers umgewandelt. Das Programm muss jedoch trainiert werden, um die Stimme einer Person zu emulieren, was eine Stunde oder länger dauern kann.
„Eines der herausragenden Dinge an diesem Modell ist, dass es das in Sekundenschnelle erledigt. Das ist sehr beeindruckend“, sagte Ross Rubin, Chefanalyst bei Reticle Research, einem Beratungsunternehmen für Verbrauchertechnologie in New York City, gegenüber TechNewsWorld.
Laut den Forschern übertrifft VALL-E bestehende hochmoderne Text-to-Speech-Systeme (TTS) sowohl in Bezug auf die Natürlichkeit der Sprache als auch auf die Ähnlichkeit der Sprecher erheblich.
Darüber hinaus kann VALL-E die Emotionen und die akustische Umgebung eines Sprechers bewahren. Wenn also beispielsweise eine Sprachprobe über ein Telefon aufgenommen wurde, würde der Text mit dieser Stimme so klingen, als würde er über ein Telefon vorgelesen.
‚Super beeindruckend‘
VALL-E ist eine spürbare Verbesserung gegenüber früheren hochmodernen Systemen wie YourTTS, das Anfang 2022 veröffentlicht wurde, sagte Giacomo Miceli, ein Informatiker und Schöpfer einer Website mit einer KI-generierten, nie endenden Diskussion die synthetische Rede von Werner Herzog und Slavoj Žižek.
„Interessant an VALL-E ist nicht nur die Tatsache, dass es nur drei Sekunden Audio benötigt, um eine Stimme zu klonen, sondern auch, wie genau es dieser Stimme, dem emotionalen Timbre und jedem Hintergrundgeräusch entsprechen kann“, sagte Miceli gegenüber TechNewsWorld. Ritu Jyoti, Group Vice President für KI und Automatisierung bei IDC, einem globalen Marktforschungsunternehmen, nannte VALL-E „bedeutend und super beeindruckend“.
„Dies ist eine deutliche Verbesserung gegenüber früheren Modellen, die eine viel längere Trainingszeit erfordern, um eine neue Stimme zu erzeugen“, sagte Jyoti gegenüber TechNewsWorld.
„Diese Technologie befindet sich noch in den Anfängen, und es werden weitere Verbesserungen erwartet, damit sie menschlicher klingt“, fügte sie hinzu.
Emotionsemulation in Frage gestellt
Im Gegensatz zu OpenAI, dem Hersteller von ChatGPT, hat Microsoft VALL-E nicht für die Öffentlichkeit geöffnet, sodass Fragen zu seiner Leistung offen bleiben. Gibt es beispielsweise Faktoren, die zu einer Verschlechterung der von der Anwendung erzeugten Sprache führen könnten?
„Je länger das generierte Audio-Snippet ist, desto höher ist die Wahrscheinlichkeit, dass ein Mensch Dinge hört, die ein bisschen falsch klingen“, bemerkte Miceli. „Wörter können bei der Sprachsynthese unklar sein, fehlen oder dupliziert werden.“
„Es ist auch möglich, dass das Wechseln zwischen emotionalen Registern unnatürlich klingen würde“, fügte er hinzu.
Die Fähigkeit der Anwendung, die Emotionen eines Sprechers zu emulieren, hat auch Skeptiker. „Es wird interessant sein zu sehen, wie robust diese Fähigkeit ist“, sagte Mark N. Vena, President und Principal Analyst bei SmartTech Research in San Jose, Kalifornien.
„Die Tatsache, dass sie behaupten, dass es dies mit nur wenigen Sekunden Audio tun kann, ist schwer zu glauben“, fuhr er fort, „angesichts der derzeitigen Einschränkungen von KI-Algorithmen, die viel längere Sprachproben erfordern.“
Ethische Bedenken
Experten sehen vorteilhafte Anwendungen für VALL-E sowie einige weniger vorteilhafte. Jyoti zitierte die Sprachbearbeitung und das Ersetzen von Sprechern. Miceli bemerkte, dass die Technologie verwendet werden könnte, um Bearbeitungswerkzeuge für Podcaster zu erstellen, die Stimme von intelligenten Lautsprechern anzupassen und in Messaging-Systeme und Chatrooms, Videospiele und sogar Navigationssysteme integriert zu werden.
„Die andere Seite der Medaille ist, dass ein böswilliger Benutzer beispielsweise die Stimme eines Politikers klonen und ihn dazu bringen könnte, Dinge zu sagen, die absurd oder aufrührerisch klingen, oder allgemein falsche Informationen oder Propaganda zu verbreiten“, fügte Miceli hinzu.
Vena sieht enormes Missbrauchspotenzial in der Technologie, wenn sie so gut ist, wie Microsoft behauptet. „Auf der Finanzdienstleistungs- und Sicherheitsebene ist es nicht schwierig, Anwendungsfälle von schändlichen Akteuren heraufzubeschwören, die wirklich schädliche Dinge anrichten könnten“, sagte er.
Auch Jyoti sieht ethische Bedenken rund um VALL-E brodeln. „Mit fortschreitender Technologie werden die von VALL-E und ähnlichen Technologien erzeugten Stimmen überzeugender“, erklärte sie. „Das würde die Tür zu realistischen Spam-Anrufen öffnen, die die Stimmen echter Menschen nachahmen, die ein potenzielles Opfer kennt.“
„Politiker und andere Persönlichkeiten des öffentlichen Lebens könnten auch verkörpert werden“, fügte sie hinzu.
„Es könnte potenzielle Sicherheitsbedenken geben“, fuhr sie fort. „Zum Beispiel erlauben einige Banken Voice-Passwörter, was Bedenken hinsichtlich Missbrauch aufwirft. Wir könnten eine Eskalation des Wettrüstens zwischen KI-generierten Inhalten und KI-Erkennungssoftware erwarten, um den Missbrauch zu stoppen.“
„Es ist wichtig zu beachten, dass VALL-E derzeit nicht verfügbar ist“, fügte Jyoti hinzu. „Insgesamt ist die Regulierung der KI von entscheidender Bedeutung. Wir müssen sehen, welche Maßnahmen Microsoft ergreift, um die Verwendung von VALL-E zu regulieren.“
Betreten Sie die Anwälte
Im Zusammenhang mit der Technologie können auch rechtliche Probleme auftreten. „Leider gibt es derzeit möglicherweise keine ausreichenden rechtlichen Instrumente, um solche Probleme direkt anzugehen, und stattdessen kann ein Sammelsurium von Gesetzen, die den Missbrauch der Technologie abdecken, verwendet werden, um einen solchen Missbrauch einzudämmen“, sagte Michael L. Teich, a Principal bei Harness IP, einer nationalen Anwaltskanzlei für geistiges Eigentum.
„Zum Beispiel“, fuhr er fort, „kann das Klonen von Stimmen zu einem Deepfake der Stimme einer echten Person führen, die dazu verwendet werden kann, einen Zuhörer dazu zu bringen, einem Betrug zu erliegen, oder sogar dazu verwendet werden kann, die Stimme eines Wahlkandidaten nachzuahmen. Während solche Missbräuche wahrscheinlich rechtliche Probleme in den Bereichen Betrug, Verleumdung oder Gesetze zu Fehlinformationen bei Wahlen aufwerfen würden, fehlt es an spezifischen KI-Gesetzen, die den Einsatz der Technologie selbst angehen würden.“
„Darüber hinaus kann es je nachdem, wie die anfängliche Sprachprobe erhalten wurde, Auswirkungen auf das Bundesabhörgesetz und die bundesstaatlichen Abhörgesetze geben, wenn die Sprachprobe beispielsweise über eine Telefonleitung erhalten wurde“, fügte er hinzu.
„Schließlich“, bemerkte Teich, „kann es unter bestimmten Umständen Bedenken hinsichtlich des Ersten Verfassungszusatzes geben, wenn ein solches Stimmenklonen von einem Regierungsakteur verwendet werden sollte, um legitime Stimmen zum Schweigen zu bringen, zu delegitimieren oder zu verwässern, damit sie ihr Recht auf freie Meinungsäußerung nicht ausüben.“
„Wenn diese Technologien ausgereift sind, werden möglicherweise spezifische Gesetze erforderlich, um die Technologie direkt anzugehen und ihren Missbrauch zu verhindern, wenn die Technologie voranschreitet und zugänglicher wird“, sagte er.
Intelligente Investitionen tätigen
In den letzten Wochen hat Microsoft KI-Schlagzeilen gemacht. Es wird erwartet, dass es dieses Jahr die ChatGPT-Technologie in seine Bing-Suchmaschine und möglicherweise in seine Office-Apps integrieren wird. Berichten zufolge plant es auch, 10 Millionen US-Dollar in OpenAI zu investieren – und jetzt in VALL-E.
„Ich denke, sie tätigen viele kluge Investitionen“, sagte Bob O’Donnell, Gründer und Chefanalyst von Technalysis Research, einem Marktforschungs- und Beratungsunternehmen für Technologie in Foster City, Kalifornien.
„Sie sind vor einigen Jahren auf den OpenAI-Zug aufgesprungen, also sind sie schon eine ganze Weile hinter den Kulissen dabei. Jetzt kommt es im großen Stil heraus“, sagte O’Donnell gegenüber TechNewsWorld.
„Sie mussten Google einholen, das für seine KI bekannt ist, aber Microsoft unternimmt einige aggressive Schritte, um an die Spitze zu kommen“, fuhr er fort. „Sie springen auf die Popularität und die unglaubliche Berichterstattung, die all diese Dinge erhalten haben.“
Rubin fügte hinzu: „Microsoft, das in den letzten 30 Jahren führend in Sachen Produktivität war, möchte diesen Vorsprung bewahren und ausbauen. KI könnte den Schlüssel dazu haben.“
Bild & Quelle: TechNewsWorld