Gesichtsprofil einer Frau, mit digitalen Schallwellen, die aus ihrem Mund kommen.

Voice Cloning

Voice Cloning bezeichnet einen Deepfake-Täuschungsversuch, bei dem Cyberkriminelle mithilfe Künstlicher Intelligenz (KI) die Stimme einer dem Opfer bekannten Person mit hoher Genauigkeit replizieren.

10 Min

Zurück zum Glossar

Was ist Voice Cloning?

Stellen Sie sich vor, eine Ihnen bekannte Person aus dem Büro oder ein Familienmitglied ruft an und bittet Sie dringend, persönliche Informationen zu nennen oder eine finanzielle Transaktion auszuführen. Alles erscheint real, es handelt sich unverkennbar um die Stimme der betreffenden Person. Doch was, wenn nicht? Was, wenn eine völlig fremde Person am anderen Ende der Leitung versucht, Sie zu täuschen? Dann haben Sie es mit Voice Cloning zu tun – einem komplexen Prozess, der mittels Künstlicher Intelligenz (KI) ein digitales Replikat der Stimme einer Person erstellt.

Mit den jüngsten Fortschritten der Künstlichen Intelligenz ist das Klonen von Stimmen zu einem mächtigen Werkzeug geworden, das innovativen Zwecken dient, jedoch auch zu betrügerischem Handeln verleiten kann. Verantwortungsvoll eingesetztes Voice Cloning eröffnet uns Möglichkeiten für kreative und barrierefreie Lösungen, zum Beispiel individuelle digitale Assistenten, Voiceovers in verschiedenen Sprachen und Wiederherstellung der Sprache für Menschen mit krankheitsbedingt eingeschränkter Sprechfähigkeit. In den falschen Händen kann es jedoch zu einem Mittel für Betrug und Desinformation werden. Mit der neuen Fähigkeit, schnell und effektiv naturgetreue Stimmen zu erzeugen, beginnt auch eine neue Ära, in der Hacker mehr denn je mit Social Engineering als Angriffstaktik arbeiten werden.

Eine aktuelle Studie von McAfee zeigt, dass jede vierte Person entweder selbst schon einmal Ziel von Voice Cloning war oder ein anderes Opfer kennt, und dass 77 % der Betroffenen tatsächlich Geld verloren haben. Bei Angriffen dieser Art kann es unter Umständen sogar um sehr viel Geld gehen. In einem Fall in den USA wurde die Stimme eines jungen Mädchens für eine vorgetäuschte Entführung benutzt, um ihre Mutter zur Zahlung eines Lösegelds von 1 Million Dollar zu nötigen. Der Mutter gelang es zwar schnell, ihre Tochter anzurufen und sich zu vergewissern, dass es sich zuvor um eine gefälschte Stimme gehandelt hatte, doch die vier Minuten, die dieser Fake-Anruf dauerte, bleiben ein traumatisches Erlebnis.

Gesichtsprofil eines Mannes mit einem etwas blasseren Spiegelbild gegenüber, beide verbunden mit einer Schallwelle aus dem Mund.

Wie Cyberkriminelle generative KI für Voice-Cloning-Betrug nutzen

Deepfake-Technologie ist nicht neu, doch ihre weit verbreitete – und effektive – Anwendung zum Klonen von Stimmen hat sich in den letzten Jahren enorm weiterentwickelt und das Arsenal der Cyberkriminellen vergrößert. KI-gesteuerte Deep-Learning-Modelle haben dafür gesorgt, dass Stimmklone realer klingen als je zuvor, und mit neuen, von neuronalen Netzwerken unterstützten Tools wie Tacotron von Google, WaveNet und Lyrebird lässt sich jede beliebige Stimme replizieren und zum „Lesen“ von Texteingaben verwenden. Diese Modelle imitieren nicht nur, sondern replizieren die Feinheiten, Intonation und besonderen Merkmale der Stimme einer Person mit erstaunlicher Genauigkeit, wobei oft nur eine kurze Hörprobe erforderlich ist – und je länger die Probe, desto genauer der Stimmklon.

Natürlich sind auch Hacker auf diese Technologie aufmerksam geworden und sehen sie als nützliches Instrument zur Unterstützung ihrer Betrugsmethoden. Sie kombinieren die Voice-Cloning-Technologie mit anderen Taktiken und entwickeln so noch überzeugendere Täuschungsstrategien, die als „Multi-Channel-Angriffe“ bezeichnet werden. Die Zielpersonen werden zum Beispiel per Anruf vor einer E-Mail gewarnt, um ihren Verdacht zu zerstreuen, noch bevor die eigentliche Phishing-E-Mail eintrifft. Dies schafft Vertrauen und erhöht so die kriminelle Erfolgsquote.

Ein besonders eindrucksvolles Beispiel dafür, welches Potenzial die Voice-Cloning-Technologie für Cyberangriffe bietet, war 2023 der Selbstversuch einer Journalistin, die erfolgreich auf ihr Bankkonto zugreifen konnte, indem sie eine Aufnahme ihrer eigenen geklonten Stimme benutzte. Auch wenn das Experiment für die Journalistin ohne persönliches Risiko war, demonstrierte es doch sehr deutlich die möglichen Folgen des Missbrauchs dieser Technologie.

Gleichzeitig ist das Klonen von Stimmen nicht mehr nur eine potenzielle, sondern eine sehr reale Bedrohung. Schon jetzt machen sich Cyberkriminelle diese Technologie zunutze, um in Fällen wie der oben erwähnten vorgetäuschten Entführung menschliche Gefühle und Vertrauen auszunutzen. Dies passiert so häufig, dass Polizeibehörden bereits Warnungen vor der raschen Zunahme dieser Bedrohungsszenarien herausgeben. Über den privaten Bereich hinaus sind zudem inzwischen auch Unternehmen weltweit davon betroffen. In Hongkong brachten Hacker einen Mitarbeiter im Finanzbereich eines multinationalen Unternehmens durch raffinierte Täuschung dazu, ihnen 25 Millionen Dollar zu überweisen. Mithilfe von Deepfake-Technologie wurde eine Videokonferenz mit dem vermeintlichen Finanzchef und anderen Mitarbeitenden des Unternehmens vorgetäuscht. Eine von den Betrügern verschickte E-Mail kam ihm zwar verdächtig vor, doch nach dem Videoanruf waren seine anfänglichen Zweifel verflogen, da sich unter den Teilnehmenden einige Kollegen befanden, deren Gesicht und Stimme er zu erkennen glaubte.

Voice Cloning kann auch von Kräften instrumentalisiert werden, deren Ziel es ist, die Gesellschaft zu manipulieren oder zu desinformieren. So geschehen im Januar 2024, als in den USA die Wählerschaft über eine angeblich von Präsident Joe Biden stammende Sprachnachricht dazu aufgerufen wurde, nicht an den Vorwahlen in New Hampshire teilzunehmen. Die Täter generierten die Nachricht mithilfe von KI, und obwohl sie schnell gemeldet wurde, hätte sie sehr leicht zu einem Instrument gesellschaftlicher Manipulation werden können, mit dem Potenzial, das Wahlergebnis zu beeinflussen. In einem weltweiten Superwahljahr wie 2024, mit Wahlen in 77 Ländern, die zusammen etwa die Hälfte der Weltbevölkerung und fast 60 Prozent des globalen Bruttoinlandsprodukts repräsentieren, ist es entscheidend, das hohe Gefährdungspotenzial der Voice-Cloning-Technologie für die Integrität globaler demokratischer Prozesse zu erkennen und Wege zur Lösung dieses Problems zu finden – bevor es zu spät ist.

Eine Weltkarte mit farblicher Kennzeichnung aller Regionen, in denen 2024 Wahlen stattfinden.

Voice Cloning-as-a-Service: Neue Produkte spielen der Cyberkriminalität in die Hände

Wie bereits gesehen, hat die Verfügbarkeit von Stimmklon-Technologien – darunter auch Open-Source-Apps – neue Möglichkeiten für Cyberkriminelle eröffnet, die laufend Wege suchen, um Kapital aus neuen Technologien zu schlagen. Momentan sind es Plattformen wie ElevenLabs, die sie zur Verbesserung ihrer Cybercrime-Methoden nutzen, doch das ist erst der Anfang.

Eine weitere Chance sehen sie in einem sehr effizienten und fortschrittlichen Geschäftsmodell, das als Voice Cloning-as-a-Service (VCaaS) bekannt ist. Von Cyberkriminellen im Dark Web angebotene Voice-Cloning-Services können hierbei beliebig abonniert oder erworben werden, um damit Impersonationsangriffe (Imitationen mit betrügerischer Absicht) durchzuführen – ganz ohne technische Kenntnisse, wodurch die Einstiegsschwelle in die Cyberkriminalität erheblich gesenkt wird.

Die Entwicklungsfortschritte im KI-Bereich generieren also ungewollte Synergien und tragen damit zur Professionalisierung der Cyberkriminalität bei, sodass Security-Verantwortliche gezwungen sind, ihre Sicherheitsstrategien neu zu definieren und anzupassen, um den neuen Bedrohungen einen Schritt voraus zu sein.

Wie kann man erkennen, dass es sich um Voice Cloning handelt?

Angesichts der Häufung von Voice-Cloning-Fällen und wachsender Angst vor Missbrauch dieser Technologie durch Cyberkriminelle stellt sich eine zentrale Frage: Wie kann man erkennen, dass es sich um Voice Cloning handelt? Dies ist meist schwierig, doch es wird bereits mit verschiedenen Methoden und Techniken daran gearbeitet:

Spektralanalyse: Durch eine genaue Analyse der spektralen Eigenschaften von Audiodaten im Fachlabour lassen sich Unregelmäßigkeiten aufspüren, die bei echter menschlicher Sprache normalerweise nicht auftreten. Dieser analytische Ansatz untersucht die spezifischen Muster innerhalb des Frequenzspektrums, um mögliche Anomalien in der Sprachdatei aufzudecken.
Machine-Learning-Modelle: Hochentwickelte Machine-Learning-Algorithmen werden trainiert, um anhand verschiedener akustischer Merkmale zwischen echten menschlichen Stimmen und synthetischen oder geklonten Stimmen zu unterscheiden.
Analyse zeitlicher Merkmale: Eine eingehende Untersuchung zeitlicher Aspekte wie Sprachtiming, Rhythmus und Intonation macht minimale Unregelmäßigkeiten sichtbar, die für Voice-Cloning-Algorithmen nur schwer exakt replizierbar sind. Diese Methode basiert auf den Nuancen im Zeitverlauf der gesprochenen Sprache.
Suche nach Artefakten: Voice Cloning hinterlässt oft digitale Artefakte oder kleine Fehler im Audiosignal. Die Erkennung solcher Anomalien kann ein wirksames Mittel sein, um Fälle künstlicher Stimmerzeugung zu identifizieren und eine zuverlässigere Authentifizierung zu ermöglichen.
Biometrische Spracherkennung: Biometrische Spracherkennungssysteme verbessern die Fähigkeit, spezifische Merkmale der Stimme einer Person festzustellen und sind sehr gut geeignet als Detektoren für Veränderungen oder synthetische Modifikationen von Sprachaufnahmen.
Menschliche Hörwahrnehmung: Geschulte Hörer haben eine erhöhte Sensibilität für feine Nuancen, mit der sie Abweichungen zwischen geklonten und echten Stimmen erkennen können, insbesondere wenn sie mit der Originalstimme vertraut sind.
Vergleichende Analyse: Durch den Vergleich einer mutmaßlich geklonten Stimme mit einer Originalaufnahme derselben Person lassen sich Diskrepanzen der Stimmeigenschaften per Analyse feststellen. Diese Methode basiert auf der Untersuchung bestimmter Merkmale innerhalb der Stimmmuster.

Realistisch betrachtet stehen jedoch im akuten Bedarfsfall meist weder Zeit noch Mittel zur Verfügung, um diese Methoden anzuwenden, so gut sie auch sein mögen. Stellen Sie sich vor, ein Familienmitglied ruft bei Ihnen an und bittet Sie um Hilfe. Sie erkennen seine Stimme, trotzdem kommt ein kurzer Verdachtsmoment auf. Würden Sie in dieser Situation erst eine professionelle Authentizitätsanalyse der Stimme durchführen lassen? Würden Sie warten, bis nachgewiesen ist, dass es sich tatsächlich um die betreffende Person handelt? „Nein“, werden die meisten antworten. Und genau deshalb sind Voice-Cloning-Angriffe so erfolgreich. Sie nutzen die Emotionen der Menschen aus und nötigen sie zu schnellem Handeln.

Auch Unternehmen können zur Zielscheibe von Voice-Cloning-Bedrohungen werden. Die Nachahmung von Führungskräften oder Mitarbeitenden mittels geklonter Stimmen birgt ernsthafte Risiken, die zu unbefugten Transaktionen oder zur Offenlegung sensibler Informationen führen können. Da bei diesen Angriffen mit menschlichen Emotionen gespielt und schnelles Handeln forciert wird, müssen Unternehmen proaktiv geeignete Gegenmaßnahmen ergreifen. Investitionen in starke Authentifizierungsmethoden, Personalschulungen und technologische Lösungen sind unerlässlich, um Unternehmensumgebungen vor Voice-Cloning-Risiken zu schützen.

So schützen Sie sich vor Voice Cloning

Angesichts der fortschreitenden technologischen Möglichkeiten ist es unerlässlich, wachsam zu bleiben und immer über die aktuelle Bedrohungslage informiert zu sein. Einzelpersonen und Organisationen sollten strategisch vorgehen und folgende Maßnahmen treffen, um sich vor Voice Cloning zu schützen:

Liste mit Empfehlungen, wie Sie sich am besten vor Voice Cloning schützen können.

Implementierung von MFA (Multi-Faktor-Authentifizierung): Priorisieren Sie die Einführung von MFA als zusätzliche Sicherheitsfunktion. Sprachanweisungen sollten durch eine weitere Form der Verifizierung abgesichert werden, vorzugsweise durch Fingerabdrücke, da diese zu den am schwersten zu duplizierenden biometrischen Merkmalen gehören und bei Alltagsgeräten weit verbreitet sind. Betrugsversuche mit dem Ziel, an sensible Informationen zu gelangen, werden so erheblich erschwert.
Awareness und Training: Führen Sie regelmäßig Personalschulungen durch, um sich und Ihr Team auf den neuesten Stand der Cyber-Bedrohungslage zu bringen. Informiert zu sein, ist eine proaktive Verteidigung.
Protokollregelung: Unternehmen sollten klare Protokolle für Finanztransaktionen und den Austausch sensibler Daten festlegen. Keine Anweisung darf diese Protokolle umgehen, auch dann nicht, wenn sie von einer vertrauten Stimme gegeben wird.
Unabhängige Überprüfung: Wenn Ihnen eine telefonische Anfrage verdächtig erscheint, obwohl sie von einer vertrauten Stimme kommt, legen Sie auf und suchen Sie den direkten Kontakt mit der Person, die Sie angeblich angerufen hat. Fachkreise empfehlen auch, ein Codewort festzulegen und es an Ihre Angehörigen weiterzugeben. Diese können dann im Falle eines angeblich von Ihnen kommenden verdächtigen Anrufs nach dem Codewort fragen und so herausfinden, ob es sich bei dem Anrufer tatsächlich um Sie handelt oder sich jemand für Sie ausgibt.
Datenverschlüsselung: Datenverschlüsselung schützt Sie nicht direkt vor Voice-Cloning-Betrug. Ein zusätzlicher Schutz durch starke Verschlüsselungsprotokolle für Übertragungs- und stationäre Daten ist dennoch immer zu empfehlen, insbesondere im Falle eines erfolgreichen Betrugsversuchs in Ihrem Unternehmen, beispielsweise durch Voice Cloning.
Informationsbeschränkung: Um das Risiko zu minimieren, sorgen Sie dafür, dass potenziell für Voice Cloning nutzbare Daten möglichst nicht öffentlich zugänglich sind. Vermeiden Sie die Veröffentlichung von Telefonnummern und E-Mail-Adressen im Internet, um Betrügern die Chance zu nehmen, öffentlich verfügbare Daten zur Erstellung von Stimmklonen zu nutzen.
Schutz durch neueste Technologien: So wie KI in der Lage ist, Stimmen zu klonen, kann sie auch Anomalien erkennen. Viele Anbieter haben dies erkannt und arbeiten bereits aktiv an der Entwicklung von KI-Systemen zur Erkennung von geklonten Stimmen. Beobachten Sie also den Markt für Voice-Cloning-Detektoren, um über die neuesten technologischen Schutzmöglichkeiten informiert zu sein.

So kann SoSafe Sie vor Voice Cloning schützen

Künstliche Intelligenz macht rasante Fortschritte, und mit ihr die Hacker-Szene. Das Beispiel Voice Cloning zeigt besonders deutlich, wie Cyberkriminelle neue Technologien missbrauchen können, um ihre Opfer noch raffinierter zu täuschen und die Effizienz ihrer Angriffe zu steigern.

Vor diesem Hintergrund ist es für Ihr Unternehmen entscheidend, die emotionalen Manipulationsstrategien der Cyberkriminellen zu kennen und Ihre Mitarbeitenden darin zu schulen, diese Bedrohungen zu erkennen. Die Bedrohungsszenarien sind jedoch so komplex, dass sie nicht nur Training, sondern auch einen ganzheitlichen Ansatz einer Human-Risk-Management-Platform erfordern.

SoSafe bietet eine Human Risk Management-Lösung, die Compliance und Awareness in einem abdeckt. Sie kombiniert aktuelle dynamische Module in unserem IT-Awareness-Training mit wertvollen Informationen und Tipps zur Erkennung und Abwehr von Cyber-Bedrohungen und gibt Ihnen die Möglichkeit, menschliche Sicherheitsrisiken in Ihrem Unternehmen insgesamt zu quantifizieren und zu minimieren. Mit unserem ganzheitlichen Ansatz möchten wir ein sicheres Arbeitsumfeld schaffen, in dem sicherheitsbewusstes Verhalten für Sie und Ihre Mitarbeitenden zur Routine wird.