Mit VASA-1 von Microsoft kann eine Person mit einem einzigen Bild und einer einzigen Audiospur gefälscht werden

Beispielbild von Microsoft — Hineinzoomen / Ein Mockup-Bild von Microsoft von „VASA-1: Sprachbasierte sprechende Gesichter, die in Echtzeit generiert werden.“

Am Dienstag gab Microsoft Research Asia bekannt Vasa-1, ein KI-Modell, das aus einem einzelnen Bild und einer vorhandenen Audiospur ein synchronisiertes animiertes Video einer sprechenden oder singenden Person erstellen kann. In Zukunft könnte es virtuelle Avatare ermöglichen, die lokal angezeigt werden und keine Video-Feeds erfordern, oder es jedem mit ähnlichen Tools ermöglichen, online ein Foto von jemandem zu machen und es so aussehen zu lassen, als würde er sagen, was er will.

„Es ebnet den Weg für Echtzeitinteraktionen mit lebensechten Avataren, die menschliches Gesprächsverhalten nachahmen“, heißt es in der Forschungszusammenfassung. Begleitende Forschungsarbeit Mit dem Titel „VASA-1: Lebensechte, sprachbasierte, in Echtzeit erstellte sprechende Gesichter.“ Es ist das Werk von Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong und Baining Guo.

Das VASA-Framework (kurz für „Visual Affective Skills Animator“) nutzt maschinelles Lernen, um ein Standbild zusammen mit einem Audioclip der Sprache zu analysieren. Anschließend kann ein realistisches Video erstellt werden, das präzise Gesichtsausdrücke, Kopfbewegungen und Lippensynchronisation zum Ton enthält. Es klont oder simuliert keine Geräusche (wie andere Microsoft-Forschung), sondern verlässt sich auf vorhandene Spracheingaben, die speziell für einen bestimmten Zweck aufgezeichnet oder gesprochen werden können.

Microsoft behauptet, dass das Modell frühere Sprachanimationsmethoden in Bezug auf Realismus, Ausdruckskraft und Effizienz deutlich übertrifft. Für uns sieht es wie eine Verbesserung gegenüber den bisherigen Einzelbild-Animationsmodellen aus.

Forschungsbemühungen im Bereich der künstlichen Intelligenz erstrecken sich darauf, mindestens ein Bild einer Person oder Figur rückwärts zu verschieben Ein paar JahrenDoch seit Kurzem synchronisieren Forscher ein automatisch generiertes Video mit einer Audiospur. Im Februar wurde das KI-Modell zurückgerufen EMO: Bringen Sie das Bild lebendig zum Ausdruck Die Forschungsgruppe des Intelligent Computing Institute von Alibaba schlägt mit einem VASA-1-ähnlichen Ansatz Wellen, der ein bewegtes Bild automatisch mit einer gerenderten Audiospur synchronisieren kann (sie nennen es „Audio2Video“).

Üben Sie mit YouTube-Clips

Microsoft-Forscher trainierten VASA-1 VoxCeleb2-Datensatz Es wurde 2018 von drei Forschern der Universität Oxford erstellt. Dieser Datensatz enthält laut VoxCeleb2 „mehr als eine Million Phrasen von 6.112 Prominenten“, extrahiert aus auf YouTube hochgeladenen Videos. Berichten zufolge kann der VASA-1 512 x 512 Pixel große Videos mit bis zu 40 Bildern pro Sekunde und minimaler Latenz erstellen, was bedeutet, dass er für Echtzeitanwendungen wie Videokonferenzen verwendet werden könnte.

Um das Modell zu demonstrieren, hat Microsoft eine VASA-1-Suchseitenanzeige erstellt Viele Videobeispiele des Instruments in Aktion, einschließlich singender und sprechender Personen synchron zu zuvor aufgenommenen Audiospuren. Es zeigt, wie das Modell manipuliert werden kann, um unterschiedliche Stimmungen auszudrücken oder den Blick seiner Augen zu verändern. Beispiele hierfür sind auch einige der cooleren Generationen, wie Mona Lisa, die über einen Soundtrack von Anne Hathaway rappt, der eine Musicalnummer spielt. „Paparazzi“-Lied. Über Conan O'Brien.

Aus Datenschutzgründen wurde jedes Beispielbild auf ihrer Seite durch künstliche Intelligenz generiert, sagen die Forscher Stylegan2 Oder DALL-E 3 (außer der Mona Lisa). Aber natürlich lässt sich diese Technik auch auf Bilder von echten Menschen anwenden, obwohl sie wahrscheinlich besser funktioniert, wenn die Person einem der Prominenten im Trainingsdatensatz ähnelt. Forscher sagen jedoch, dass es nicht ihr Ziel sei, echte Menschen zu fälschen.

„Wir erforschen die Entwicklung visuell-emotionaler Fähigkeiten für virtuelle und interaktive Charaktere [sic]- Imitieren Sie niemanden in der realen Welt. Dies ist nur eine Forschungsdemo und es gibt keinen Plan, ein Produkt oder eine API zu veröffentlichen“, heißt es auf der Website.

Während Microsoft-Forscher potenzielle positive Anwendungen wie die Förderung von Bildungsgerechtigkeit, die Verbesserung der Zugänglichkeit und die Bereitstellung therapeutischer Begleitung anpreisen, kann die Technologie auch leicht missbraucht werden. Es könnte beispielsweise Menschen ermöglichen, Video-Chats zu fälschen, echte Menschen so aussehen zu lassen, als würden sie Dinge sagen, die sie nie gesagt haben (insbesondere in Verbindung mit einer geklonten Audiospur), oder Belästigungen einzelner Bilder in sozialen Medien ermöglichen.

Im Moment sieht das generierte Video in mancher Hinsicht noch unvollkommen aus, aber es könnte für einige Leute ziemlich überzeugend sein, wenn sie nicht wüssten, dass sie eine KI-generierte Animation erwarten. Die Forscher geben an, sich dessen bewusst zu sein, weshalb sie den Code, der das Modell antreibt, nicht öffentlich veröffentlicht haben.

„Wir lehnen jedes Verhalten ab, das dazu dient, irreführende oder schädliche Inhalte für echte Menschen zu erstellen, und wir sind daran interessiert, unsere Methode zur Verbesserung der Betrugserkennung anzuwenden“, schrieben die Forscher. „Derzeit enthalten auf diese Weise erstellte Videos noch erkennbare Artefakte, und die digitale Analyse zeigt, dass es noch eine Lücke gibt, um die Authentizität echter Videos zu erreichen.“

VASA-1 ist lediglich eine Forschungsdemonstration, aber Microsoft ist nicht die einzige Gruppe, die an der Entwicklung einer ähnlichen Technologie arbeitet. Wenn man sich an der jüngsten Geschichte der generativen KI orientieren kann, wird es wahrscheinlich nur eine Frage der Zeit sein, bis eine ähnliche Technologie Open Source und frei verfügbar wird – und es ist sehr wahrscheinlich, dass sie im Laufe der Zeit immer realistischer wird.

Aurel Southers

„Lebenslanger Social-Media-Liebhaber. Fällt oft hin. Schöpfer. Leidenschaftlicher Feinschmecker. Entdecker. Typischer Unruhestifter.“

Mit VASA-1 von Microsoft kann eine Person mit einem einzigen Bild und einer einzigen Audiospur gefälscht werden

Üben Sie mit YouTube-Clips

Schreibe einen Kommentar Antworten abbrechen

Die Zukunft des Internets: Wie sich unsere Online-Welt in den nächsten Jahren verändern wird

Die neuen KI-Experten von Google Gemini namens Gems könnten gut für SEO sein

Die KI-Technologie von Google führt nach historischem Aufschrei über ihre Genauigkeit wieder die Erzeugung menschlicher Bilder ein

Dieses erstaunliche Telefon scheint die Zukunft der faltbaren Telefone zu sein

Mit Spotify können Nutzer Songs in Echtzeit auf Instagram teilen

Alte und neue Ryzen-CPUs erhalten mit einem optionalen Windows-Update einen Geschwindigkeitsschub

Neueste Beiträge

Seiten

Üben Sie mit YouTube-Clips

Schreibe einen Kommentar Antworten abbrechen

You may also like

Die Zukunft des Internets: Wie sich unsere Online-Welt in den nächsten Jahren verändern wird

Die neuen KI-Experten von Google Gemini namens Gems könnten gut für SEO sein

Die KI-Technologie von Google führt nach historischem Aufschrei über ihre Genauigkeit wieder die Erzeugung menschlicher Bilder ein

Dieses erstaunliche Telefon scheint die Zukunft der faltbaren Telefone zu sein

Mit Spotify können Nutzer Songs in Echtzeit auf Instagram teilen

Alte und neue Ryzen-CPUs erhalten mit einem optionalen Windows-Update einen Geschwindigkeitsschub

Neueste Beiträge

Seiten