Meta AI stellt einen „nahtlosen“ Übersetzer für die sprachübergreifende Echtzeitkommunikation vor

Meta AI stellt einen „nahtlosen“ Übersetzer für die sprachübergreifende Echtzeitkommunikation vor

Sind Sie bereit, Ihrer Marke mehr Bekanntheit zu verleihen? Erwägen Sie, Sponsor der AI Impact Tour zu werden. Erfahren Sie mehr über Möglichkeiten Hier.


Meta-KI-Forscher gaben am Donnerstag bekannt, dass sie eine neue Reihe von Modellen für künstliche Intelligenz namens … entwickelt haben. Reibungslose Kommunikation Ziel ist es, eine natürlichere und realere Kommunikation über Sprachen hinweg zu ermöglichen und so das Konzept eines universellen Sprachübersetzers Wirklichkeit werden zu lassen. Die Modelle waren Öffentlich veröffentlicht Diese Woche mit Forschungsunterlagen Und Begleitende Daten.

Das Flaggschiffmodell namens Seamless vereint die Funktionen von drei anderen Modellen – SeamlessExpressive, SeamlessStreaming und SeamlessM4T v2 – in einem einheitlichen System. Entsprechend der ForschungsberichtSeamless ist „das erste öffentlich verfügbare System, das die Ausdruckskommunikation zwischen Sprachen in Echtzeit ermöglicht.“

Wie Seamless als globaler Echtzeitübersetzer funktioniert

Seamless Translator stellt eine neue Grenze bei der Nutzung von KI für die Blog-Kommunikation dar. Es kombiniert drei fortschrittliche neuronale Netzwerkmodelle, um eine Echtzeitübersetzung zwischen mehr als 100 gesprochenen und geschriebenen Sprachen zu ermöglichen und gleichzeitig das Stimmmuster, die Emotionen und den Ton der Stimme eines Sprechers zu bewahren.

Geschmeidig und ausdrucksstark Der Schwerpunkt liegt auf der Erhaltung des Gesangsstils und der emotionalen Nuancen in der Stimme eines Sprechers beim Übersetzen zwischen Sprachen. In dem Artikel heißt es: „Übersetzungen müssen die Nuancen des menschlichen Ausdrucks erfassen. Aktuelle Übersetzungstools sind zwar in der Lage, Inhalte innerhalb einer Konversation zu erfassen, für deren Ausgabe sind sie jedoch in der Regel auf monotone und robotergestützte Text-in-Sprache-Systeme angewiesen.“

Reibungsloses Streaming Ermöglicht eine Übersetzung nahezu in Echtzeit mit nur etwa 2 Sekunden Latenz. Forscher sagen, es sei das „erste groß angelegte mehrsprachige Modell“, das eine solche Übersetzungsgeschwindigkeit für fast 100 gesprochene und geschriebene Sprachen bietet.

drittes Modell, SeamlessM4T v2, dient als Grundlage für die beiden anderen Modelle. Es handelt sich um eine aktualisierte Version des ursprünglichen SeamlessM4T-Modells, das letztes Jahr veröffentlicht wurde. Die neue Architektur sorgt laut dem Papier für „eine bessere Konsistenz zwischen Text- und Sprachausgabe“.

„Zusammenfassend gibt uns Seamless einen entscheidenden Einblick in die technischen Grundlagen, die erforderlich sind, um einen universellen Sprachübersetzer von einem Science-Fiction-Konzept in eine reale Technologie zu verwandeln“, schrieben die Forscher.

Die Fähigkeit, globale Kommunikation zu transformieren

Vorlagenfunktionen können neue Audiokommunikationserlebnisse ermöglichen, von mehrsprachigen Echtzeitgesprächen über Smart Glasses bis hin zu automatisch synchronisierten Videos und Podcasts. Forscher weisen darauf hin, dass es auch dazu beitragen könnte, Sprachbarrieren für Einwanderer und andere Menschen mit Kommunikationsschwierigkeiten abzubauen.

„Durch die Veröffentlichung unserer Arbeit hoffen wir, dass Forscher und Entwickler die Wirkung unserer Beiträge erweitern können, indem sie Technologien entwickeln, die darauf abzielen, mehrsprachige Kommunikation in einer zunehmend vernetzten und vernetzten Welt zu überbrücken“, heißt es in dem Papier.

Allerdings räumen Forscher ein, dass die Technologie auch für Voice-Phishing, Deepfakes und andere Schadanwendungen missbraucht werden kann. Um die Sicherheit und den verantwortungsvollen Umgang mit Modellen zu fördern, haben sie mehrere Maßnahmen umgesetzt, darunter akustische Wasserzeichen und neue Techniken zur Reduzierung der toxischen halluzinogenen Produktion.

Die Modelle wurden öffentlich auf Hugging Face veröffentlicht

Im Einklang mit Metas Engagement für offene Forschung und Zusammenarbeit wurde Seamless Contact Forms der Öffentlichkeit zugänglich gemacht Gesichtsumarmung Und Github.

Siehe auch  IOS 14.6 Beta 1 deutete auf die Unterstützung von Apple Music HiFi mit Dolby-Audioreferenzen hin

Das Set umfasst die Modelle Seamless, SeamlessExpressive, SeamlessStreaming und SeamlessM4T v2 sowie zugehörige Metadaten.

Durch die kostenlose Bereitstellung dieser hochmodernen Modelle zur Verarbeitung natürlicher Sprache hofft Meta, anderen Forschern und Entwicklern die Möglichkeit zu geben, auf dieser Arbeit aufzubauen und sie zu erweitern, um Menschen über Sprachen und Kulturen hinweg zu verbinden. Die Veröffentlichung bestätigt Metas Führungsrolle im Bereich Open-Source-KI und stellt eine wertvolle neue Ressource für die Forschungsgemeinschaft dar.

„Insgesamt könnten die mehrdimensionalen Erfahrungen, die die Seamless-Technologie generieren könnte, zu einer entscheidenden Veränderung in der Art und Weise führen, wie maschinengestützte, sprachübergreifende Kommunikation erreicht wird“, schlussfolgerten die Forscher.

Die Mission von VentureBeat Es soll ein digitaler Stadtplatz für technische Entscheidungsträger sein, auf dem sie Wissen über transformative und transaktionale Unternehmenstechnologie erwerben können. Entdecken Sie unsere Zusammenfassungen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert