YouTube Instagram Vimeo RSS VIDEOAKTIV

Test: Magix Video Pro X 16 - KI-Funktionen für Alle - KI-Funktionen

Beitragsseiten

KI-FUNKTIONEN

Wie alle Hersteller wirbt auch Magix mit KI-Funktionen und verspricht bei der Speech to Text Funktion Verbesserungen. Die Funktion ist genau genommen schon zur letzten Version dazugekommen, doch man hat sie bisher nur als Abonnent, nicht jedoch mit der Kauf-Version erhalten. Genau das ändert Magix nun, obwohl dies für den Hersteller letztlich nicht gut kalkulierbar ist. Denn wie bei den anderen Herstellern auch, sind die auf externe Server ausgelagerten KI-Funktionen der Spracherkennung als auch der Sprachausgabe (Text-to-Speech) zugekaufte Leistungen. Für jede Nutzung bezahlt Magix also Geld, was bei einer länger nutzbaren Kauf-Version stetige Kosten verursachen kann. Auf der anderen Seite ist die „Halbwertszeit“ von KI-Funktionen derzeit noch sehr gering: Der technische Fortschritt wird die derzeit verfügbaren KI-Funktionen schnell veraltet aussehen lassen.

M5 Speech to Text Erzeugung

Das gesprochene Wort erkennt die KI-Funktion recht gut, doch im Text sind dennoch Schreibfehler und Kommata sind Mangelware. Hier wäre Nacharbeiten sinnvoll, was aber derzeit in diesem Fenster nicht funktioniert.

SPEECH-TO-TEXT

Die Funktion Speech-to-Text haben wir mit einem rund zehn Minuten langen selbst produzierten und fertig geschnittenen Workshop-Video getestet. Allerdings muss man die Funktion erst mal finden: Sie ist im Menü der rechten Maustaste unter „Audiofunktionen“ versteckt und fordert bei der ersten Verwendung eine Online-Registrierung. Die erste Analyse hat knappe acht Minuten gedauert, dann öffnete sich ein Textfeld, mit dem erkannten Text. Zugegeben: Ich habe kein ganz astreines Hochdeutsch, doch wirklich im Dialekt sprechen tue ich letztlich auch nicht. Was ich nach der Analyse zu lesen bekomme sieht auf den ersten Blick gar nicht so schlecht aus. Aus „ein“ bleibt dennoch ab und zu nur noch ein „n“ übrig, vereinzelt stimmt die Groß-/Kleinschreibung nicht und Satzzeichen, im Besonderen Komata, setzt die Spracherkennung deutlich zu spärlich. Auch das ein oder andere Satzende ist untergegangen. Meine Aussprache wertet die Spracherkennung also noch vergleichsweise treffsicher aus, meine Betonung dagegen weniger. Deshalb wäre nun eine Nachbearbeitung sinnvoll, zumal man selten wirklich den Untertitel so einblenden lassen will, wie man es tatsächlich gesprochen hat. Etwas bereinigt werden muss der das gesprochene Wort für die schriftliche Ausgabe nahezu immer.

M6 Speech to Text Untertitel

Die Software analysiert die Audiodatei nicht selbst, sondern schickt diese an einen Server im Internet. Dabei kommt es, wie in der unterschiedlichen Clipstruktur zu erkennen ist, je nach Tagesverfassung zu unterschiedlichen Ergebnissen.

Doch leider hapert es genau daran: Der Text lässt sich in diesem Textfeld nicht bearbeiten und leider nicht komplett kopieren. Es gibt zwei Schaltflächen: die eine schließt das Fenster und verwirft das Ergebnis, mit „Titel erstellen“ trennt Magix den erkannten Text in einzelne Titel auf, wobei man sich offensichtlich eher an der Zeichenmenge anstatt nach sinnvollen Satzzeichen orientiert. Entsprechend sind die Titel nicht anhand von Sprechpausen getrennt und haben einen etwas holprigen Lesefluss. Wir haben aufgrund dessen am Folgetag den das Video nochmals analysieren lassen – das Ergebnis wies dieses Mal allerdings größere Lücken auf. Magix begründet dies mit der Leistung zugebuchten des KI-Servers von Microsoft, weshalb wir einige Tage später die Analyse ein weiteres Mal haben laufen lassen: Tatsächlich war das Ergebnis nun wieder mit Tag eins identisch.

M7 Text to Speech Auswahl

Magix hat relativ viele Sprecher integriert, wobei einige eigentlich kaum nutzbar sind, da die Stimme im Gegensatz zur englischen Sprache im Deutschen zu künstlich klingt. Hier wäre eine Vorauswahl oder wenigstens eine Möglichkeit die Favoriten zu markieren sinnvoll.

TEXT-TO-SPEECH

Einen deutschen Vertonung in einen Untertitel zu bringen ist eine durchaus für Social Media interessante Funktion, viel Interessanter ist diese Funktion in Kombination mit genau dem umgekehrten Weg „Text to Speech“. Auch diese Funktion hatte Magix bereits zur letzten Version, doch sie steht eben nun allen Nutzern offen. Ideal wäre es man könnte den erkannten deutschen Text insgesamt kopieren, um ihn dann via Übersetzer wie deepl.com in eine andere Sprache umwandeln zu lassen. Auf diese Art und Weise kann man den Film nicht nur mit einem Fremdsprachen-Untertitel versehen, sondern über die Sprachausgabe auch mit einem neuen Sprecher versehen. Dass dies nicht Lippensynchron ist versteht sich von allein – auch wenn wir durchaus erwarten dass genau dies künftig dank KI möglich sein wird.

M8 Text to Speech

Der Text wird per Copy-and-Paste in das Textfeld von Video Pro X eingefügt. Als „Vorschau“ gibt es nur einen 5 Sekunden-Schnipsel. Die Regler für Geschwindigkeit und Tonhöhe sollte man nicht all zu stark ausreizen, denn sonst klingt das gesprochene Wort schnell lächerlich.

Auch bei der Integration der Text-to-Speech-Funktion kann man heiß darüber diskutieren, ob diese im Karteireiter „Magix Hub“ korrekt untergebracht ist. Hier gibt es aber in jedem Fall die „Sprachdienste“. Hier öffnet sich nun kein gesondertes Textfenster, sondern man bleibt auf der Oberfläche und kann den Text direkt per Kopieren und einfügen der Schnittsoftware übergeben. Maximal 10.000 Zeichen am Stück dürfen es sein, was je nach Sprechgeschwindigkeit zwischen siebeneinhalb bis achteinhalb Minuten in der Sprachausgabe macht. Über zwanzig verschiedene Stimmen von einem Kindern bis hin zu Frauen und Männer verschiedenen Alters bietet Magix, respektive Microsoft als Diensteanbieter hier an. Allerdings wäre Magix gut beraten hier die Stimmen besser zu kuratieren und Stimmen die in der Deutschen Sprachausgabe kaum erträglich sind direkt weg zu lassen. Zugeben muss man allerdings, dass die Ausgabe in englischer Sprache bei allen Stimmen deutlich natürlicher klingt – und das nicht nur für meine deutschen Ohren, sondern auch für nativ Speaker. Im Deutschen sind die Stimmen oft zu monoton und die angebotenen Regler haben wenig oder eher negative Auswirkungen. Mit einiger Mühe habe ich dann „Christoph“ gefunden, der den Text so vorließt, dass man den Kommentar verwenden kann, auch wenn der Zuhörer zweifelsfrei die KI-Ausgabe erkennt.