Editorial: Künstliche Intelligenz und immer mehr Cloud - KI für Bild und Video

28. Februar 2023 - Joachim Sauer

Beitragsseiten

Seite 2 von 4

Doch (zumindest derzeit) greifen die verschiedenen KI-Ansätze auf Wissen zurück, das von Menschen erarbeitet wurde und noch müssen wir die passenden Fragen stellen, damit am Ende sinnvolle Texte, Bilder und Videos entstehen. Für die Bildauswahl dieses Editorials haben wir ca. 30 Anfragen an Hypotenuse AI geschickt. Erst als wir gelernt hatten, wie die Fragestellung aussehen muss und was die jeweilige KI benötigt, haben wir brauchbare Bilder und Texte erhalten.

Etwas Übung benötigt man derzeit noch um dem Rechner eine Anforderung zu stellen, aus der er ordentliche Bilder generieren kann.

Beim bewegten Bild ist das noch anders: Hier muss man neben der Idee zum Bild auch noch den passenden Text liefern. Vollautomatisch auf eine Fragestellung ein Video aus Text und passendem Bild erstellen – soweit ist die Technik derzeit noch nicht. Es gibt verschiedene Ansätze, wobei Synthesia bereits mit einer praxisgerechten Anwendung überzeugt: Aus vorgefertigten Moderatoren wählt man das passende „Modell“ fügt die passenden Schlagworte für die im Hintergrund ablaufende Präsentation hinzu und liefert den zu moderierenden Text.

In der kostenfreien Testversion bekommt man nach dem Zufallsprinzip beziehungsweise dem ausgewählten Themen-Preset eine Moderatorin oder Moderator vorgesetzt und die Länge des Moderationstexts ist sehr begrenzt.

Die KI von Synthesia sorgt dafür, dass nun alles zusammenläuft und sich der Mund der wahlweise weiblichen oder männlichen Moderatoren bewegt. Lippen-Synchronität ist dabei nur ansatzweise gegeben – doch durch die vielen schlecht übersetzten Spielfilme fällt das wahrscheinlich vielen gar nicht auf. Und genau deshalb ist es durchaus denkbar, dass einige Firmen dieses Werkzeug für kurze firmeninterne Schulungen durchaus attraktiv finden. Immerhin hat der Mitarbeiter so einen persönlichen Bezug – zumal man sich vorstellen kann, dass hier künftig bekannte Persönlichkeiten oder der eigene Firmenchef Pate für das entsprechende Avatar steht.

Die deutsche Sprache setzt die KI besser um als die meisten Navigationssysteme, die zwar auch eine automatisierte Sprachausgabe haben, aber eher auf Textschnipsel zurückgreifen. Die Machart ist zumindest für kurze Anleitungen durchaus eine Option.