Video-KI22. Januar 202610 Min. Lesezeit

Google Veo 3.1 im Test: Was kostet die Video-KI mit Sound wirklich?

Google Veo 3 verspricht Videos mit Sound aus Text-Prompts. Ich habe die Video-KI über Vertex AI getestet und das Kivocado-Logo zum Leben erweckt. Hier meine ehrlichen Erfahrungen.

Google Veo 3 Test 2026 - Video-KI Erfahrungen

Übersicht

Hersteller:
Google DeepMind
Getestetes Modell:
Veo 3.1
Zugang:
Vertex AI (Google Cloud)
Preis:
0,13-0,35 €/Sekunde
Startguthaben:
300 $ für Neukunden
Video-Längen:
4-8 Sek. (bis 64 Sek. via Extend)
Auflösungen:
720p, 1080p, 4K Upscaling
Meine Bewertung:
4,2 / 5

Stand: Januar 2026. Offizielle Veo-Dokumentation

Fakten verifiziert: 22. Januar 2026 · Preise und Features direkt in Vertex AI geprüft

Das Wichtigste in Kürze

Was ist Veo 3?

Veo 3 ist Googles aktuelle Video-KI von DeepMind. Du gibst einen Text-Prompt ein und bekommst ein Video - mit nativem Sound. Das unterscheidet Veo von der Konkurrenz: Musik, Soundeffekte und sogar Sprache werden direkt mitgeneriert.

Die erste Veo-Version erschien Mitte 2024 als Demo. Ende 2025 hat Google Veo 3 für Entwickler und Cloud-Nutzer freigegeben. Aktuell ist Veo 3.1 Preview über Vertex AI verfügbar - das ist die Version, die ich getestet habe.

Veo unterstützt zwei Modi: Text-to-Video (du beschreibst das Video in Worten) und Image-to-Video (du lädst ein Bild hoch und beschreibst die Bewegung). Der zweite Modus ist besonders interessant, wenn du ein Logo oder einen Charakter animieren willst.

Wie kommt man an Veo 3?

Veo 3 ist über Vertex AI in der Google Cloud Console verfügbar. Es gibt keinen direkten Zugang über eine eigene Website wie bei Midjourney oder ChatGPT. Du brauchst ein Google Cloud Konto.

Schritt-für-Schritt Anleitung

  • 1.Google Cloud Console öffnen: Geh zu console.cloud.google.com
  • 2.Projekt erstellen: Falls du noch keins hast, lege ein neues Projekt an
  • 3.Vertex AI aktivieren: Suche nach "Vertex AI" und aktiviere die API für dein Projekt
  • 4.Video Generation Studio: Im Vertex AI Bereich findest du "Video Generation" unter den Generative AI Features
  • 5.Prompt eingeben: Wähle Veo 3 als Modell, gib deinen Prompt ein und starte die Generierung

Tipp: Die Google Cloud Oberfläche kann anfangs überwältigend wirken. Such direkt nach "Video Generation" in der Suchleiste - das bringt dich schnell zum richtigen Bereich.

Die Vertex AI Oberfläche: Text-to-Video, Image-to-Video, Länge und Modellwahl

Was kostet Veo 3?

Google hat die Preise für Veo 3 im September 2025 deutlich gesenkt. Die Kosten hängen davon ab, welche Version du nutzt und ob du Audio brauchst.

Offizielle Preise (Vertex AI)

ModellPreis/SekundePreis/Minute
Veo 3.1 (Standard)~0,35 €~21 €
Veo 3.1 Fast~0,13 €~8 €
Ohne Audio~0,18 €~11 €

Stand: Januar 2026. Vorher lag der Preis bei 0,75 $ pro Sekunde.

Alternative Zugangswege

  • Gemini App: Für Google One AI Premium Abonnenten (~22 €/Monat) ist Veo oft inklusive, aber mit täglichen Limits (ca. 3-5 Videos pro Tag).
  • Drittanbieter: Plattformen wie Fal.ai, Kie.ai oder Leonardo.ai bieten Veo 3 über Credit-Systeme an - teilweise günstiger für Gelegenheitsnutzer.

Gute Nachricht für Neukunden: Google gibt dir 300 $ Startguthaben für 90 Tage. Damit kannst du etwa 850 Sekunden Video in hoher Qualität generieren - genug für ausgiebiges Testen.

Achtung: Budget-Limits setzen

Die Abrechnung erfolgt sekundengenau. Bei umfangreichen Experimenten können die Kosten schnell steigen. Richte unbedingt Budget-Warnungen in der Google Cloud Console ein. Zur Einordnung: 1 Stunde Video in hoher Qualität kostet ca. 1.300 €.

Mein Test: Kivocado-Logo zum Leben erwecken

Für meinen Test wollte ich das Kivocado-Logo animieren. Die Idee: Der Avocado-Charakter läuft durch eine futuristische KI-Welt und trifft auf einen Roboter. Dann gehen beide zusammen weiter und laufen an Logos bekannter KI-Tools vorbei.

Setup und Prompt

Ich habe das Kivocado-Logo als Bild hochgeladen und Image-to-Video verwendet. Hier mein erster Prompt:

Prompt 1:

"Cinematic 3D animation of the avocado character from the uploaded image, keeping the compass embedded in its body exactly as shown. The character walks cheerfully from left to right through a vibrant, high-tech AI world. The background features floating holographic robot icons, glowing circuit patterns, and soft neon tool symbols. The avocado character waves happily with its right hand at a cute, smiling white robot standing nearby, then they perform a friendly handshake – the avocado using its right hand. Lighting is warm, soft, and welcoming with a shallow depth of field. High-quality textures, smooth character motion, 4k, upbeat ambient electronic sound effects."

Das erste Video war schon gut - die Avocado bewegte sich durch eine neon-beleuchtete Umgebung. Für das Folgevideo habe ich den Prompt erweitert:

Prompt 2:

"Continuing seamlessly from the previous scene, the avocado character with the compass in its body and the cute white robot now walk hand in hand from left to right, moving deeper into the AI tool world. They pass by floating, glowing holographic logos and icons representing ChatGPT, Claude AI, Gemini, Midjourney, and other popular AI tools. The vibrant high-tech environment stays consistent – floating holographic elements, glowing circuit patterns, soft neon tool symbols. Warm, soft lighting with shallow depth of field. The characters walk with a cheerful, curious attitude, looking around at the tools. High-quality textures, smooth motion, 4k, upbeat ambient electronic sound effects."

Das Ergebnis

Zuerst habe ich 4 Testvarianten generiert, um ein Gefühl für Veo zu bekommen. Dabei musste ich den Prompt mehrfach anpassen - zum Beispiel das Händeschütteln zwischen Avocado und Roboter. Danach habe ich 8 finale Videos erstellt: 4 Startszenen und 4 Folgevideos. Aus den besten Szenen habe ich einen 14-Sekunden-Clip zusammengeschnitten:

Kivocado Logo-Animation erstellt mit Google Veo 3.1 – Demonstration von Image-to-Video und nativem Sound.

Was mich überzeugt hat: Die Qualität der Bewegungen ist beeindruckend. Die Avocado bewegt sich flüssig, die Lichter pulsieren realistisch. Und der Sound passt - elektronische Klänge, die zur futuristischen Szene passen.

Was nicht perfekt war: Bei einem Video hat die Avocado plötzlich eine andere Farbe bekommen. Und die "KI-Tool-Logos" im Hintergrund waren eher abstrakte Formen - Veo kennt natürlich keine echten Markenlogos. Für ein finales Produkt müsste man das nachbearbeiten.

Was kann Veo 3?

Technische Specs

FeatureVeo 3.1
Video-Längen4, 6, 8 Sek. (Basis); bis 64 Sek. via Extend
Auflösungen720p, 1080p (Full-HD), 4K Upscaling
Formate16:9 (Landscape), 9:16 (Portrait), 1:1 (Square)
Input-ModiText-to-Video, Image-to-Video, Video-to-Video
AudioNative Generierung (Dialoge, Soundeffekte, Musik)

Native Audio-Synchronisation

Das ist Veos Killer-Feature. Die KI generiert nicht nur Bilder, sondern auch perfekt synchronisierten Sound. Wenn du promptest "Ein Mann beißt in einen Apfel", generiert Veo das knackende Geräusch exakt in dem Moment, in dem die Zähne im Video den Apfel berühren. Bei meinem Test passten die elektronischen Klänge zur futuristischen Szene.

Bild zu Video

Du kannst bis zu 4 Referenzbilder gleichzeitig hochladen - eins für den Charakter, eins für den Hintergrund, eins für den Stil. Das erhöht die Konsistenz massiv gegenüber der Vorgängerversion. Bei meinem Kivocado-Test hat das größtenteils funktioniert, nur manchmal gab es leichte Farbabweichungen.

Cineastische Kontrolle

Veo 3 versteht Fachbegriffe wie "Dolly Zoom", "Tracking Shot" oder "Shallow Depth of Field" weitaus präziser als die Vorgänger. Du kannst die Kamerabewegung direkt im Prompt beschreiben und bekommst professionelle Ergebnisse.

Text-Rendering

Im Gegensatz zu älteren Video-KIs kann Veo 3 Text auf Schildern oder T-Shirts meist korrekt und lesbar im Video platzieren. Das war bei früheren Modellen ein großes Problem.

Was Veo 3 nicht kann (Grenzen)

  • Längere Videos: Maximal 8 Sekunden pro Generierung. Mit der "Video Extension"-Funktion kannst du aber Clips auf bis zu 64 Sekunden verlängern - das Ende des ersten Clips wird zum Start des nächsten.
  • Begrenzte Kontrolle: Du kannst keine präzisen Anweisungen geben wie "die rechte Hand hebt sich". Die KI interpretiert deinen Prompt frei.
  • Konsistenz: Bei mehreren Videos zum gleichen Prompt können Farben und Details abweichen.
  • Kosten bei vielen Videos: Wenn du viele Varianten brauchst, summiert sich der Preis schnell. Die Extension-Funktion kostet auch für jedes Segment.

Pro-Tipp: Video Extension nutzen

Die "Extend Video"-Funktion nimmt Videos von 1-30 Sekunden als Input und verlängert sie um jeweils 7-8 Sekunden. So sind Clips über einer Minute möglich - 64 Sekunden ist ein realistischer Praxiswert.

Achtung: Während die Grundgenerierung 4K kann, wird bei der Extension oft auf 720p oder 1080p zurückgestuft. Wer verlängert, verliert aktuell oft die 4K-Option.

Das sind normale Einschränkungen bei Video-KI - Sora und Runway haben ähnliche Limits. Wichtig ist, realistische Erwartungen zu haben: Veo 3 erstellt Clips, keine Spielfilme.

Veo 3 vs Sora vs Runway (kurzer Vergleich)

Video-KI im Vergleich

FeatureVeo 3SoraRunway Gen-3
Max. Länge8 Sek. (64 via Extend)20 Sek.10 Sek.
Native Audio✓ JaNeinNein
Image-to-Video✓ Ja✓ Ja✓ Ja
ZugangGoogle CloudChatGPT ProRunway Website
PreisPay-as-you-go50 Videos/MonatCredits

Veos Stärke ist die native Audio-Generierung und das Pay-as-you-go Modell. Sora und Runway können keinen Sound generieren. Soras Stärke ist die längere Video-Dauer und der einfache Zugang über ChatGPT Pro - allerdings mit einem Limit von 50 Videos pro Monat. Für Power-User ist Veo 3 über die Cloud oft attraktiver. Runway hat die intuitivste Oberfläche und mehr Kontrolle über Kamerabewegungen.

Fazit

Veo 3 hat mich überzeugt. Die Qualität der generierten Videos ist hoch, die native Soundgenerierung spart Zeit, und die Image-to-Video-Funktion funktioniert gut für Logo-Animationen und Charaktere.

Der Zugang über Google Cloud ist etwas umständlicher als bei Sora (das direkt in ChatGPT sitzt) oder Runway (eigene Website). Aber das 300 $ Startguthaben macht den Einstieg risikofrei - du kannst ausgiebig testen, bevor du bezahlst.

Für wen eignet sich Veo 3?

  • Content Creator: Kurze Clips für Social Media mit passendem Sound
  • Marketer: Logo-Animationen und Produktvideos
  • Entwickler: API-Zugang für automatisierte Workflows
  • Experimentierfreudige: Wer Video-KI ausprobieren will, ohne Abo-Verpflichtung

Meine Empfehlung: Wenn du bereits Google Cloud nutzt oder gerade mit Video-KI experimentieren willst, lohnt sich Veo 3. Das Startguthaben gibt dir genug Spielraum zum Testen. Für gelegentliche Nutzer ist Sora via ChatGPT praktischer, für professionelle Videoproduktion bietet Runway mehr Kontrolle. Tipp: Wer volle Kontrolle über jedes Frame braucht, sollte sich Remotion mit Claude Code ansehen - damit erstellst du Videos programmatisch.

Häufige Fragen

Ist Veo 3 kostenlos?

Nicht direkt. Neue Google Cloud Nutzer bekommen 300 $ Startguthaben (90 Tage gültig). Damit kannst du etwa 750 Sekunden Video generieren. Danach kostet Veo 3 etwa 0,35 € pro Sekunde.

Wie lange dauert die Videogenerierung?

Ein 8-Sekunden-Video dauert etwa 3-5 Minuten. Kürzere Videos (4 Sekunden) sind schneller fertig. Die Generierung läuft im Hintergrund in der Google Cloud.

Kann ich eigene Bilder verwenden?

Ja, Veo 3 unterstützt Image-to-Video. Du lädst ein Bild hoch und beschreibst, wie es sich bewegen soll. Das habe ich mit dem Kivocado-Logo getestet - funktioniert gut für Logo-Animationen und Charaktere.

Brauche ich Programmierkenntnisse?

Nein. Die Vertex AI Oberfläche ist eine normale Web-UI. Du gibst deinen Prompt ein, wählst die Einstellungen und klickst auf Generieren. Keine Programmierung nötig. Für Automatisierung gibt es optional eine API.

Über den Autor

Laurence Zgonjanin
Laurence Zgonjanin

Testet und erklärt KI-Tools, damit du sie sofort einsetzen kannst. Begeistert sich für Web Development und KI-Automatisierungen.

Mehr über das Team →