Claude Opus 4.6: Anthropics neues Flaggschiff-Modell im Überblick
Opus 4.5 konnte vieles, aber bei langen Dokumenten war Schluss. Opus 4.6 behebt genau das: eine Million Token Kontextfenster, adaptives Denken und stärkere Benchmarks. Zum gleichen Preis.

Das Wichtigste in Kürze
- →Kontextfenster: Erstmals 1 Million Token bei einem Opus-Modell (Beta)
- →Benchmarks: +83 % bei ARC AGI 2, +24 % bei BrowseComp gegenüber Opus 4.5
- →Preis: 5 $ / 25 $ pro Million Input-/Output-Token — unverändert zu Opus 4.5
- →Neu: Adaptives Denken in vier Stufen, Agent Teams in Claude Code, Kontextkomprimierung
Die wichtigsten Neuerungen von Opus 4.6
Opus 4.6 ersetzt Claude Opus 4.5. Die größte Änderung: Das Kontextfenster wächst von 200.000 auf eine Million Token. Das reicht für rund 3.000 Seiten Text in einer einzigen Anfrage.
Dazu kommt adaptives Denken. Opus 4.6 wählt in vier Stufen selbst, wie gründlich es nachdenkt. Eine einfache Frage wird schnell und günstig beantwortet. Eine komplexe Analyse bekommt die volle Denktiefe.
Adaptives Denken: Die vier Stufen
- →Low: Schnelle Antworten auf einfache Fragen. Minimaler Token-Verbrauch.
- →Medium: Standardmäßiges Reasoning für die meisten Aufgaben.
- →High: Tiefere Analyse bei mehrstufigen Problemen, z.B. Code-Reviews oder Datenanalysen.
- →Max: Maximale Denktiefe für die schwierigsten Aufgaben. Höchster Token-Verbrauch, dafür die genauesten Antworten bei mehrstufigen Analysen.
Außerdem liefert Opus 4.6 bis zu 128.000 Output-Token pro Antwort. Lange Gespräche komprimiert das Modell automatisch, statt am Kontextlimit abzubrechen. Wichtige Informationen bleiben, Wiederholungen fallen weg.
Benchmarks: Opus 4.6 gegen GPT-5.2 und Gemini 3 Pro
Wie schlägt sich Opus 4.6 gegen die Konkurrenz? Anthropic veröffentlicht Benchmarks im Vergleich mit GPT-5.2, Gemini 3 Pro und dem Vorgänger.
| Benchmark | Opus 4.6 | GPT-5.2 | Gemini 3 Pro | Opus 4.5 |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 65,4 % | 64,7 % | 56,2 % | 59,8 % |
| SWE-bench Verified | 80,8 % | 80,0 % | 76,2 % | 80,9 % |
| ARC AGI 2 | 68,8 % | 54,2 % | 45,1 % | 37,6 % |
| HLE (mit Tools) | 53,1 % | 50,0 % | 45,8 % | 43,4 % |
| BrowseComp | 84,0 % | 77,9 % | 59,2 % | 67,8 % |
| MRCR v2 (1M Kontext) | 76,0 % | – | – | – |
Datenquelle: anthropic.com, Feb. 2026
Terminal-Bench 2.0 (Coding)
Misst, wie gut ein Modell eigenständig im Terminal programmieren kann.
ARC AGI 2 (Problemlösung)
Testet abstraktes Denken und Mustererkennung. Hier zeigt Opus 4.6 den größten Sprung: +83 % gegenüber dem Vorgänger.
BrowseComp (Recherche)
Bewertet, wie gut ein Modell schwer auffindbare Informationen im Web findet.
Der deutlichste Fortschritt zeigt sich bei ARC AGI 2: Opus 4.6 erreicht 68,8 %, während der Vorgänger Opus 4.5 bei 37,6 % lag. Das ist eine Verbesserung um 83 % und der größte Sprung zwischen zwei Modellversionen in diesem Benchmark.
Beim MRCR v2-Test, der prüft, ob ein Modell einzelne Fakten in riesigen Textmengen wiederfindet, erreicht Opus 4.6 eine Trefferquote von 76 %. Sonnet 4.5 liegt bei 18,5 %. Bei 256k Token steigt die Quote auf 93 %. Wer mit langen Dokumenten arbeitet, merkt den Unterschied sofort.
Wo Opus 4.6 nicht führt: Bei GPQA Diamond (akademisches Reasoning) liegt GPT-5.2 Pro mit 93,2 % knapp vor Opus 4.6 mit 91,3 %. Bei visuellen Aufgaben (MMMU Pro) hat Gemini 3 Pro mit 81,0 % die Nase vorn.
Neue Funktionen in der Praxis
Neben dem Modell selbst gibt es mehrere Produkt-Updates:
- →Claude in PowerPoint (neu): Eine Vorschau-Funktion, die Präsentationen mit der bestehenden Gestaltungsvorlage erstellt. Ähnlich wie Claude in Excel, aber für Folien.
- →Agent Teams in Claude Code: Mehrere Agenten arbeiten parallel an verschiedenen Teilaufgaben. Wer Claude Code für größere Projekte nutzt, kann Aufgaben jetzt aufteilen.
- →Kontextkomprimierung: Das Modell komprimiert lange Gespräche automatisch, damit die Unterhaltung nicht am Kontextlimit abbricht.
- →Cowork-Erweiterung: Die autonome Arbeitsfunktion aus Cowork kann jetzt mehrere Aufgaben gleichzeitig bearbeiten.
Preise und Verfügbarkeit
Die API-Preise bleiben unverändert: 5 $ pro Million Input-Token und 25 $ pro Million Output-Token. Für Prompts über 200.000 Token gilt ein höherer Tarif (10 $ / 37,50 $).
| Zugang | Input | Output |
|---|---|---|
| Standard (bis 200k Token) | 5 $ / Mio. | 25 $ / Mio. |
| Über 200k Token | 10 $ / Mio. | 37,50 $ / Mio. |
| Nur-USA-Inference | 1,1x Standard-Preis | |
*Stand: Februar 2026. Aktuelle Preise bei Anthropic
Erste Erfahrungen von Unternehmen
Mehrere Unternehmen haben Opus 4.6 vorab getestet:
- ✓Rakuten: 13 offene Issues an einem Tag autonom geschlossen
- ✓SentinelOne: Eine Code-Migration in der Hälfte der erwarteten Zeit abgeschlossen
- ✓NBIM (Norwegischer Staatsfonds): 38 von 40 Blind-Tests in der Cybersicherheit gegen Opus 4.5 gewonnen
- ✓Box: 10 % bessere Ergebnisse bei Analysen mit mehreren Datenquellen
Diese Ergebnisse stammen von Anthropics Partnern, nicht aus unabhängigen Tests. Wie sich Opus 4.6 im Alltag bewährt, wird sich in den kommenden Wochen zeigen.
Quelle: anthropic.com
Fazit
Die Entwicklung im KI-Bereich hat eine Schwelle überschritten. Was vor wenigen Monaten noch experimentell war, ist heute produktive Infrastruktur. Coding Agents sind kein Spielzeug mehr, sondern echte Zeitbeschleuniger.
Besonders das Konzept der Agent Teams in Claude Code wirkt wie ein nächster Schritt: parallele Problemlösung statt sequentieller Einzelarbeit. Genau diesen Ansatz werde ich in den kommenden Wochen systematisch in mehreren Workflows testen und dokumentieren, welche Effekte er auf Geschwindigkeit, Qualität und Ausbaufähigkeit hat.
Wer sich jetzt mit diesen Werkzeugen auseinandersetzt, verschafft sich einen strukturellen Vorsprung. Die Dynamik zeigt klar: KI-gestützte Entwicklung wird nicht optional, sie wird Standard.
Häufige Fragen
Ist Claude Opus 4.6 kostenlos nutzbar?
Auf claude.ai ist Opus 4.6 im kostenlosen Plan nur eingeschränkt verfügbar. Für unbegrenzten Zugang brauchst du Claude Pro für 18 € im Monat (Stand: Februar 2026, Preise bei Anthropic). Über die API zahlst du pro Token: 5 $ / 25 $ pro Million Input-/Output-Token.
Was ist der Unterschied zwischen Opus 4.6 und Sonnet 4.5?
Opus 4.6 ist Anthropics stärkstes Modell für komplexe Aufgaben, weil es tiefer denkt und mehr Kontext verarbeiten kann. Sonnet 4.5 ist schneller und günstiger, aber bei anspruchsvollen Analysen schwächer. Beim Kontextverständnis (MRCR v2) erreicht Opus 76 %, Sonnet nur 18,5 %.
Kann ich Opus 4.6 in Claude Code nutzen?
Ja. In Claude Code ist Opus 4.6 als Modell verfügbar. Neu sind die Agent Teams, bei denen mehrere Agenten parallel an verschiedenen Teilaufgaben arbeiten.
Wie groß ist das Context Window von Opus 4.6?
1 Million Token in der Beta. Zum ersten Mal kann ein Opus-Modell so viel Kontext auf einmal verarbeiten. Zum Vergleich: 1 Million Token entsprechen etwa 3.000 bis 4.000 Seiten Text.
Über den Autor

Datenanalyst mit über 7 Jahren Erfahrung. Zeigt wie KI den Arbeitsalltag effizienter macht – mit echten Workflows aus der Praxis.
Mehr über das Team →




