kombify AI¶

kombify AI ist ein Provider-Aggregator fuer LLMs, Embeddings, Image-Generation, Voice und Speech. Eine API, viele Provider, einheitliche Abrechnung.

Was AI macht¶

Provider-Aggregation - OpenAI, Anthropic, Google, Mistral, Cohere, lokale Modelle (Ollama, vLLM)
Routing - automatisches Routing nach Cost, Latenz oder Capability
BYOK - eigene Provider-Keys nutzen, keine Markups
Managed Keys - kombify-Keys fuer Tenants ohne eigene Provider-Accounts
Voice und Speech - Text-to-Speech, Speech-to-Text, Voice-Cloning ueber SpeechKit
Observability - Token-Usage, Latency, Error-Rate pro Modell und Provider

Key-Hierarchie¶

Klare Reihenfolge:

BYOK - wenn dein Tenant einen Provider-Key konfiguriert hat, wird dieser genutzt
Managed Key - wenn kein BYOK, faellt AI auf den Managed-Key zurueck (kostenpflichtig je nach Plan)
Nicht verfuegbar - wenn weder BYOK noch Managed-Key fuer diesen Provider, schlaegt der Call fehl

API¶

OpenAI-kompatible Endpoints fuer Chat-Completions und Embeddings:

curl https://api.kombify.io/v1/ai/chat/completions \
  -H "Authorization: Bearer ${KOMBIFY_KEY}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-opus-4-7",
    "messages": [{"role": "user", "content": "Hallo"}]
  }'

Provider-Praefix optional: claude-opus-4-7 -> Anthropic, gpt-5 -> OpenAI, gemini-3-pro -> Google, mistral-large -> Mistral.

Routing-Modi¶

explicit - Modell hart gewaehlt
fastest - schnellster verfuegbarer Provider mit kompatiblem Modell
cheapest - guenstigstes verfuegbares Modell mit gefordertem Capability-Set
fallback - primaeres Modell, bei Outage automatisch auf Backup

SDKs¶

Go - github.com/KombiverseLabs/kombify-go-common/ai (interner Stack)
Python - kombify-ai
Node - @kombify/ai

OpenAI-SDKs funktionieren mit base_url=https://api.kombify.io/v1/ai.

Voice und Speech¶

SpeechKit ist Open-Source und integriert via AI:

TTS - 50+ Stimmen, mehrere Engines
STT - Whisper, Deepgram, AssemblyAI
Voice-Cloning - ElevenLabs, Resemble

Observability¶

Pro Tenant:

Token-Usage pro Modell, Provider, Tag, Monat
Latency P50/P95/P99
Error-Rate
Cost-Estimate (auch fuer BYOK, basierend auf Provider-Pricing)

Limits¶

Free-Tier: 50.000 Token/Monat ueber Managed-Keys, BYOK unlimited (Provider-Limit). Details: Pricing.