kombify AI¶
kombify AI ist ein Provider-Aggregator fuer LLMs, Embeddings, Image-Generation, Voice und Speech. Eine API, viele Provider, einheitliche Abrechnung.
Was AI macht¶
- Provider-Aggregation - OpenAI, Anthropic, Google, Mistral, Cohere, lokale Modelle (Ollama, vLLM)
- Routing - automatisches Routing nach Cost, Latenz oder Capability
- BYOK - eigene Provider-Keys nutzen, keine Markups
- Managed Keys - kombify-Keys fuer Tenants ohne eigene Provider-Accounts
- Voice und Speech - Text-to-Speech, Speech-to-Text, Voice-Cloning ueber SpeechKit
- Observability - Token-Usage, Latency, Error-Rate pro Modell und Provider
Key-Hierarchie¶
Klare Reihenfolge:
- BYOK - wenn dein Tenant einen Provider-Key konfiguriert hat, wird dieser genutzt
- Managed Key - wenn kein BYOK, faellt AI auf den Managed-Key zurueck (kostenpflichtig je nach Plan)
- Nicht verfuegbar - wenn weder BYOK noch Managed-Key fuer diesen Provider, schlaegt der Call fehl
API¶
OpenAI-kompatible Endpoints fuer Chat-Completions und Embeddings:
curl https://api.kombify.io/v1/ai/chat/completions \
-H "Authorization: Bearer ${KOMBIFY_KEY}" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-opus-4-7",
"messages": [{"role": "user", "content": "Hallo"}]
}'
Provider-Praefix optional: claude-opus-4-7 -> Anthropic, gpt-5 -> OpenAI, gemini-3-pro -> Google, mistral-large -> Mistral.
Routing-Modi¶
- explicit - Modell hart gewaehlt
- fastest - schnellster verfuegbarer Provider mit kompatiblem Modell
- cheapest - guenstigstes verfuegbares Modell mit gefordertem Capability-Set
- fallback - primaeres Modell, bei Outage automatisch auf Backup
SDKs¶
- Go -
github.com/KombiverseLabs/kombify-go-common/ai(interner Stack) - Python -
kombify-ai - Node -
@kombify/ai
OpenAI-SDKs funktionieren mit base_url=https://api.kombify.io/v1/ai.
Voice und Speech¶
SpeechKit ist Open-Source und integriert via AI:
- TTS - 50+ Stimmen, mehrere Engines
- STT - Whisper, Deepgram, AssemblyAI
- Voice-Cloning - ElevenLabs, Resemble
Observability¶
Pro Tenant:
- Token-Usage pro Modell, Provider, Tag, Monat
- Latency P50/P95/P99
- Error-Rate
- Cost-Estimate (auch fuer BYOK, basierend auf Provider-Pricing)
Limits¶
Free-Tier: 50.000 Token/Monat ueber Managed-Keys, BYOK unlimited (Provider-Limit). Details: Pricing.