Skip to content

kombify AI

kombify AI ist ein Provider-Aggregator fuer LLMs, Embeddings, Image-Generation, Voice und Speech. Eine API, viele Provider, einheitliche Abrechnung.

Was AI macht

  • Provider-Aggregation - OpenAI, Anthropic, Google, Mistral, Cohere, lokale Modelle (Ollama, vLLM)
  • Routing - automatisches Routing nach Cost, Latenz oder Capability
  • BYOK - eigene Provider-Keys nutzen, keine Markups
  • Managed Keys - kombify-Keys fuer Tenants ohne eigene Provider-Accounts
  • Voice und Speech - Text-to-Speech, Speech-to-Text, Voice-Cloning ueber SpeechKit
  • Observability - Token-Usage, Latency, Error-Rate pro Modell und Provider

Key-Hierarchie

Klare Reihenfolge:

  1. BYOK - wenn dein Tenant einen Provider-Key konfiguriert hat, wird dieser genutzt
  2. Managed Key - wenn kein BYOK, faellt AI auf den Managed-Key zurueck (kostenpflichtig je nach Plan)
  3. Nicht verfuegbar - wenn weder BYOK noch Managed-Key fuer diesen Provider, schlaegt der Call fehl

API

OpenAI-kompatible Endpoints fuer Chat-Completions und Embeddings:

curl https://api.kombify.io/v1/ai/chat/completions \
  -H "Authorization: Bearer ${KOMBIFY_KEY}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-opus-4-7",
    "messages": [{"role": "user", "content": "Hallo"}]
  }'

Provider-Praefix optional: claude-opus-4-7 -> Anthropic, gpt-5 -> OpenAI, gemini-3-pro -> Google, mistral-large -> Mistral.

Routing-Modi

  • explicit - Modell hart gewaehlt
  • fastest - schnellster verfuegbarer Provider mit kompatiblem Modell
  • cheapest - guenstigstes verfuegbares Modell mit gefordertem Capability-Set
  • fallback - primaeres Modell, bei Outage automatisch auf Backup

SDKs

  • Go - github.com/KombiverseLabs/kombify-go-common/ai (interner Stack)
  • Python - kombify-ai
  • Node - @kombify/ai

OpenAI-SDKs funktionieren mit base_url=https://api.kombify.io/v1/ai.

Voice und Speech

SpeechKit ist Open-Source und integriert via AI:

  • TTS - 50+ Stimmen, mehrere Engines
  • STT - Whisper, Deepgram, AssemblyAI
  • Voice-Cloning - ElevenLabs, Resemble

Observability

Pro Tenant:

  • Token-Usage pro Modell, Provider, Tag, Monat
  • Latency P50/P95/P99
  • Error-Rate
  • Cost-Estimate (auch fuer BYOK, basierend auf Provider-Pricing)

Limits

Free-Tier: 50.000 Token/Monat ueber Managed-Keys, BYOK unlimited (Provider-Limit). Details: Pricing.

Naechste Schritte