17 Jahre Callcenter.
Portiert in KI.
Was passiert, wenn jemand, der seit 2008 ViciDial-Cluster betreibt, eine KI-Telefonie-Architektur von Grund auf neu denkt? Es entsteht kein weiteres SaaS-Produkt. Es entsteht ein Call Control Layer, der die Zukunft der Arbeit in Callcentern fundamental verändern wird.
LiveKit + KI-Agenten: Wir waren früher dran als OpenAI.
Wir setzen LiveKit und KI-Sprachagenten seit Anfang 2024 produktiv in Callcentern ein — Monate bevor OpenAI und LiveKit im Oktober 2024 ihre „Advanced Voice“-Partnerschaft bekanntgaben. Was OpenAI heute als bahnbrechend vermarktet, haben wir nicht nur früher eingesetzt, sondern durch unseren selbstentwickelten Call Control Layer fundamental weiterentwickelt: Warm Transfer, Multi-Tenant-Isolation und 7-Emotionen-TTS existierten in dieser Kombination nirgendwo auf der Welt — auch nicht bei OpenAI.
Die DNA dieses Projekts
GoFonIA ist kein Startup, das „KI-Telefonie“ als Trend entdeckt hat. Es ist das Ergebnis von 17 Jahren operativer Callcenter-Erfahrung — komprimiert in eine Architektur, die alles weiß, was ein Callcenter braucht, bevor der erste Anruf eingeht.
Erster ViciDial-Cluster
Aufbau und Betrieb produktiver ViciDial-Installationen. Predictive Dialing, Agent-Scripting, Campaign-Management — die gesamte Palette klassischer Callcenter-Technologie auf Open-Source-Basis.
Skalierung & Tiefenwissen
Betrieb von Multi-Carrier-Setups mit SIP-Trunking über Telekom, Plusnet, dus.net, voip2gsm. Asterisk-Tuning auf Kernel-Ebene. Entwicklung eigener Monitoring- und Reporting-Tools. Das Wissen, wo Callcenter-Technologie an ihre Grenzen stößt — und warum.
Der Moment, in dem KI ernst wurde
Erste Experimente mit Sprachmodellen in Telefonie-Kontexten. Die Erkenntnis: Kein existierendes Framework kann das, was ein echtes Callcenter braucht. Weder die US-Cloud-Anbieter noch die europäischen Alternativen.
Entwicklung des Call Control Layers
Beginn der Eigenentwicklung. Die Kernfrage: Wie baut man eine Telefonie-Steuerung, die nicht nur „Anruf annehmen und antworten“ kann, sondern die komplette Logik eines Callcenters abbildet — inklusive Warm Transfer, Warteschleifen, Tenant-Isolation und SIP-Orchestrierung?
GoFonIA: Die Matrix-Architektur
Fertigstellung der Single-Room-Architektur mit 5-Phasen-Transfer-Logik, 7-Emotions-TTS, Multi-Tenant DID-Routing und Watchdog-Engine. Produktiveinsatz bei ersten Kunden.
Der Call Control Layer
Das Herzstück von GoFonIA ist kein KI-Modell. Es ist eine selbstentwickelte Steuerungsschicht, die zwischen dem Telefonnetz und der KI operiert — und die gesamte Anruflogik orchestriert. Diese Schicht existiert in dieser Form kein zweites Mal im DACH-Raum.
Warum ein eigener Call Control Layer?
Weil Standard-Telefonie-Frameworks nicht dafür gebaut wurden, vier Teilnehmer in einem Raum zu halten und die Audioströme zwischen ihnen in Echtzeit umzuschalten. Weil konventionelle KI-Telefonie nur „Anruf → Antwort“ kennt — aber kein „Agent stellt vor, Kollege hört zu, Musik läuft, Anrufer wartet, alle im selben Raum“. Weil Tenant-Isolation auf DID-Ebene, Tool-Registry zur Laufzeit und SIP-Orchestrierung mit Fallback-Strategien in keinem SaaS-Baukasten der Welt vorgesehen sind.
Der Control Layer operiert auf fünf Ebenen gleichzeitig:
-
1
SIP-Orchestrierung
DID-basierte Tenant-Erkennung beim SIP-Handshake. Dynamische Teilnehmererzeugung per outbound SIP. BYE-Management bei Verbindungsende.
-
2
Raum-Management
Single-Room-Architektur: Alle Teilnehmer im selben Raum. Subskriptions-Matrix regelt, wer wen hört. Phasengesteuerte Audio-Umschaltung ohne Verbindungsabbruch.
-
3
Transfer-Logik
5-Phasen-Zustandsmaschine mit Timeouts und Fallbacks. Tenant-spezifische MOH (Music-on-Hold, 8 GB lizenzfreie Bibliothek). Agent-Briefing an Ziel-Kollegen. Rückkehr bei Nicht-Erreichbarkeit.
-
4
Tenant-Isolation
Pro Mandant: eigene API-Keys, Prompts, Stimmen, Emotions-Matrix, Wissensdatenbank, Tools, SIP-Credentials. Redis-basierte Session-Engine. Kein Cross-Tenant-Leak.
-
5
Watchdog & Cleanup
Autonome Überwachung aller aktiven Räume. Timeout-Erkennung, Raum-Löschung per API, Redis-State-Bereinigung, E-Mail-Transkript-Versand. Vollautomatisch in < 2 Sekunden.
Die Matrix im Betrieb
Jeder Anruf durchläuft in Millisekunden eine Entscheidungskette, die auf sieben unabhängigen Ebenen parallel operiert:
Anrufer
SIP-Teilnehmer im Raum
KI-Agent
LLM + 7 Emotions-Stimmen
Music-Bot
WebRTC Warteschleife
Ziel-Kollege
Outbound SIP im Raum
Die 7-Emotionen-Matrix
GoFonIA nutzt kein generisches TTS. Jeder Tenant bekommt eine kalibrierbare Emotions-Matrix mit sieben dimensionalen Stimmprofilen — pro Mandant, pro Kampagne, pro Anruftyp individuell konfigurierbar. Die Stimme reagiert nicht nur semantisch, sondern paraverbal.
Neutral
Grundzustand. Sachlich, informationsdicht. Für Statusabfragen und Faktenkommunikation.
Freundlich
Warm, zugewandt, offen. Für Begrüßung, Smalltalk, Service-Gespräche.
Empathisch
Verständnisvoll, geduldig, deeskalierend. Für Beschwerden und sensible Themen.
Professionell
Verbindlich, präzise, distanziert-höflich. Für B2B, Banken, Versicherungen, Behördenkontext.
Dynamisch
Treibend, lösungsorientiert, energisch. Für Vertriebsgespräche und Conversion-orientierte Kampagnen.
Beruhigend
Ruhig, tief, vertrauensbildend. Für First-Level-Support, Warteschleifen, technische Hotlines.
Bestimmt
Klar, direkt, grenzsetzend. Für Inkasso, Compliance-Prüfungen, Eskalation.
Die Emotions-Matrix arbeitet auf zwei paraverbalen Achsen: Sprechgeschwindigkeit (0.6×–2.4×) und Stimmfarbe (Frequenz-Shift ±18%). Plus kontextabhängige Pausenlogik: Der Agent weiß, wann Schweigen das mächtigere Werkzeug ist als Sprechen.
Hardware: Multi-Tenant auf eigener Infrastruktur
Kein AWS. Kein Google Cloud. Kein Azure. GoFonIA läuft auf dedizierten Hetzner-Rootservern in Frankfurt am Main und Nürnberg — virtualisiert über Proxmox, orchestriert in isolierten LXC-Containern.
Pro Mandant: isolierter LXC-Container mit eigenem Redis-Store, eigenen API-Keys, eigenen Prompt-Versionen und eigener SIP-Registrierung. Kein Shared Memory. Kein Cross-Tenant-Datenfluss. Jeder Container ist ein autarkes Telefonie-System, das einzeln gesichert, migriert und skaliert werden kann.
In besonders sensiblen Bereichen setzen wir ausschließlich europäische KI ein — Mistral AI (Paris) und Infomaniak (Schweiz) für LLM, TTS und STT. Auf Wunsch vollständig on-premise: Unser gesamter Stack — LLM, TTS, STT und Call Control Layer — läuft auf Ihrer eigenen Hardware. Konzipiert für Banken, Versicherungen, Behörden, Rechtsanwälte und das Gesundheitswesen. Der Betrieb erfolgt vollständig DSGVO-konform auf Servern der Hetzner Online GmbH mit Auftragsverarbeitungsvertrag nach Art. 28 DSGVO.
Keine US-Abhängigkeit. Nirgendwo.
Jedes Byte, das GoFonIA verarbeitet, bleibt auf Servern der Hetzner Online GmbH in Frankfurt am Main und Nürnberg. Die eingesetzten KI-Modelle — Mistral AI (Paris) und Infomaniak (Schweiz) — haben ihren rechtlichen Sitz in der Europäischen Union. Standardmäßig US-frei. Für sensible Branchen (Banken, Versicherungen, Behörden, Rechtsanwälte, Gesundheitswesen) liefern wir den gesamten Stack on-premise auf Kundenhardware aus.
Kein US-Cloud Act. Keine Drittland-Übermittlung. Kein stillschweigender Datenabfluss. §203 StGB-konform. DSGVO-auditiert. Einmalig im DACH-Raum.
Was das für die Zukunft der Callcenter-Arbeit bedeutet
Der Call Control Layer von GoFonIA ist nicht darauf ausgelegt, menschliche Agenten zu ersetzen. Er ist darauf ausgelegt, die Arbeitsteilung zwischen Mensch und Maschine neu zu definieren.
Routine-Anrufe — Terminvereinbarungen, Statusabfragen, einfache FAQ — werden vollständig autonom vom KI-Agenten abgewickelt. Komplexe Fälle — Reklamationen, Verhandlung, Beratung — werden mit vollständigem Kontext und strukturiertem Briefing an einen menschlichen Kollegen übergeben. Der Kollege übernimmt das Gespräch ohne Einarbeitungszeit, weil der Agent bereits alles geklärt und dokumentiert hat.
Das Ergebnis: Callcenter werden nicht kleiner. Sie werden besser. Die repetitive Arbeit verschwindet. Die anspruchsvolle Arbeit bleibt — und wird durch perfekte Vorbereitung entlastet. Das ist keine Automatisierung. Das ist Augmentierung.
Die Philosophie
Wir bauen keine KI, die Menschen ersetzt. Wir bauen eine Steuerungsschicht, die 17 Jahre Callcenter-Wissen in Echtzeit orchestriert — damit die Menschen im Callcenter endlich das tun können, wofür sie eigentlich da sind: komplexe Probleme lösen. Nicht Formulare ausfüllen.