Seit 2008 · Made in Bremerhaven

17 Jahre Callcenter.
Portiert in KI.

Was passiert, wenn jemand, der seit 2008 ViciDial-Cluster betreibt, eine KI-Telefonie-Architektur von Grund auf neu denkt? Es entsteht kein weiteres SaaS-Produkt. Es entsteht ein Call Control Layer, der die Zukunft der Arbeit in Callcentern fundamental verändern wird.

LiveKit + KI-Agenten: Wir waren früher dran als OpenAI.

Wir setzen LiveKit und KI-Sprachagenten seit Anfang 2024 produktiv in Callcentern ein — Monate bevor OpenAI und LiveKit im Oktober 2024 ihre „Advanced Voice“-Partnerschaft bekanntgaben. Was OpenAI heute als bahnbrechend vermarktet, haben wir nicht nur früher eingesetzt, sondern durch unseren selbstentwickelten Call Control Layer fundamental weiterentwickelt: Warm Transfer, Multi-Tenant-Isolation und 7-Emotionen-TTS existierten in dieser Kombination nirgendwo auf der Welt — auch nicht bei OpenAI.

Die DNA dieses Projekts

GoFonIA ist kein Startup, das „KI-Telefonie“ als Trend entdeckt hat. Es ist das Ergebnis von 17 Jahren operativer Callcenter-Erfahrung — komprimiert in eine Architektur, die alles weiß, was ein Callcenter braucht, bevor der erste Anruf eingeht.

2008
ViciDial seit Tag 1
17
Jahre Telefonie-Expertise
0
US-Abhängigkeiten
100%
Eigenentwicklung
2008

Erster ViciDial-Cluster

Aufbau und Betrieb produktiver ViciDial-Installationen. Predictive Dialing, Agent-Scripting, Campaign-Management — die gesamte Palette klassischer Callcenter-Technologie auf Open-Source-Basis.

2010 – 2020

Skalierung & Tiefenwissen

Betrieb von Multi-Carrier-Setups mit SIP-Trunking über Telekom, Plusnet, dus.net, voip2gsm. Asterisk-Tuning auf Kernel-Ebene. Entwicklung eigener Monitoring- und Reporting-Tools. Das Wissen, wo Callcenter-Technologie an ihre Grenzen stößt — und warum.

2023

Der Moment, in dem KI ernst wurde

Erste Experimente mit Sprachmodellen in Telefonie-Kontexten. Die Erkenntnis: Kein existierendes Framework kann das, was ein echtes Callcenter braucht. Weder die US-Cloud-Anbieter noch die europäischen Alternativen.

2024

Entwicklung des Call Control Layers

Beginn der Eigenentwicklung. Die Kernfrage: Wie baut man eine Telefonie-Steuerung, die nicht nur „Anruf annehmen und antworten“ kann, sondern die komplette Logik eines Callcenters abbildet — inklusive Warm Transfer, Warteschleifen, Tenant-Isolation und SIP-Orchestrierung?

2025 – 2026

GoFonIA: Die Matrix-Architektur

Fertigstellung der Single-Room-Architektur mit 5-Phasen-Transfer-Logik, 7-Emotions-TTS, Multi-Tenant DID-Routing und Watchdog-Engine. Produktiveinsatz bei ersten Kunden.

Der Call Control Layer

Das Herzstück von GoFonIA ist kein KI-Modell. Es ist eine selbstentwickelte Steuerungsschicht, die zwischen dem Telefonnetz und der KI operiert — und die gesamte Anruflogik orchestriert. Diese Schicht existiert in dieser Form kein zweites Mal im DACH-Raum.

Warum ein eigener Call Control Layer?

Weil Standard-Telefonie-Frameworks nicht dafür gebaut wurden, vier Teilnehmer in einem Raum zu halten und die Audioströme zwischen ihnen in Echtzeit umzuschalten. Weil konventionelle KI-Telefonie nur „Anruf → Antwort“ kennt — aber kein „Agent stellt vor, Kollege hört zu, Musik läuft, Anrufer wartet, alle im selben Raum“. Weil Tenant-Isolation auf DID-Ebene, Tool-Registry zur Laufzeit und SIP-Orchestrierung mit Fallback-Strategien in keinem SaaS-Baukasten der Welt vorgesehen sind.

Der Control Layer operiert auf fünf Ebenen gleichzeitig:

  • 1

    SIP-Orchestrierung

    DID-basierte Tenant-Erkennung beim SIP-Handshake. Dynamische Teilnehmererzeugung per outbound SIP. BYE-Management bei Verbindungsende.

  • 2

    Raum-Management

    Single-Room-Architektur: Alle Teilnehmer im selben Raum. Subskriptions-Matrix regelt, wer wen hört. Phasengesteuerte Audio-Umschaltung ohne Verbindungsabbruch.

  • 3

    Transfer-Logik

    5-Phasen-Zustandsmaschine mit Timeouts und Fallbacks. Tenant-spezifische MOH (Music-on-Hold, 8 GB lizenzfreie Bibliothek). Agent-Briefing an Ziel-Kollegen. Rückkehr bei Nicht-Erreichbarkeit.

  • 4

    Tenant-Isolation

    Pro Mandant: eigene API-Keys, Prompts, Stimmen, Emotions-Matrix, Wissensdatenbank, Tools, SIP-Credentials. Redis-basierte Session-Engine. Kein Cross-Tenant-Leak.

  • 5

    Watchdog & Cleanup

    Autonome Überwachung aller aktiven Räume. Timeout-Erkennung, Raum-Löschung per API, Redis-State-Bereinigung, E-Mail-Transkript-Versand. Vollautomatisch in < 2 Sekunden.

Die Matrix im Betrieb

Jeder Anruf durchläuft in Millisekunden eine Entscheidungskette, die auf sieben unabhängigen Ebenen parallel operiert:

SIP INVITE
DID-Erkennung
Tenant-Resolver
Prompt-Loader
Tool-Registry
LLM-Inferenz
Emotion-TTS
Audio-Stream
📞

Anrufer

SIP-Teilnehmer im Raum

🧠

KI-Agent

LLM + 7 Emotions-Stimmen

🎵

Music-Bot

WebRTC Warteschleife

👤

Ziel-Kollege

Outbound SIP im Raum

Die 7-Emotionen-Matrix

GoFonIA nutzt kein generisches TTS. Jeder Tenant bekommt eine kalibrierbare Emotions-Matrix mit sieben dimensionalen Stimmprofilen — pro Mandant, pro Kampagne, pro Anruftyp individuell konfigurierbar. Die Stimme reagiert nicht nur semantisch, sondern paraverbal.

😐

Neutral

Grundzustand. Sachlich, informationsdicht. Für Statusabfragen und Faktenkommunikation.

😊

Freundlich

Warm, zugewandt, offen. Für Begrüßung, Smalltalk, Service-Gespräche.

🤝

Empathisch

Verständnisvoll, geduldig, deeskalierend. Für Beschwerden und sensible Themen.

💼

Professionell

Verbindlich, präzise, distanziert-höflich. Für B2B, Banken, Versicherungen, Behördenkontext.

Dynamisch

Treibend, lösungsorientiert, energisch. Für Vertriebsgespräche und Conversion-orientierte Kampagnen.

🌊

Beruhigend

Ruhig, tief, vertrauensbildend. Für First-Level-Support, Warteschleifen, technische Hotlines.

🛡️

Bestimmt

Klar, direkt, grenzsetzend. Für Inkasso, Compliance-Prüfungen, Eskalation.

Die Emotions-Matrix arbeitet auf zwei paraverbalen Achsen: Sprechgeschwindigkeit (0.6×–2.4×) und Stimmfarbe (Frequenz-Shift ±18%). Plus kontextabhängige Pausenlogik: Der Agent weiß, wann Schweigen das mächtigere Werkzeug ist als Sprechen.

Hardware: Multi-Tenant auf eigener Infrastruktur

Kein AWS. Kein Google Cloud. Kein Azure. GoFonIA läuft auf dedizierten Hetzner-Rootservern in Frankfurt am Main und Nürnberg — virtualisiert über Proxmox, orchestriert in isolierten LXC-Containern.

Frankfurt
Primärstandort · FSN1-DC15
Nürnberg
Failover · NBG1-DC4
< 8ms
Latenz zwischen DCs

Pro Mandant: isolierter LXC-Container mit eigenem Redis-Store, eigenen API-Keys, eigenen Prompt-Versionen und eigener SIP-Registrierung. Kein Shared Memory. Kein Cross-Tenant-Datenfluss. Jeder Container ist ein autarkes Telefonie-System, das einzeln gesichert, migriert und skaliert werden kann.

In besonders sensiblen Bereichen setzen wir ausschließlich europäische KI ein — Mistral AI (Paris) und Infomaniak (Schweiz) für LLM, TTS und STT. Auf Wunsch vollständig on-premise: Unser gesamter Stack — LLM, TTS, STT und Call Control Layer — läuft auf Ihrer eigenen Hardware. Konzipiert für Banken, Versicherungen, Behörden, Rechtsanwälte und das Gesundheitswesen. Der Betrieb erfolgt vollständig DSGVO-konform auf Servern der Hetzner Online GmbH mit Auftragsverarbeitungsvertrag nach Art. 28 DSGVO.

Keine US-Abhängigkeit. Nirgendwo.

Jedes Byte, das GoFonIA verarbeitet, bleibt auf Servern der Hetzner Online GmbH in Frankfurt am Main und Nürnberg. Die eingesetzten KI-Modelle — Mistral AI (Paris) und Infomaniak (Schweiz) — haben ihren rechtlichen Sitz in der Europäischen Union. Standardmäßig US-frei. Für sensible Branchen (Banken, Versicherungen, Behörden, Rechtsanwälte, Gesundheitswesen) liefern wir den gesamten Stack on-premise auf Kundenhardware aus.

Kein US-Cloud Act. Keine Drittland-Übermittlung. Kein stillschweigender Datenabfluss. §203 StGB-konform. DSGVO-auditiert. Einmalig im DACH-Raum.

Was das für die Zukunft der Callcenter-Arbeit bedeutet

Der Call Control Layer von GoFonIA ist nicht darauf ausgelegt, menschliche Agenten zu ersetzen. Er ist darauf ausgelegt, die Arbeitsteilung zwischen Mensch und Maschine neu zu definieren.

Routine-Anrufe — Terminvereinbarungen, Statusabfragen, einfache FAQ — werden vollständig autonom vom KI-Agenten abgewickelt. Komplexe Fälle — Reklamationen, Verhandlung, Beratung — werden mit vollständigem Kontext und strukturiertem Briefing an einen menschlichen Kollegen übergeben. Der Kollege übernimmt das Gespräch ohne Einarbeitungszeit, weil der Agent bereits alles geklärt und dokumentiert hat.

Das Ergebnis: Callcenter werden nicht kleiner. Sie werden besser. Die repetitive Arbeit verschwindet. Die anspruchsvolle Arbeit bleibt — und wird durch perfekte Vorbereitung entlastet. Das ist keine Automatisierung. Das ist Augmentierung.

Die Philosophie

Wir bauen keine KI, die Menschen ersetzt. Wir bauen eine Steuerungsschicht, die 17 Jahre Callcenter-Wissen in Echtzeit orchestriert — damit die Menschen im Callcenter endlich das tun können, wofür sie eigentlich da sind: komplexe Probleme lösen. Nicht Formulare ausfüllen.