Tutti i sistemi operativi
Pagina di stato aggiornata per tutti i componenti Mentis. Ultimo aggiornamento: 5 mag 2026, 09:00 CEST.
Componenti
API (FastAPI)
REST API, autenticazione, webhook Stripe
Uptime
99.98%
Ultimo incidente
12 apr 2026
Web App (Next.js)
Frontend, SSR, App Router
Uptime
99.99%
Ultimo incidente
Nessuno
Worker (Temporal)
Orchestrazione run agenti, replay deterministico
Uptime
99.95%
Ultimo incidente
3 apr 2026
Database (Postgres + pgvector)
Database primario, event store, memoria cold-tier
Uptime
99.99%
Ultimo incidente
Nessuno
Redis
Cache, rate limiting, sessioni, memoria hot-tier
Uptime
99.97%
Ultimo incidente
28 mar 2026
NATS JetStream
MACP Bus — Multi-Agent Communication Protocol
Uptime
99.96%
Ultimo incidente
28 mar 2026
Embedding Service
Generazione embedding vettoriali, indicizzazione KB
Uptime
99.90%
Ultimo incidente
17 apr 2026
LLM Gateway
Anthropic / OpenAI / Mistral / OpenRouter — proxy + metering
Uptime
99.85%
Ultimo incidente
21 apr 2026
Tool Executor
web_search, http_fetch, send_email, delegate_task
Uptime
99.93%
Ultimo incidente
3 apr 2026
MinIO (Object Storage)
Artefatti run, allegati email, snapshot memoria
Uptime
99.99%
Ultimo incidente
Nessuno
Email (Postmark)
Email transazionale, invite, notifiche approvazioni
Uptime
99.80%
Ultimo incidente
9 apr 2026
Jaeger (Tracing)
Distributed tracing OTel
Uptime
99.70%
Ultimo incidente
14 apr 2026
Storico incidenti — ultimi 30 giorni
Tutti gli incidenti sono stati risolti. Nessuna perdita di dati.
LLM Gateway: latenza elevata su provider OpenAI
INC-2026-017 · 21 apr 2026 · Durata: 43 min
Latenza elevata (P99 > 8 s) sulle richieste verso l'endpoint OpenAI a causa di degrado upstream. Il fallback su OpenRouter è stato attivato automaticamente dopo 5 minuti. Nessun run perso.
Embedding Service: timeout su documenti > 1 MB
INC-2026-016 · 17 apr 2026 · Durata: 1h 12min
Un deploy del servizio di embedding ha introdotto una regressione nel chunking di documenti grandi. I documenti > 1 MB ricevevano timeout al momento dell'indicizzazione. Rollback eseguito; documenti riprocessati automaticamente.
Jaeger: ingestione trace interrotta
INC-2026-015 · 14 apr 2026 · Durata: 2h 05min
Esaurimento dello spazio su disco del volume Jaeger. Le trace non venivano più salvate ma i run continuavano normalmente. Aggiunta retention policy automatica e alert su utilizzo disco.
API: risposta lenta su endpoint /v1/runs (30 min)
INC-2026-014 · 12 apr 2026 · Durata: 31 min
Una query non ottimizzata introdotta in un hotfix ha causato table scan su runs di grandi workspace. Indice aggiunto in produzione, query riscritta nel release successivo.
Email: ritardi nelle notifiche di approvazione
INC-2026-013 · 9 apr 2026 · Durata: 1h 48min
Postmark ha segnalato code di consegna ritardate per traffico anomalo su IP condivisi. Email consegnate con ritardo medio di 22 minuti. Nessuna email persa. Migrazione a IP dedicato pianificata.
Worker Temporal: run bloccati in stato RUNNING
INC-2026-012 · 3 apr 2026 · Durata: 52 min
Un lock deadlock nel workflow AgentRunWorkflow ha causato il blocco di 14 run. I run sono stati identificati con il monitor Temporal e terminati manualmente. Patch di sicurezza rilasciata nella versione 2.5.3. I run bloccati sono stati riavviati con replay deterministico senza perdita di dati.
Redis / NATS: riavvio non pianificato del nodo
INC-2026-011 · 28 mar 2026 · Durata: 8 min
Il nodo principale del cluster Redis/NATS ha subito un riavvio OOM (Out Of Memory) a causa di un memory leak nel consumer MACP. Failover automatico su replica secondaria in 8 minuti. Sessioni attive disconnesse e riautenticate. Nessun dato perso grazie a JetStream persistence.
Problemi non segnalati? [email protected]