Tutti i sistemi operativi

Pagina di stato aggiornata per tutti i componenti Mentis. Ultimo aggiornamento: 5 mag 2026, 09:00 CEST.

Componenti

API (FastAPI)

REST API, autenticazione, webhook Stripe

Operativo

Web App (Next.js)

Frontend, SSR, App Router

Operativo

Worker (Temporal)

Orchestrazione run agenti, replay deterministico

Operativo

Database (Postgres + pgvector)

Database primario, event store, memoria cold-tier

Operativo

Redis

Cache, rate limiting, sessioni, memoria hot-tier

Operativo

NATS JetStream

MACP Bus — Multi-Agent Communication Protocol

Operativo

Embedding Service

Generazione embedding vettoriali, indicizzazione KB

Operativo

LLM Gateway

Anthropic / OpenAI / Mistral / OpenRouter — proxy + metering

Operativo

Tool Executor

web_search, http_fetch, send_email, delegate_task

Operativo

MinIO (Object Storage)

Artefatti run, allegati email, snapshot memoria

Operativo

Email (Postmark)

Email transazionale, invite, notifiche approvazioni

Operativo

Jaeger (Tracing)

Distributed tracing OTel

Operativo

Storico incidenti — ultimi 30 giorni

Tutti gli incidenti sono stati risolti. Nessuna perdita di dati.

LLM Gateway: latenza elevata su provider OpenAI

INC-2026-017 · 21 apr 2026 · Durata: 43 min

MinoreRisolto
LLM Gateway

Latenza elevata (P99 > 8 s) sulle richieste verso l'endpoint OpenAI a causa di degrado upstream. Il fallback su OpenRouter è stato attivato automaticamente dopo 5 minuti. Nessun run perso.

Embedding Service: timeout su documenti > 1 MB

INC-2026-016 · 17 apr 2026 · Durata: 1h 12min

MinoreRisolto
Embedding Service

Un deploy del servizio di embedding ha introdotto una regressione nel chunking di documenti grandi. I documenti > 1 MB ricevevano timeout al momento dell'indicizzazione. Rollback eseguito; documenti riprocessati automaticamente.

Jaeger: ingestione trace interrotta

INC-2026-015 · 14 apr 2026 · Durata: 2h 05min

MinoreRisolto
Jaeger (Tracing)

Esaurimento dello spazio su disco del volume Jaeger. Le trace non venivano più salvate ma i run continuavano normalmente. Aggiunta retention policy automatica e alert su utilizzo disco.

API: risposta lenta su endpoint /v1/runs (30 min)

INC-2026-014 · 12 apr 2026 · Durata: 31 min

MinoreRisolto
API (FastAPI)

Una query non ottimizzata introdotta in un hotfix ha causato table scan su runs di grandi workspace. Indice aggiunto in produzione, query riscritta nel release successivo.

Email: ritardi nelle notifiche di approvazione

INC-2026-013 · 9 apr 2026 · Durata: 1h 48min

MinoreRisolto
Email (Postmark)

Postmark ha segnalato code di consegna ritardate per traffico anomalo su IP condivisi. Email consegnate con ritardo medio di 22 minuti. Nessuna email persa. Migrazione a IP dedicato pianificata.

Worker Temporal: run bloccati in stato RUNNING

INC-2026-012 · 3 apr 2026 · Durata: 52 min

MaggioreRisolto
Worker (Temporal)Tool Executor

Un lock deadlock nel workflow AgentRunWorkflow ha causato il blocco di 14 run. I run sono stati identificati con il monitor Temporal e terminati manualmente. Patch di sicurezza rilasciata nella versione 2.5.3. I run bloccati sono stati riavviati con replay deterministico senza perdita di dati.

Redis / NATS: riavvio non pianificato del nodo

INC-2026-011 · 28 mar 2026 · Durata: 8 min

MaggioreRisolto
RedisNATS JetStream

Il nodo principale del cluster Redis/NATS ha subito un riavvio OOM (Out Of Memory) a causa di un memory leak nel consumer MACP. Failover automatico su replica secondaria in 8 minuti. Sessioni attive disconnesse e riautenticate. Nessun dato perso grazie a JetStream persistence.

Problemi non segnalati? [email protected]

Status — Mentis — Mentis