Akira — Piano FinOps consolidato (budget & monitoring)

Versione: 1.0 (v5.16 FinOps review) Data: 13 maggio 2026 Owner: Massimo Bagnoli (m.bagnoli@asheep.it) Stato: vincolante per fase prototipo/MVP. Da rivedere all'ingresso del primo pilot customer.

0. Scopo

Questo documento consolida tutte le decisioni di costo e monitoring per la fase prototipo/MVP del progetto Akira. È il riferimento autoritativo per:

Stima budget mensile (best/realistic/worst case)
Soglie di alert e tracking
Ottimizzazioni applicate e rinviate
Rischi di costo overrun e relative mitigazioni
Decisioni FinOps confermate (sintesi)

Per il contesto generale infrastrutturale vedi STARTUP_PROGETTO.md §2 (infra Hetzner) e §3 (servizi). Per le convention operative sui cap budget agenti vedi CONVENTIONS.md sezione "Budget cap agenti AI Toolbox".

1. Budget mensile fase prototipo

Tabella consolidata dei costi previsti durante la fase prototipo/MVP, prima dell'ingresso del primo pilot customer.

Categoria	Best case	Realistic	Worst case
Hetzner staging (12 VM Opzione A)	€78	€78	€78
GitHub Pro	€0	€0	€4
Anthropic API AgentCore	€25	€45	€80
Anthropic API Claude Code dev	€20	€40	€60
Anthropic API agenti Toolbox notturni	€60	€100	€150
Voyage AI embeddings	€0	€2	€5
Sentry overflow	€0	€0	€26
Hetzner traffic egress	€0	€0	€5
SMTP transactional	€0	€1	€3
TOTALE	~€183	~€266	~€411

Note

I costi Hetzner sono al netto IVA. Con IVA italiana reverse charge B2B il cash-out reale è circa €95/m (Hetzner Germany applica IVA EU al cliente italiano partita IVA in reverse charge, dichiarata in Italia).
Anthropic billing è in USD con conversione automatica EUR sulla fattura — il range tiene già conto della variabilità cambio.
Il driver primario del worst case sono gli agenti Toolbox notturni: un task in runaway (loop tool-call) può facilmente bruciare €20-50 in una sola notte se non viene fermato.

2. Soglie di alert

Tre livelli di reazione progressiva:

Soft alert €200/m → notifica Telegram passiva (digest mattutino, no escalation)
Hard alert €280/m → email + Telegram urgente a Massimo, valutazione immediata
Hard cap Anthropic billing €300/m → blocca chiamate API (override runaway scenarios)

Il hard cap €300/m è impostato direttamente nella dashboard Anthropic organization (Settings → Billing → Monthly spend limit). Quando viene raggiunto, le chiamate API tornano errore — è la rete di sicurezza ultima contro scenari di runaway non intercettati dai cap per-task.

3. Tracking

Tracking Anthropic spend

Daily export da Anthropic Console (Usage → Export CSV)
Cron 09:00 UTC ogni mattina → script apps/backend/workers/finops_daily_report.py (TBD, implementazione in fase MVP)
Lo script fa GET dell'usage del giorno prima, calcola spend cumulativo del mese in corso, e invia digest Telegram a Massimo

Tracking Hetzner

Snapshot mensile in docs/finops/monthly/YYYY-MM.md con screenshot fattura + breakdown per server
Confronto vs mese precedente per intercettare spese impreviste (snapshot manuali stacked, traffic egress eccessivo)

Digest Telegram mattutino

Il messaggio quotidiano contiene:

Ieri spend totale (Anthropic + altri provider con API tracking)
Budget consumato % mese corrente (su €280 hard alert threshold)
Top 3 tool calls per costo (utile per identificare agenti runaway o pattern inefficienti)
Eventuali alert attivi (soft/hard)

4. Ottimizzazioni

Strategie applicate per contenere i costi senza tagliare scope:

Applicate

Prompt caching aggressivo AgentCore: il system prompt + tool registry (~15k token statici) viene cached → -80-90% input cost per chiamata. Riduzione drastica del costo AgentCore Telegram.
Sonnet 4.6 default in Claude Code workstation Massimo + runner Toolbox agents config (~/.config/toolbox/agents/*.env). Risparmio 50-70% vs Opus a parità di qualità per task tipici Akira.
Cap budget per task definito in CONVENTIONS.md: max_tokens 500k, max_iterations 30 → mitigazione runaway.
Backup Hetzner incluso su tutti i server (€12/m extra): scelta esplicita per garantire idempotenza ripristino in caso di errori Ansible o data corruption.
Sentry: accept upgrade Team €26/m se supera free tier (5k events/mese). Il debug efficace lo vale — il costo di un bug non intercettato in fase pilot è ordini di grandezza superiore.
Revolut Business: rinvio integrazione a beta. Per MVP si usa il piano Free + mock API in test, sufficiente per validare flow Balance/Topup.

Puntuali

Spot-rental CCX dedicated solo durante benchmark week Fase 2 (€30/m extra puntuale). Non incluso nel running cost — si attiva on-demand quando si fanno benchmark performance reali contro SIPp orchestrator.

5. Rischi di costo overrun

Lista dei principali rischi identificati e relative mitigazioni:

Agenti Toolbox runaway (loop tool-call → blow-up Anthropic API cost)
- Mitigazione: max_tokens_per_task: 500000 + max_tool_iterations_per_task: 30 nel runner config
- Alert Telegram immediato se task raggiunge cap → terminate con status aborted_budget_exceeded
Qdrant memory crescita unbounded (memoria AgentCore che accumula embedding senza filtro)
- Mitigazione: filtro should_remember selettivo nel TelegramAdapter — solo turn marcati come degni di memoria vengono persistiti
- Cron mensile review storage Qdrant + pruning oltre 6 mesi
Sentry free tier sforato (>5k events/mese durante debug intenso)
- Mitigazione: accept upgrade Team €26/m. Decisione preventiva: il debug efficace giustifica il costo.
Telegram bot bombarding (loop di notifiche da agente → flood chat_id)
- Mitigazione: rate limit per chat_id (5 msg/min) nel TelegramAdapter
- Circuit breaker: se rate limit triggered N volte in M minuti, pause bot e alert via email diretta
Hetzner snapshot manuali stacked (snapshot creati durante test e mai cleanup)
- Mitigazione: cleanup script cron settimanale che elimina snapshot > 7 giorni senza tag keep

6. Riepilogo decisioni FinOps confermate

Sintesi delle decisioni chiave prese il 13 maggio 2026 (v5.16 FinOps review):

✓ Opzione A 12 VM mirror-prod (€78/m netto) — NON Opzione B compressed
✓ GitHub free tier (no Pro €4/m — Copilot non usato perché si usa Claude Code)
✓ Sonnet 4.6 default Claude Code workstation + Toolbox agents
✓ Anthropic billing hard cap €300/m in dashboard organization
✓ Backup Hetzner tutti i server (€12/m extra, idempotenza ripristino)
✓ Sentry Free tier (upgrade Team €26/m se overflow)
✓ Revolut Business rinvio a beta (Free + mock API per MVP)
✓ Cap budget per task agente: 500k token, 30 iterations
✓ Cap giornaliero per agente: 5M token/giorno (~$50 Sonnet, ~$250 Opus)
✓ Tutti e 6 i Reports in MVP (NO scope-cut a 3 reports)

7. Cross-reference

STARTUP_PROGETTO.md §2 — infra Hetzner dettaglio per server
STARTUP_PROGETTO.md §3 — servizi e API con costi per voce
STARTUP_PROGETTO.md §13 — stack tecnologico + decisioni complementari (cap budget agenti)
CONVENTIONS.md — sezione "Budget cap agenti AI Toolbox" con regole operative per runner Toolbox

8. Storico revisioni

1.0 (2026-05-13): prima versione consolidata dopo dream team review v5.16

0. Scopo​

1. Budget mensile fase prototipo​

Note​

2. Soglie di alert​

3. Tracking​

Tracking Anthropic spend​

Tracking Hetzner​

Digest Telegram mattutino​

4. Ottimizzazioni​

Applicate​

Puntuali​

5. Rischi di costo overrun​

6. Riepilogo decisioni FinOps confermate​

7. Cross-reference​

8. Storico revisioni​