Akira — Piano FinOps consolidato (budget & monitoring)
Versione: 1.0 (v5.16 FinOps review) Data: 13 maggio 2026 Owner: Massimo Bagnoli (m.bagnoli@asheep.it) Stato: vincolante per fase prototipo/MVP. Da rivedere all'ingresso del primo pilot customer.
0. Scopo
Questo documento consolida tutte le decisioni di costo e monitoring per la fase prototipo/MVP del progetto Akira. È il riferimento autoritativo per:
- Stima budget mensile (best/realistic/worst case)
- Soglie di alert e tracking
- Ottimizzazioni applicate e rinviate
- Rischi di costo overrun e relative mitigazioni
- Decisioni FinOps confermate (sintesi)
Per il contesto generale infrastrutturale vedi STARTUP_PROGETTO.md §2 (infra Hetzner) e §3 (servizi). Per le convention operative sui cap budget agenti vedi CONVENTIONS.md sezione "Budget cap agenti AI Toolbox".
1. Budget mensile fase prototipo
Tabella consolidata dei costi previsti durante la fase prototipo/MVP, prima dell'ingresso del primo pilot customer.
| Categoria | Best case | Realistic | Worst case |
|---|---|---|---|
| Hetzner staging (12 VM Opzione A) | €78 | €78 | €78 |
| GitHub Pro | €0 | €0 | €4 |
| Anthropic API AgentCore | €25 | €45 | €80 |
| Anthropic API Claude Code dev | €20 | €40 | €60 |
| Anthropic API agenti Toolbox notturni | €60 | €100 | €150 |
| Voyage AI embeddings | €0 | €2 | €5 |
| Sentry overflow | €0 | €0 | €26 |
| Hetzner traffic egress | €0 | €0 | €5 |
| SMTP transactional | €0 | €1 | €3 |
| TOTALE | ~€183 | ~€266 | ~€411 |
Note
- I costi Hetzner sono al netto IVA. Con IVA italiana reverse charge B2B il cash-out reale è circa €95/m (Hetzner Germany applica IVA EU al cliente italiano partita IVA in reverse charge, dichiarata in Italia).
- Anthropic billing è in USD con conversione automatica EUR sulla fattura — il range tiene già conto della variabilità cambio.
- Il driver primario del worst case sono gli agenti Toolbox notturni: un task in runaway (loop tool-call) può facilmente bruciare €20-50 in una sola notte se non viene fermato.
2. Soglie di alert
Tre livelli di reazione progressiva:
- Soft alert €200/m → notifica Telegram passiva (digest mattutino, no escalation)
- Hard alert €280/m → email + Telegram urgente a Massimo, valutazione immediata
- Hard cap Anthropic billing €300/m → blocca chiamate API (override runaway scenarios)
Il hard cap €300/m è impostato direttamente nella dashboard Anthropic organization (Settings → Billing → Monthly spend limit). Quando viene raggiunto, le chiamate API tornano errore — è la rete di sicurezza ultima contro scenari di runaway non intercettati dai cap per-task.
3. Tracking
Tracking Anthropic spend
- Daily export da Anthropic Console (Usage → Export CSV)
- Cron 09:00 UTC ogni mattina → script
apps/backend/workers/finops_daily_report.py(TBD, implementazione in fase MVP) - Lo script fa GET dell'usage del giorno prima, calcola spend cumulativo del mese in corso, e invia digest Telegram a Massimo
Tracking Hetzner
- Snapshot mensile in
docs/finops/monthly/YYYY-MM.mdcon screenshot fattura + breakdown per server - Confronto vs mese precedente per intercettare spese impreviste (snapshot manuali stacked, traffic egress eccessivo)
Digest Telegram mattutino
Il messaggio quotidiano contiene:
- Ieri spend totale (Anthropic + altri provider con API tracking)
- Budget consumato % mese corrente (su €280 hard alert threshold)
- Top 3 tool calls per costo (utile per identificare agenti runaway o pattern inefficienti)
- Eventuali alert attivi (soft/hard)
4. Ottimizzazioni
Strategie applicate per contenere i costi senza tagliare scope:
Applicate
- Prompt caching aggressivo AgentCore: il system prompt + tool registry (~15k token statici) viene cached → -80-90% input cost per chiamata. Riduzione drastica del costo AgentCore Telegram.
- Sonnet 4.6 default in Claude Code workstation Massimo + runner Toolbox agents config (
~/.config/toolbox/agents/*.env). Risparmio 50-70% vs Opus a parità di qualità per task tipici Akira. - Cap budget per task definito in
CONVENTIONS.md: max_tokens 500k, max_iterations 30 → mitigazione runaway. - Backup Hetzner incluso su tutti i server (€12/m extra): scelta esplicita per garantire idempotenza ripristino in caso di errori Ansible o data corruption.
- Sentry: accept upgrade Team €26/m se supera free tier (5k events/mese). Il debug efficace lo vale — il costo di un bug non intercettato in fase pilot è ordini di grandezza superiore.
- Revolut Business: rinvio integrazione a beta. Per MVP si usa il piano Free + mock API in test, sufficiente per validare flow Balance/Topup.
Puntuali
- Spot-rental CCX dedicated solo durante benchmark week Fase 2 (€30/m extra puntuale). Non incluso nel running cost — si attiva on-demand quando si fanno benchmark performance reali contro SIPp orchestrator.
5. Rischi di costo overrun
Lista dei principali rischi identificati e relative mitigazioni:
-
Agenti Toolbox runaway (loop tool-call → blow-up Anthropic API cost)
- Mitigazione:
max_tokens_per_task: 500000+max_tool_iterations_per_task: 30nel runner config - Alert Telegram immediato se task raggiunge cap → terminate con status
aborted_budget_exceeded
- Mitigazione:
-
Qdrant memory crescita unbounded (memoria AgentCore che accumula embedding senza filtro)
- Mitigazione: filtro
should_rememberselettivo nel TelegramAdapter — solo turn marcati come degni di memoria vengono persistiti - Cron mensile review storage Qdrant + pruning oltre 6 mesi
- Mitigazione: filtro
-
Sentry free tier sforato (>5k events/mese durante debug intenso)
- Mitigazione: accept upgrade Team €26/m. Decisione preventiva: il debug efficace giustifica il costo.
-
Telegram bot bombarding (loop di notifiche da agente → flood chat_id)
- Mitigazione: rate limit per
chat_id(5 msg/min) nel TelegramAdapter - Circuit breaker: se rate limit triggered N volte in M minuti, pause bot e alert via email diretta
- Mitigazione: rate limit per
-
Hetzner snapshot manuali stacked (snapshot creati durante test e mai cleanup)
- Mitigazione: cleanup script cron settimanale che elimina snapshot > 7 giorni senza tag
keep
- Mitigazione: cleanup script cron settimanale che elimina snapshot > 7 giorni senza tag
6. Riepilogo decisioni FinOps confermate
Sintesi delle decisioni chiave prese il 13 maggio 2026 (v5.16 FinOps review):
- ✓ Opzione A 12 VM mirror-prod (€78/m netto) — NON Opzione B compressed
- ✓ GitHub free tier (no Pro €4/m — Copilot non usato perché si usa Claude Code)
- ✓ Sonnet 4.6 default Claude Code workstation + Toolbox agents
- ✓ Anthropic billing hard cap €300/m in dashboard organization
- ✓ Backup Hetzner tutti i server (€12/m extra, idempotenza ripristino)
- ✓ Sentry Free tier (upgrade Team €26/m se overflow)
- ✓ Revolut Business rinvio a beta (Free + mock API per MVP)
- ✓ Cap budget per task agente: 500k token, 30 iterations
- ✓ Cap giornaliero per agente: 5M token/giorno (~$50 Sonnet, ~$250 Opus)
- ✓ Tutti e 6 i Reports in MVP (NO scope-cut a 3 reports)
7. Cross-reference
STARTUP_PROGETTO.md§2 — infra Hetzner dettaglio per serverSTARTUP_PROGETTO.md§3 — servizi e API con costi per voceSTARTUP_PROGETTO.md§13 — stack tecnologico + decisioni complementari (cap budget agenti)CONVENTIONS.md— sezione "Budget cap agenti AI Toolbox" con regole operative per runner Toolbox
8. Storico revisioni
- 1.0 (2026-05-13): prima versione consolidata dopo dream team review v5.16