Passa al contenuto principale

Akira — Piano FinOps consolidato (budget & monitoring)

Versione: 1.0 (v5.16 FinOps review) Data: 13 maggio 2026 Owner: Massimo Bagnoli (m.bagnoli@asheep.it) Stato: vincolante per fase prototipo/MVP. Da rivedere all'ingresso del primo pilot customer.


0. Scopo

Questo documento consolida tutte le decisioni di costo e monitoring per la fase prototipo/MVP del progetto Akira. È il riferimento autoritativo per:

  • Stima budget mensile (best/realistic/worst case)
  • Soglie di alert e tracking
  • Ottimizzazioni applicate e rinviate
  • Rischi di costo overrun e relative mitigazioni
  • Decisioni FinOps confermate (sintesi)

Per il contesto generale infrastrutturale vedi STARTUP_PROGETTO.md §2 (infra Hetzner) e §3 (servizi). Per le convention operative sui cap budget agenti vedi CONVENTIONS.md sezione "Budget cap agenti AI Toolbox".


1. Budget mensile fase prototipo

Tabella consolidata dei costi previsti durante la fase prototipo/MVP, prima dell'ingresso del primo pilot customer.

CategoriaBest caseRealisticWorst case
Hetzner staging (12 VM Opzione A)€78€78€78
GitHub Pro€0€0€4
Anthropic API AgentCore€25€45€80
Anthropic API Claude Code dev€20€40€60
Anthropic API agenti Toolbox notturni€60€100€150
Voyage AI embeddings€0€2€5
Sentry overflow€0€0€26
Hetzner traffic egress€0€0€5
SMTP transactional€0€1€3
TOTALE~€183~€266~€411

Note

  • I costi Hetzner sono al netto IVA. Con IVA italiana reverse charge B2B il cash-out reale è circa €95/m (Hetzner Germany applica IVA EU al cliente italiano partita IVA in reverse charge, dichiarata in Italia).
  • Anthropic billing è in USD con conversione automatica EUR sulla fattura — il range tiene già conto della variabilità cambio.
  • Il driver primario del worst case sono gli agenti Toolbox notturni: un task in runaway (loop tool-call) può facilmente bruciare €20-50 in una sola notte se non viene fermato.

2. Soglie di alert

Tre livelli di reazione progressiva:

  • Soft alert €200/m → notifica Telegram passiva (digest mattutino, no escalation)
  • Hard alert €280/m → email + Telegram urgente a Massimo, valutazione immediata
  • Hard cap Anthropic billing €300/m → blocca chiamate API (override runaway scenarios)

Il hard cap €300/m è impostato direttamente nella dashboard Anthropic organization (Settings → Billing → Monthly spend limit). Quando viene raggiunto, le chiamate API tornano errore — è la rete di sicurezza ultima contro scenari di runaway non intercettati dai cap per-task.


3. Tracking

Tracking Anthropic spend

  • Daily export da Anthropic Console (Usage → Export CSV)
  • Cron 09:00 UTC ogni mattina → script apps/backend/workers/finops_daily_report.py (TBD, implementazione in fase MVP)
  • Lo script fa GET dell'usage del giorno prima, calcola spend cumulativo del mese in corso, e invia digest Telegram a Massimo

Tracking Hetzner

  • Snapshot mensile in docs/finops/monthly/YYYY-MM.md con screenshot fattura + breakdown per server
  • Confronto vs mese precedente per intercettare spese impreviste (snapshot manuali stacked, traffic egress eccessivo)

Digest Telegram mattutino

Il messaggio quotidiano contiene:

  • Ieri spend totale (Anthropic + altri provider con API tracking)
  • Budget consumato % mese corrente (su €280 hard alert threshold)
  • Top 3 tool calls per costo (utile per identificare agenti runaway o pattern inefficienti)
  • Eventuali alert attivi (soft/hard)

4. Ottimizzazioni

Strategie applicate per contenere i costi senza tagliare scope:

Applicate

  • Prompt caching aggressivo AgentCore: il system prompt + tool registry (~15k token statici) viene cached → -80-90% input cost per chiamata. Riduzione drastica del costo AgentCore Telegram.
  • Sonnet 4.6 default in Claude Code workstation Massimo + runner Toolbox agents config (~/.config/toolbox/agents/*.env). Risparmio 50-70% vs Opus a parità di qualità per task tipici Akira.
  • Cap budget per task definito in CONVENTIONS.md: max_tokens 500k, max_iterations 30 → mitigazione runaway.
  • Backup Hetzner incluso su tutti i server (€12/m extra): scelta esplicita per garantire idempotenza ripristino in caso di errori Ansible o data corruption.
  • Sentry: accept upgrade Team €26/m se supera free tier (5k events/mese). Il debug efficace lo vale — il costo di un bug non intercettato in fase pilot è ordini di grandezza superiore.
  • Revolut Business: rinvio integrazione a beta. Per MVP si usa il piano Free + mock API in test, sufficiente per validare flow Balance/Topup.

Puntuali

  • Spot-rental CCX dedicated solo durante benchmark week Fase 2 (€30/m extra puntuale). Non incluso nel running cost — si attiva on-demand quando si fanno benchmark performance reali contro SIPp orchestrator.

5. Rischi di costo overrun

Lista dei principali rischi identificati e relative mitigazioni:

  1. Agenti Toolbox runaway (loop tool-call → blow-up Anthropic API cost)

    • Mitigazione: max_tokens_per_task: 500000 + max_tool_iterations_per_task: 30 nel runner config
    • Alert Telegram immediato se task raggiunge cap → terminate con status aborted_budget_exceeded
  2. Qdrant memory crescita unbounded (memoria AgentCore che accumula embedding senza filtro)

    • Mitigazione: filtro should_remember selettivo nel TelegramAdapter — solo turn marcati come degni di memoria vengono persistiti
    • Cron mensile review storage Qdrant + pruning oltre 6 mesi
  3. Sentry free tier sforato (>5k events/mese durante debug intenso)

    • Mitigazione: accept upgrade Team €26/m. Decisione preventiva: il debug efficace giustifica il costo.
  4. Telegram bot bombarding (loop di notifiche da agente → flood chat_id)

    • Mitigazione: rate limit per chat_id (5 msg/min) nel TelegramAdapter
    • Circuit breaker: se rate limit triggered N volte in M minuti, pause bot e alert via email diretta
  5. Hetzner snapshot manuali stacked (snapshot creati durante test e mai cleanup)

    • Mitigazione: cleanup script cron settimanale che elimina snapshot > 7 giorni senza tag keep

6. Riepilogo decisioni FinOps confermate

Sintesi delle decisioni chiave prese il 13 maggio 2026 (v5.16 FinOps review):

  • Opzione A 12 VM mirror-prod (€78/m netto) — NON Opzione B compressed
  • GitHub free tier (no Pro €4/m — Copilot non usato perché si usa Claude Code)
  • Sonnet 4.6 default Claude Code workstation + Toolbox agents
  • Anthropic billing hard cap €300/m in dashboard organization
  • Backup Hetzner tutti i server (€12/m extra, idempotenza ripristino)
  • Sentry Free tier (upgrade Team €26/m se overflow)
  • Revolut Business rinvio a beta (Free + mock API per MVP)
  • Cap budget per task agente: 500k token, 30 iterations
  • Cap giornaliero per agente: 5M token/giorno (~$50 Sonnet, ~$250 Opus)
  • Tutti e 6 i Reports in MVP (NO scope-cut a 3 reports)

7. Cross-reference


8. Storico revisioni

  • 1.0 (2026-05-13): prima versione consolidata dopo dream team review v5.16