Consumo IA

Monitoraggio dei costi per servizio IA, markup della piattaforma e suggerimenti per l'ottimizzazione.

A cosa serve

Sapere chi consuma token e quando.
Individuare prompt fuori controllo prima che esplodano la bolletta.
Riportare costo per tenant, agente o modulo.

Come funziona

Ogni chiamata LLM registra token, modello, latenza e metadati di attribuzione. La dashboard aggrega per giorno/settimana/mese con breakdown per agente e tenant.

Quando usare questa guida

Consulta questa pagina quando vuoi capire quanto costano le tue operazioni IA, come viene calcolato il prezzo finale, o quando devi ridurre i costi senza perdere funzionalita.

Esempio pratico: Il tuo agente WhatsApp costa piu del previsto. Controlli questa pagina e scopri che l'agente ha max_context_messages impostato a 30, inviando l'intera cronologia della conversazione in ogni richiesta. Riducendolo a 10, abbassi il consumo di token di input del 60% senza influire significativamente sulla qualita delle risposte.

Cosa viene monitorato

La piattaforma registra il consumo di ogni servizio IA utilizzato, consentendo un controllo dettagliato dei costi per tenant.

Gemini LLM

Vengono registrati i token di input e output per ogni interazione con i modelli di linguaggio:

Servizio	Prezzo base	Unita
gemini-3.1-pro-preview (input)	$2,00	per milione di token
gemini-3.1-pro-preview (output)	$12,00	per milione di token
gemini-3-flash-preview (input)	$0,30	per milione di token
gemini-3-flash-preview (output)	$2,50	per milione di token

Postmark Email

Servizio	Prezzo base	Unita
Postmark Email	$0,0013	per email inviata

Brave Search

Servizio	Prezzo base	Unita
Brave Search	$0,005	per ricerca

Per maggiori dettagli sulla ricerca web, consulta Ricerca web.

Markup della piattaforma

Il costo finale addebitato al tenant viene calcolato applicando un markup sul costo reale del provider:

Costo finale = Costo reale x Markup

Markup predefinito: 2,5x
Il markup e configurabile per tenant
Il costo reale viene memorizzato separatamente come riferimento interno

Esempio

Se un'interazione con Gemini consuma 1.000 token di input con gemini-3-flash-preview:

Costo reale: 1.000 / 1.000.000 x $0,30 = $0,0003
Costo finale: $0,0003 x 2,5 = $0,00075

Riepilogo mensile

Il riepilogo dei consumi e disponibile in Dashboard > Amministrazione > Consumo. Mostra:

Totale mensile: costo aggregato di tutti i servizi
Dettaglio per servizio: consumo separato per canale e tipo di operazione
- WhatsApp
- Email
- Estrazioni
- Ricerca web
- Altri servizi

Suggerimenti per l'ottimizzazione

Ridurre i token per interazione

Ridurre il parametro max_context_messages nella configurazione dell'agente limita il numero di messaggi precedenti inclusi in ogni richiesta al LLM. Meno contesto significa meno token di input.

Usare la ricerca esatta invece di quella semantica

Quando la query alle collezioni non richiede comprensione del linguaggio naturale, usare la ricerca esatta (per campo) invece della ricerca semantica evita il costo di generazione degli embedding.

Limitare i domini di ricerca web

Configurare allowed_domains nello strumento di ricerca web riduce le ricerche non necessarie e mantiene i risultati focalizzati su fonti rilevanti.

Scegliere il modello giusto

Non tutte le attivita necessitano del modello piu potente. Per ridurre i costi:

Usa gemini-3-flash-preview per query semplici, risposte brevi e attivita di classificazione. E 6 volte piu economico in input e 5 volte piu economico in output rispetto al modello pro.
Riserva gemini-3.1-pro-preview per attivita complesse che richiedono ragionamento avanzato, analisi di documenti lunghi o generazione di report dettagliati.

Fatturazione e abbonamenti — Piani, limiti di utilizzo ed eccedenze
Ricerca web — Costo per ricerca e configurazione dei domini
La Dashboard — Riepilogo mensile dei costi nel pannello principale
Creare un agente WhatsApp — Dove configurare max_context_messages
Creare un agente email — Configurazione degli agenti email e il loro consumo

Benefici chiave

Attribuzione in tempo reale per agente e tenant.
Avviso precoce su picchi di token anomali.
Export pronto per contabilità e chargeback.
Metriche di latenza ed errori accanto al costo.
Zero setup — auto-strumentato su ogni chiamata LLM.