Consumo IA
Monitoraggio dei costi per servizio IA, markup della piattaforma e suggerimenti per l'ottimizzazione.
A cosa serve
- Sapere chi consuma token e quando.
- Individuare prompt fuori controllo prima che esplodano la bolletta.
- Riportare costo per tenant, agente o modulo.
Come funziona
Ogni chiamata LLM registra token, modello, latenza e metadati di attribuzione. La dashboard aggrega per giorno/settimana/mese con breakdown per agente e tenant.
Quando usare questa guida
Consulta questa pagina quando vuoi capire quanto costano le tue operazioni IA, come viene calcolato il prezzo finale, o quando devi ridurre i costi senza perdere funzionalita.
Esempio pratico: Il tuo agente WhatsApp costa piu del previsto. Controlli questa pagina e scopri che l'agente ha max_context_messages impostato a 30, inviando l'intera cronologia della conversazione in ogni richiesta. Riducendolo a 10, abbassi il consumo di token di input del 60% senza influire significativamente sulla qualita delle risposte.
Cosa viene monitorato
La piattaforma registra il consumo di ogni servizio IA utilizzato, consentendo un controllo dettagliato dei costi per tenant.
Gemini LLM
Vengono registrati i token di input e output per ogni interazione con i modelli di linguaggio:
| Servizio | Prezzo base | Unita |
|---|---|---|
| gemini-3.1-pro-preview (input) | $2,00 | per milione di token |
| gemini-3.1-pro-preview (output) | $12,00 | per milione di token |
| gemini-3-flash-preview (input) | $0,30 | per milione di token |
| gemini-3-flash-preview (output) | $2,50 | per milione di token |
Postmark Email
| Servizio | Prezzo base | Unita |
|---|---|---|
| Postmark Email | $0,0013 | per email inviata |
Brave Search
| Servizio | Prezzo base | Unita |
|---|---|---|
| Brave Search | $0,005 | per ricerca |
Per maggiori dettagli sulla ricerca web, consulta Ricerca web.
Markup della piattaforma
Il costo finale addebitato al tenant viene calcolato applicando un markup sul costo reale del provider:
Costo finale = Costo reale x Markup- Markup predefinito: 2,5x
- Il markup e configurabile per tenant
- Il costo reale viene memorizzato separatamente come riferimento interno
Esempio
Se un'interazione con Gemini consuma 1.000 token di input con gemini-3-flash-preview:
- Costo reale: 1.000 / 1.000.000 x $0,30 = $0,0003
- Costo finale: $0,0003 x 2,5 = $0,00075
Riepilogo mensile
Il riepilogo dei consumi e disponibile in Dashboard > Amministrazione > Consumo. Mostra:
- Totale mensile: costo aggregato di tutti i servizi
- Dettaglio per servizio: consumo separato per canale e tipo di operazione
- Estrazioni
- Ricerca web
- Altri servizi
Suggerimenti per l'ottimizzazione
Ridurre i token per interazione
Ridurre il parametro max_context_messages nella configurazione dell'agente limita il numero di messaggi precedenti inclusi in ogni richiesta al LLM. Meno contesto significa meno token di input.
Usare la ricerca esatta invece di quella semantica
Quando la query alle collezioni non richiede comprensione del linguaggio naturale, usare la ricerca esatta (per campo) invece della ricerca semantica evita il costo di generazione degli embedding.
Limitare i domini di ricerca web
Configurare allowed_domains nello strumento di ricerca web riduce le ricerche non necessarie e mantiene i risultati focalizzati su fonti rilevanti.
Scegliere il modello giusto
Non tutte le attivita necessitano del modello piu potente. Per ridurre i costi:
- Usa gemini-3-flash-preview per query semplici, risposte brevi e attivita di classificazione. E 6 volte piu economico in input e 5 volte piu economico in output rispetto al modello pro.
- Riserva gemini-3.1-pro-preview per attivita complesse che richiedono ragionamento avanzato, analisi di documenti lunghi o generazione di report dettagliati.
Limitare i messaggi di contesto
Un valore di max_context_messages tra 10 e 15 e generalmente sufficiente per la maggior parte degli agenti. Valori piu alti aumentano significativamente i token di input senza migliorare proporzionalmente la qualita delle risposte.
Scrivere prompt concisi
Prompt lunghi con istruzioni ridondanti generano costi inutili ad ogni interazione. Rivedi i tuoi system prompt periodicamente per eliminare ripetizioni e mantenerli diretti.
Vedi anche
- Fatturazione e abbonamenti — Piani, limiti di utilizzo ed eccedenze
- Ricerca web — Costo per ricerca e configurazione dei domini
- La Dashboard — Riepilogo mensile dei costi nel pannello principale
- Creare un agente WhatsApp — Dove configurare max_context_messages
- Creare un agente email — Configurazione degli agenti email e il loro consumo
Benefici chiave
- Attribuzione in tempo reale per agente e tenant.
- Avviso precoce su picchi di token anomali.
- Export pronto per contabilità e chargeback.
- Metriche di latenza ed errori accanto al costo.
- Zero setup — auto-strumentato su ogni chiamata LLM.