Hardware Intelligence
VRAM Estimator
Il tool di apxml.com è fondamentale per decidere quale quantizzazione (4-bit, 6-bit, 8-bit) adottare per far entrare il modello nella tua GPU senza perdite di performance.
CALCOLA MEMORIATechnical City
Database dinamico per il confronto tra CPU e GPU. Fondamentale per monitorare i TFLOPS e la generazione dell'hardware (FP16/BF16 support).
CONFRONTA HWMemory Bandwidth
Usa TechPowerUp per trovare il GB/s della tua scheda. È il valore che determina quanti token al secondo riceverai effettivamente.
DATABASE SPECIFICHEToken/sec Estimator
Inserisci il tuo hardware e il modello: llm-benchmark.com stima i token/s reali prima ancora di scaricare i 40GB del modello.
STIMA T/SPower Cost Calc
Calcola il costo reale in kWh (e €) di far girare il tuo stack AI locale H24. Utile per decidere se conviene locale vs API cloud.
CALCOLA COSTIExLlamaV2 Profiler
Per chi usa EXL2: il più veloce runtime per NVIDIA. Benchmark reali su 4090 con diverse configurazioni di cache e batch.
ESPLORA EXLLAMAModel Leaderboards
Arena.ai (ex LMSYS)
Il gold standard mondiale. Classifica ELO basata su test ciechi tra umani. Qui capisci chi è davvero il re degli LLM oggi.
Aider LLM Leaderboard
Sostituisce i test accademici sul codice. Testa la capacità reale dei modelli di fare refactoring e agire su file multipli senza rompere la codebase.
Artificial Analysis
Dati scientifici aggiornati su intelligenza, velocità (Tokens/sec) e costo. Il miglior quadrante generale dell'industria.
LiveBench AI
Benchmark anti-contaminazione. Testa i modelli su dati appena pubblicati che non hanno potuto vedere durante il training.
Scale SEAL Leaderboard
Benchmark enterprise-grade di Scale AI. Copre coding, math, instruzione, safety. Affidabile per decisioni business-critical.
Open LLM Leaderboard
La classifica tecnica di HuggingFace. Essenziale per chi scarica modelli GGUF e EXL2 da far girare localmente.
The Local AI Stack
Ollama / vLLM
Ollama per iniziare in 5 minuti. vLLM per servire modelli in produzione con PagedAttention ad alto throughput.
Apple MLX
Il framework nativo per Mac. Usa la memoria unificata per far girare modelli enormi (70B+) su MacBook.
Open WebUI
L'interfaccia definitiva stile ChatGPT. Dockerizzata, con supporto RAG, web search e profili custom.
Continue.dev
L'estensione VS Code open-source. Collega i tuoi modelli locali e usali come GitHub Copilot gratuito.
LangGraph
Costruisci agenti come grafi di stato. Il modo più solido per gestire loop complessi e human-in-the-loop.
GitHub →PydanticAI
Il nuovo standard di fatto. Framework per agenti production-ready, fortemente tipizzato e creato dal team di Pydantic.
GitHub →LlamaIndex
Il framework più completo per connettere LLM ai tuoi dati. Insuperabile per parsing di PDF e query complesse.
GitHub →n8n (self-hosted)
Automazione no-code con nodi AI nativi. L'alternativa hacker a Make/Zapier per collegare tutto in locale.
GitHub →Model Picker
Scegli il tuo use-case: la colonna sinistra è un riferimento stabile, la destra ti porta al leaderboard live giusto.
Aider LLM Leaderboard. Valuta le capacità "Agentic" del modello, non le funzioni isolate. Test di refactoring su codice reale.
Arena.ai: classifica ELO da confronti ciechi umani. Rispecchia la qualità percepita reale, non i benchmark sintetici.
MTEB di HuggingFace: benchmark per embedding e retrieval. Fondamentale per scegliere il modello di embedding giusto per il tuo RAG.
LiveBench anti-contamination: testa reasoning e math su dati mai visti durante il training. I risultati non mentono.
OpenVLM Leaderboard di HuggingFace: classifica i Vision-Language Models su OCR, chart, reasoning visivo e scene understanding.
Open LLM Leaderboard filtrato per Small Language Models (<8B params). I migliori modelli edge, sempre aggiornati dalla community HF.
Prompt Engineering Hub
Template pronti da copiare. Ottimizzati per modelli locali Instruct.
Expert Coder
You are an expert senior software engineer.
Rules:
- Answer ONLY with code unless asked otherwise
- Always include type hints (Python) or JSDoc
- Prefer functional patterns
- Add inline comments only on non-obvious logic
- If you find a bug, fix it silently and note it at the end
Language: {LANGUAGE}
Context: {PROJECT_CONTEXT}
RAG Document Analyst
You are a document analysis expert.
Given CONTEXT and a QUESTION:
1. Answer ONLY from the provided context
2. If unsure, say "Non trovato nel documento"
3. Cite the relevant passage in [quotes]
4. Be concise: max 3 sentences unless asked more
5. Never hallucinate facts not in context
CONTEXT: {RETRIEVED_CHUNKS}
QUESTION: {USER_QUERY}
Structured Reasoner
Solve this step by step.
Format your response as:
<thinking>
[Your reasoning here, be explicit]
</thinking>
<answer>
[Final concise answer]
</answer>
Confidence: [HIGH/MEDIUM/LOW]
Problem: {PROBLEM}
Structured Data Extractor
Extract structured data from the text below.
Output ONLY valid JSON, no markdown, no explanation.
Schema:
{
"entities": [...],
"dates": [...],
"amounts": [...],
"summary": "string (max 50 words)"
}
If a field is missing use null.
TEXT: {INPUT_TEXT}
Classificatore Custom
Classify the input into one of: {CLASSES}
Reply with ONLY the class name, nothing else.
Examples:
Input: "{EXAMPLE_1}" → {CLASS_A}
Input: "{EXAMPLE_2}" → {CLASS_B}
Input: "{EXAMPLE_3}" → {CLASS_C}
Now classify:
Input: "{USER_INPUT}" →
ReAct Agent Loop
You are an agent with access to tools.
Available tools: {TOOL_LIST}
Use this format strictly:
Thought: what do I need to do?
Action: tool_name
Action Input: {"param": "value"}
Observation: [tool result]
... (repeat as needed)
Final Answer: [answer to user]
Question: {QUESTION}
I modelli Instruct rispondono meglio con struttura esplicita: <context>...</context>
Coding → 0.1–0.3 · Chat → 0.7 · Brainstorming → 0.9–1.2. Non usare 1.0 di default.
Oltre 4k token di contesto i modelli piccoli degradano. Usa RAG invece di mettere tutto nel prompt.
Per output critici ripeti il formato richiesto sia all'inizio che alla fine del prompt.
Imposta stop=["###", "Human:", "User:"] per evitare che il modello inventi turni extra.
Specifica cosa NON fare: "Do not include preamble, do not apologize" riduce l'output verboso.
Agentic Ecosystem
I tool "chirurgici" essenziali per costruire pipeline affidabili nel mondo reale.
Tavily API
Search-as-a-tool ottimizzato per LLM. A differenza di Google API, estrae il contenuto pulito dei siti evitando allucinazioni.
tavily.com →LanceDB (Serverless)
Il nuovo standard locale che ha soppiantato Chroma. Gira in-process, usa storage colonnare ed è 100x più veloce su grandi moli di dati.
lancedb.com →E2B Sandbox
Sandbox isolate microVM per far eseguire codice agli agenti in sicurezza. Fondamentale se stai costruendo un Code Interpreter locale.
e2b.dev →Instructor / Outlines
Magia nera per forzare gli LLM a rispondere ESATTAMENTE nello schema JSON richiesto, senza errori di parsing. Tool obbligatorio.
instructor.com →Langfuse
Tracing open-source per LLM. Ti fa vedere visivamente ogni step del ragionamento del tuo agente, latenza e uso dei token.
langfuse.com →MCP (Anthropic)
Model Context Protocol: il nuovo standard per connettere gli LLM a database, file system e API in modo modulare senza scrivere mille integrazioni.
modelcontextprotocol.io →Risorse & Formazione
Dove imparare a creare soluzioni reali e dove i veri smanettoni vanno per restare aggiornati.
Rizzo AI Academy
ConsigliatoIl percorso definitivo per imparare l'Intelligenza Artificiale. Vuoi padroneggiare questi strumenti, smettere di copiare prompt e imparare a sviluppare veri agenti e automazioni avanzate? Inizia qui.
CrAIcek TG
Il Telegiornale dell'AI Locale
La community Reddit più attiva su modelli locali. Breaking news su nuovi modelli, benchmark e trick di ottimizzazione in tempo reale.
I paper arXiv più discussi dalla community ogni giorno. Con voti e commenti tecnici. Il modo più veloce di seguire la ricerca.
Deep dive tecnici su training, inferenza distribuita e nuovi modelli open source. Contenuto di qualità altissima, non marketing.
Il blog più rispettato nel panorama AI pratico. Test reali, tool review, LLM security. Aggiornato quasi ogni giorno da un vero hacker.
Digest giornaliero di tutte le discussioni AI rilevanti (Twitter/X, Reddit, Discord). Il riassunto più completo dell'ecosistema.
Diretto alla fonte. I pre-print di AI/ML pubblicati oggi. Per chi vuole leggere la ricerca prima che diventi virale su LinkedIn.
Strumento avanzato per esplorare, analizzare l'architettura dei tensori e ispezionare i modelli su Hugging Face in modo rapido.
Glossario Tecnico
I termini fondamentali per sopravvivere nelle discussioni della community.
Formato file per modelli quantizzati di llama.cpp. Sostituisce GGML. Contiene metadati, tokenizer e pesi in un unico file portabile.
Formato di ExLlamaV2. Quantizzazione mista per layer. Più veloce di GGUF su NVIDIA, permette di bilanciare qualità/VRAM a livello fine.
Cache delle Key-Value attention del transformer. Più grande = più contesto tenuto in memoria = più VRAM usata. Il vero collo di bottiglia nei context lunghi.
Riduzione della precisione dei pesi (da FP32 → INT4). Q4_K_M è il sweet spot qualità/velocità. Q8 ≈ FP16 in qualità ma dimezza la VRAM.
Low-Rank Adaptation: allena solo matrici delta di bassa dimensione invece dei pesi completi. QLoRA aggiunge quantizzazione del modello base per risparmiare VRAM.
Retrieval-Augmented Generation: recupera chunk di testo rilevanti da un vector DB e li inserisce nel contesto prima della generazione. Alternativa al fine-tuning per knowledge specifica.
Misura quanto un modello è "sorpreso" dal testo. Più bassa = meglio. Usata per confrontare la qualità di diverse quantizzazioni dello stesso modello.
Algoritmo che riscrive l'attention mechanism per minimizzare il trasferimento VRAM↔SRAM. Abilita context window molto più lunghi con lo stesso hardware.
Mixture of Experts: il modello attiva solo una subset di "esperti" per ogni token. Più parametri totali, meno parametri attivi. Mixtral e DeepSeek ne sono esempi iconici.
BitMakerMan Showroom
Progetti Open Source, Automation Script e AI Utilities.
AI Local Automation
Script avanzati per l'automazione di workflow locali, ottimizzati per ridurre il consumo di VRAM durante l'inferenza massiva.
ESPLORA REPO →Hardware Bench Suite
Collezione di utility per testare il throughput reale di modelli LLM su diverse architetture hardware.
ESPLORA REPO →