Portale attivo · 2026

Tools AI di Craicek

Il portale definitivo per l'ottimizzazione dell'inferenza locale. Sperimentazione hardware, calcolo risorse, monitoraggio modelli SOTA e molto altro.

9
Sezioni
25+
Tool curati
10+
Prompt pronti
Token locali

Hardware Intelligence

Essenziale

VRAM Estimator

Il tool di apxml.com è fondamentale per decidere quale quantizzazione (4-bit, 6-bit, 8-bit) adottare per far entrare il modello nella tua GPU senza perdite di performance.

CALCOLA MEMORIA
Database

Technical City

Database dinamico per il confronto tra CPU e GPU. Fondamentale per monitorare i TFLOPS e la generazione dell'hardware (FP16/BF16 support).

CONFRONTA HW
Bandwidth

Memory Bandwidth

Usa TechPowerUp per trovare il GB/s della tua scheda. È il valore che determina quanti token al secondo riceverai effettivamente.

DATABASE SPECIFICHE
Nuovo

Token/sec Estimator

Inserisci il tuo hardware e il modello: llm-benchmark.com stima i token/s reali prima ancora di scaricare i 40GB del modello.

STIMA T/S
Power

Power Cost Calc

Calcola il costo reale in kWh (e €) di far girare il tuo stack AI locale H24. Utile per decidere se conviene locale vs API cloud.

CALCOLA COSTI
Advanced

ExLlamaV2 Profiler

Per chi usa EXL2: il più veloce runtime per NVIDIA. Benchmark reali su 4090 con diverse configurazioni di cache e batch.

ESPLORA EXLLAMA

Model Leaderboards

The Local AI Stack

Engines
Ollama / vLLM

Ollama per iniziare in 5 minuti. vLLM per servire modelli in produzione con PagedAttention ad alto throughput.

Apple Silicon
Apple MLX

Il framework nativo per Mac. Usa la memoria unificata per far girare modelli enormi (70B+) su MacBook.

UI Premium
Open WebUI

L'interfaccia definitiva stile ChatGPT. Dockerizzata, con supporto RAG, web search e profili custom.

IDE
Continue.dev

L'estensione VS Code open-source. Collega i tuoi modelli locali e usali come GitHub Copilot gratuito.

→ Livello avanzato: Agentic & Orchestration
Stateful Agents
LangGraph

Costruisci agenti come grafi di stato. Il modo più solido per gestire loop complessi e human-in-the-loop.

GitHub →
Type-Safe Agents
PydanticAI

Il nuovo standard di fatto. Framework per agenti production-ready, fortemente tipizzato e creato dal team di Pydantic.

GitHub →
RAG Engine
LlamaIndex

Il framework più completo per connettere LLM ai tuoi dati. Insuperabile per parsing di PDF e query complesse.

GitHub →
Workflow UI
n8n (self-hosted)

Automazione no-code con nodi AI nativi. L'alternativa hacker a Make/Zapier per collegare tutto in locale.

GitHub →

Model Picker

Scegli il tuo use-case: la colonna sinistra è un riferimento stabile, la destra ti porta al leaderboard live giusto.

Locale vs Cloud — quando scegliere cosa
Privacy assoluta / dati sensibili
Locale ✓
Coding avanzato (100k+ contesto)
Cloud (Claude/GPT) ✓
Automazione batch H24
Locale ✓
Reasoning complesso (math/scienze)
Cloud (o1/Gemini) ✓
Chatbot custom embedded
Locale ✓
Prototipo rapido (pochi giorni)
Cloud API ✓
Multimodale (immagini + testo)
LLaVA / MiniCPM-V ✓
Best-in-class per use-case — sempre aggiornato
Coding & Refactoring Aider

Aider LLM Leaderboard. Valuta le capacità "Agentic" del modello, non le funzioni isolate. Test di refactoring su codice reale.

LEADERBOARD →
Chat / Istruzione generale ELO

Arena.ai: classifica ELO da confronti ciechi umani. Rispecchia la qualità percepita reale, non i benchmark sintetici.

LEADERBOARD →
RAG / Document Q&A MTEB

MTEB di HuggingFace: benchmark per embedding e retrieval. Fondamentale per scegliere il modello di embedding giusto per il tuo RAG.

LEADERBOARD →
Reasoning / Math LiveBench

LiveBench anti-contamination: testa reasoning e math su dati mai visti durante il training. I risultati non mentono.

LEADERBOARD →
Multimodale (vision + testo) VLM

OpenVLM Leaderboard di HuggingFace: classifica i Vision-Language Models su OCR, chart, reasoning visivo e scene understanding.

LEADERBOARD →
Hardware limitato (≤8GB VRAM) Edge / SLM

Open LLM Leaderboard filtrato per Small Language Models (<8B params). I migliori modelli edge, sempre aggiornati dalla community HF.

LEADERBOARD →

Prompt Engineering Hub

Template pronti da copiare. Ottimizzati per modelli locali Instruct.

System Prompt
Expert Coder
You are an expert senior software engineer.
Rules:
- Answer ONLY with code unless asked otherwise
- Always include type hints (Python) or JSDoc
- Prefer functional patterns
- Add inline comments only on non-obvious logic
- If you find a bug, fix it silently and note it at the end
Language: {LANGUAGE}
Context: {PROJECT_CONTEXT}
System Prompt
RAG Document Analyst
You are a document analysis expert.
Given CONTEXT and a QUESTION:
1. Answer ONLY from the provided context
2. If unsure, say "Non trovato nel documento"
3. Cite the relevant passage in [quotes]
4. Be concise: max 3 sentences unless asked more
5. Never hallucinate facts not in context

CONTEXT: {RETRIEVED_CHUNKS}
QUESTION: {USER_QUERY}
Chain of Thought
Structured Reasoner
Solve this step by step.
Format your response as:
<thinking>
[Your reasoning here, be explicit]
</thinking>
<answer>
[Final concise answer]
</answer>
Confidence: [HIGH/MEDIUM/LOW]

Problem: {PROBLEM}
JSON Output
Structured Data Extractor
Extract structured data from the text below.
Output ONLY valid JSON, no markdown, no explanation.
Schema:
{
  "entities": [...],
  "dates": [...],
  "amounts": [...],
  "summary": "string (max 50 words)"
}
If a field is missing use null.

TEXT: {INPUT_TEXT}
Few-Shot
Classificatore Custom
Classify the input into one of: {CLASSES}
Reply with ONLY the class name, nothing else.

Examples:
Input: "{EXAMPLE_1}" → {CLASS_A}
Input: "{EXAMPLE_2}" → {CLASS_B}
Input: "{EXAMPLE_3}" → {CLASS_C}

Now classify:
Input: "{USER_INPUT}" →
Agentic
ReAct Agent Loop
You are an agent with access to tools.
Available tools: {TOOL_LIST}

Use this format strictly:
Thought: what do I need to do?
Action: tool_name
Action Input: {"param": "value"}
Observation: [tool result]
... (repeat as needed)
Final Answer: [answer to user]

Question: {QUESTION}
→ Golden Rules del Prompting per Modelli Locali
Usa XML tags

I modelli Instruct rispondono meglio con struttura esplicita: <context>...</context>

Temperature per use-case

Coding → 0.1–0.3 · Chat → 0.7 · Brainstorming → 0.9–1.2. Non usare 1.0 di default.

Context window ≠ memoria

Oltre 4k token di contesto i modelli piccoli degradano. Usa RAG invece di mettere tutto nel prompt.

Repeat the instruction

Per output critici ripeti il formato richiesto sia all'inizio che alla fine del prompt.

Stop tokens

Imposta stop=["###", "Human:", "User:"] per evitare che il modello inventi turni extra.

Negative prompting

Specifica cosa NON fare: "Do not include preamble, do not apologize" riduce l'output verboso.

Agentic Ecosystem

I tool "chirurgici" essenziali per costruire pipeline affidabili nel mondo reale.

Search
Tavily API

Search-as-a-tool ottimizzato per LLM. A differenza di Google API, estrae il contenuto pulito dei siti evitando allucinazioni.

tavily.com →
Vector DB
LanceDB (Serverless)

Il nuovo standard locale che ha soppiantato Chroma. Gira in-process, usa storage colonnare ed è 100x più veloce su grandi moli di dati.

lancedb.com →
Code Exec
E2B Sandbox

Sandbox isolate microVM per far eseguire codice agli agenti in sicurezza. Fondamentale se stai costruendo un Code Interpreter locale.

e2b.dev →
Structured Data
Instructor / Outlines

Magia nera per forzare gli LLM a rispondere ESATTAMENTE nello schema JSON richiesto, senza errori di parsing. Tool obbligatorio.

instructor.com →
Observability
Langfuse

Tracing open-source per LLM. Ti fa vedere visivamente ogni step del ragionamento del tuo agente, latenza e uso dei token.

langfuse.com →
Protocol
MCP (Anthropic)

Model Context Protocol: il nuovo standard per connettere gli LLM a database, file system e API in modo modulare senza scrivere mille integrazioni.

modelcontextprotocol.io →

Risorse & Formazione

Dove imparare a creare soluzioni reali e dove i veri smanettoni vanno per restare aggiornati.

Glossario Tecnico

I termini fondamentali per sopravvivere nelle discussioni della community.

GGUF Formato

Formato file per modelli quantizzati di llama.cpp. Sostituisce GGML. Contiene metadati, tokenizer e pesi in un unico file portabile.

EXL2 Formato

Formato di ExLlamaV2. Quantizzazione mista per layer. Più veloce di GGUF su NVIDIA, permette di bilanciare qualità/VRAM a livello fine.

KV Cache Architettura

Cache delle Key-Value attention del transformer. Più grande = più contesto tenuto in memoria = più VRAM usata. Il vero collo di bottiglia nei context lunghi.

Quantization Tecnica

Riduzione della precisione dei pesi (da FP32 → INT4). Q4_K_M è il sweet spot qualità/velocità. Q8 ≈ FP16 in qualità ma dimezza la VRAM.

LoRA / QLoRA Fine-tuning

Low-Rank Adaptation: allena solo matrici delta di bassa dimensione invece dei pesi completi. QLoRA aggiunge quantizzazione del modello base per risparmiare VRAM.

RAG Pattern

Retrieval-Augmented Generation: recupera chunk di testo rilevanti da un vector DB e li inserisce nel contesto prima della generazione. Alternativa al fine-tuning per knowledge specifica.

Perplexity Metrica

Misura quanto un modello è "sorpreso" dal testo. Più bassa = meglio. Usata per confrontare la qualità di diverse quantizzazioni dello stesso modello.

Flash Attention Ottimizzazione

Algoritmo che riscrive l'attention mechanism per minimizzare il trasferimento VRAM↔SRAM. Abilita context window molto più lunghi con lo stesso hardware.

MoE Architettura

Mixture of Experts: il modello attiva solo una subset di "esperti" per ogni token. Più parametri totali, meno parametri attivi. Mixtral e DeepSeek ne sono esempi iconici.

BitMakerMan Showroom

Progetti Open Source, Automation Script e AI Utilities.

TUTTI I REPOSITORY
Project_01

AI Local Automation

Script avanzati per l'automazione di workflow locali, ottimizzati per ridurre il consumo di VRAM durante l'inferenza massiva.

ESPLORA REPO →
Project_02

Hardware Bench Suite

Collezione di utility per testare il throughput reale di modelli LLM su diverse architetture hardware.

ESPLORA REPO →