CRAICEK AI PORTAL | Hub Definitivo Local AI

Hardware Intelligence

Essenziale

VRAM Estimator

Il tool di apxml.com è fondamentale per decidere quale quantizzazione (4-bit, 6-bit, 8-bit) adottare per far entrare il modello nella tua GPU senza perdite di performance.

CALCOLA MEMORIA

Database

Technical City

Database dinamico per il confronto tra CPU e GPU. Fondamentale per monitorare i TFLOPS e la generazione dell'hardware (FP16/BF16 support).

CONFRONTA HW

Bandwidth

Memory Bandwidth

Usa TechPowerUp per trovare il GB/s della tua scheda. È il valore che determina quanti token al secondo riceverai effettivamente.

DATABASE SPECIFICHE

Nuovo

Token/sec Estimator

Inserisci il tuo hardware e il modello: llm-benchmark.com stima i token/s reali prima ancora di scaricare i 40GB del modello.

STIMA T/S

Power

Power Cost Calc

Calcola il costo reale in kWh (e €) di far girare il tuo stack AI locale H24. Utile per decidere se conviene locale vs API cloud.

CALCOLA COSTI

Advanced

ExLlamaV2 Profiler

Per chi usa EXL2: il più veloce runtime per NVIDIA. Benchmark reali su 4090 con diverse configurazioni di cache e batch.

ESPLORA EXLLAMA

Model Leaderboards

Arena.ai (ex LMSYS)

Il gold standard mondiale. Classifica ELO basata su test ciechi tra umani. Qui capisci chi è davvero il re degli LLM oggi.

</>

Aider LLM Leaderboard

Sostituisce i test accademici sul codice. Testa la capacità reale dei modelli di fare refactoring e agire su file multipli senza rompere la codebase.

T/S

Artificial Analysis

Dati scientifici aggiornati su intelligenza, velocità (Tokens/sec) e costo. Il miglior quadrante generale dell'industria.

LiveBench AI

Benchmark anti-contaminazione. Testa i modelli su dati appena pubblicati che non hanno potuto vedere durante il training.

Scale SEAL Leaderboard

Benchmark enterprise-grade di Scale AI. Copre coding, math, instruzione, safety. Affidabile per decisioni business-critical.

Open LLM Leaderboard

La classifica tecnica di HuggingFace. Essenziale per chi scarica modelli GGUF e EXL2 da far girare localmente.

The Local AI Stack

Engines

Ollama / vLLM

Ollama per iniziare in 5 minuti. vLLM per servire modelli in produzione con PagedAttention ad alto throughput.

Apple Silicon

Apple MLX

Il framework nativo per Mac. Usa la memoria unificata per far girare modelli enormi (70B+) su MacBook.

UI Premium

Open WebUI

L'interfaccia definitiva stile ChatGPT. Dockerizzata, con supporto RAG, web search e profili custom.

IDE

Continue.dev

L'estensione VS Code open-source. Collega i tuoi modelli locali e usali come GitHub Copilot gratuito.

→ Livello avanzato: Agentic & Orchestration

Stateful Agents

LangGraph

Costruisci agenti come grafi di stato. Il modo più solido per gestire loop complessi e human-in-the-loop.

GitHub →

Type-Safe Agents

PydanticAI

Il nuovo standard di fatto. Framework per agenti production-ready, fortemente tipizzato e creato dal team di Pydantic.

GitHub →

RAG Engine

LlamaIndex

Il framework più completo per connettere LLM ai tuoi dati. Insuperabile per parsing di PDF e query complesse.

GitHub →

Workflow UI

n8n (self-hosted)

Automazione no-code con nodi AI nativi. L'alternativa hacker a Make/Zapier per collegare tutto in locale.

GitHub →

Model Picker

Scegli il tuo use-case: la colonna sinistra è un riferimento stabile, la destra ti porta al leaderboard live giusto.

Locale vs Cloud — quando scegliere cosa

Privacy assoluta / dati sensibili

→

Locale ✓

Coding avanzato (100k+ contesto)

→

Cloud (Claude/GPT) ✓

Automazione batch H24

→

Locale ✓

Reasoning complesso (math/scienze)

→

Cloud (o1/Gemini) ✓

Chatbot custom embedded

→

Locale ✓

Prototipo rapido (pochi giorni)

→

Cloud API ✓

Multimodale (immagini + testo)

→

LLaVA / MiniCPM-V ✓

Best-in-class per use-case — sempre aggiornato

Coding & Refactoring Aider

Aider LLM Leaderboard. Valuta le capacità "Agentic" del modello, non le funzioni isolate. Test di refactoring su codice reale.

LEADERBOARD →

Chat / Istruzione generale ELO

Arena.ai: classifica ELO da confronti ciechi umani. Rispecchia la qualità percepita reale, non i benchmark sintetici.

LEADERBOARD →

RAG / Document Q&A MTEB

MTEB di HuggingFace: benchmark per embedding e retrieval. Fondamentale per scegliere il modello di embedding giusto per il tuo RAG.

LEADERBOARD →

Reasoning / Math LiveBench

LiveBench anti-contamination: testa reasoning e math su dati mai visti durante il training. I risultati non mentono.

LEADERBOARD →

Multimodale (vision + testo) VLM

OpenVLM Leaderboard di HuggingFace: classifica i Vision-Language Models su OCR, chart, reasoning visivo e scene understanding.

LEADERBOARD →

Hardware limitato (≤8GB VRAM) Edge / SLM

Open LLM Leaderboard filtrato per Small Language Models (<8B params). I migliori modelli edge, sempre aggiornati dalla community HF.

LEADERBOARD →

Prompt Engineering Hub

Template pronti da copiare. Ottimizzati per modelli locali Instruct.

System Prompt

Expert Coder

You are an expert senior software engineer.
Rules:
- Answer ONLY with code unless asked otherwise
- Always include type hints (Python) or JSDoc
- Prefer functional patterns
- Add inline comments only on non-obvious logic
- If you find a bug, fix it silently and note it at the end
Language: {LANGUAGE}
Context: {PROJECT_CONTEXT}

System Prompt

RAG Document Analyst

You are a document analysis expert.
Given CONTEXT and a QUESTION:
1. Answer ONLY from the provided context
2. If unsure, say "Non trovato nel documento"
3. Cite the relevant passage in [quotes]
4. Be concise: max 3 sentences unless asked more
5. Never hallucinate facts not in context

CONTEXT: {RETRIEVED_CHUNKS}
QUESTION: {USER_QUERY}

Chain of Thought

Structured Reasoner

Solve this step by step.
Format your response as:
<thinking>
[Your reasoning here, be explicit]
</thinking>
<answer>
[Final concise answer]
</answer>
Confidence: [HIGH/MEDIUM/LOW]

Problem: {PROBLEM}

JSON Output

Structured Data Extractor

Extract structured data from the text below.
Output ONLY valid JSON, no markdown, no explanation.
Schema:
{
  "entities": [...],
  "dates": [...],
  "amounts": [...],
  "summary": "string (max 50 words)"
}
If a field is missing use null.

TEXT: {INPUT_TEXT}

Few-Shot

Classificatore Custom

Classify the input into one of: {CLASSES}
Reply with ONLY the class name, nothing else.

Examples:
Input: "{EXAMPLE_1}" → {CLASS_A}
Input: "{EXAMPLE_2}" → {CLASS_B}
Input: "{EXAMPLE_3}" → {CLASS_C}

Now classify:
Input: "{USER_INPUT}" →

Agentic

ReAct Agent Loop

You are an agent with access to tools.
Available tools: {TOOL_LIST}

Use this format strictly:
Thought: what do I need to do?
Action: tool_name
Action Input: {"param": "value"}
Observation: [tool result]
... (repeat as needed)
Final Answer: [answer to user]

Question: {QUESTION}

→ Golden Rules del Prompting per Modelli Locali

Usa XML tags

I modelli Instruct rispondono meglio con struttura esplicita: <context>...</context>

Temperature per use-case

Coding → 0.1–0.3 · Chat → 0.7 · Brainstorming → 0.9–1.2. Non usare 1.0 di default.

Context window ≠ memoria

Oltre 4k token di contesto i modelli piccoli degradano. Usa RAG invece di mettere tutto nel prompt.

Repeat the instruction

Per output critici ripeti il formato richiesto sia all'inizio che alla fine del prompt.

Stop tokens

Imposta stop=["###", "Human:", "User:"] per evitare che il modello inventi turni extra.

Negative prompting

Specifica cosa NON fare: "Do not include preamble, do not apologize" riduce l'output verboso.

Agentic Ecosystem

I tool "chirurgici" essenziali per costruire pipeline affidabili nel mondo reale.

Tavily API

Search-as-a-tool ottimizzato per LLM. A differenza di Google API, estrae il contenuto pulito dei siti evitando allucinazioni.

tavily.com →

Vector DB

LanceDB (Serverless)

Il nuovo standard locale che ha soppiantato Chroma. Gira in-process, usa storage colonnare ed è 100x più veloce su grandi moli di dati.

lancedb.com →

Code Exec

E2B Sandbox

Sandbox isolate microVM per far eseguire codice agli agenti in sicurezza. Fondamentale se stai costruendo un Code Interpreter locale.

e2b.dev →

Structured Data

Instructor / Outlines

Magia nera per forzare gli LLM a rispondere ESATTAMENTE nello schema JSON richiesto, senza errori di parsing. Tool obbligatorio.

instructor.com →

Observability

Langfuse

Tracing open-source per LLM. Ti fa vedere visivamente ogni step del ragionamento del tuo agente, latenza e uso dei token.

langfuse.com →

Protocol

MCP (Anthropic)

Model Context Protocol: il nuovo standard per connettere gli LLM a database, file system e API in modo modulare senza scrivere mille integrazioni.

modelcontextprotocol.io →

Risorse & Formazione

Dove imparare a creare soluzioni reali e dove i veri smanettoni vanno per restare aggiornati.

Rizzo AI Academy

Consigliato

Il percorso definitivo per imparare l'Intelligenza Artificiale. Vuoi padroneggiare questi strumenti, smettere di copiare prompt e imparare a sviluppare veri agenti e automazioni avanzate? Inizia qui.

ISCRIVITI ORA

CrAIcek TG

Il Telegiornale dell'AI Locale

GUARDA L'ULTIMA EDIZIONE →

r/LocalLLaMA

La community Reddit più attiva su modelli locali. Breaking news su nuovi modelli, benchmark e trick di ottimizzazione in tempo reale.

📄

HuggingFace Daily Papers

I paper arXiv più discussi dalla community ogni giorno. Con voti e commenti tecnici. Il modo più veloce di seguire la ricerca.

✍️

Together AI Blog

Deep dive tecnici su training, inferenza distribuita e nuovi modelli open source. Contenuto di qualità altissima, non marketing.

🔬

Simon Willison's Weblog

Il blog più rispettato nel panorama AI pratico. Test reali, tool review, LLM security. Aggiornato quasi ogni giorno da un vero hacker.

📬

AI News Newsletter

Digest giornaliero di tutte le discussioni AI rilevanti (Twitter/X, Reddit, Discord). Il riassunto più completo dell'ecosistema.

arXiv cs.AI — Ultimi paper

Diretto alla fonte. I pre-print di AI/ML pubblicati oggi. Per chi vuole leggere la ricerca prima che diventi virale su LinkedIn.

🤗

HF Viewer

Strumento avanzato per esplorare, analizzare l'architettura dei tensori e ispezionare i modelli su Hugging Face in modo rapido.

Glossario Tecnico

I termini fondamentali per sopravvivere nelle discussioni della community.

GGUF Formato

Formato file per modelli quantizzati di llama.cpp. Sostituisce GGML. Contiene metadati, tokenizer e pesi in un unico file portabile.

EXL2 Formato

Formato di ExLlamaV2. Quantizzazione mista per layer. Più veloce di GGUF su NVIDIA, permette di bilanciare qualità/VRAM a livello fine.

KV Cache Architettura

Cache delle Key-Value attention del transformer. Più grande = più contesto tenuto in memoria = più VRAM usata. Il vero collo di bottiglia nei context lunghi.

Quantization Tecnica

Riduzione della precisione dei pesi (da FP32 → INT4). Q4_K_M è il sweet spot qualità/velocità. Q8 ≈ FP16 in qualità ma dimezza la VRAM.

LoRA / QLoRA Fine-tuning

Low-Rank Adaptation: allena solo matrici delta di bassa dimensione invece dei pesi completi. QLoRA aggiunge quantizzazione del modello base per risparmiare VRAM.

RAG Pattern

Retrieval-Augmented Generation: recupera chunk di testo rilevanti da un vector DB e li inserisce nel contesto prima della generazione. Alternativa al fine-tuning per knowledge specifica.

Perplexity Metrica

Misura quanto un modello è "sorpreso" dal testo. Più bassa = meglio. Usata per confrontare la qualità di diverse quantizzazioni dello stesso modello.

Flash Attention Ottimizzazione

Algoritmo che riscrive l'attention mechanism per minimizzare il trasferimento VRAM↔SRAM. Abilita context window molto più lunghi con lo stesso hardware.

MoE Architettura

Mixture of Experts: il modello attiva solo una subset di "esperti" per ogni token. Più parametri totali, meno parametri attivi. Mixtral e DeepSeek ne sono esempi iconici.

BitMakerMan Showroom

Progetti Open Source, Automation Script e AI Utilities.

TUTTI I REPOSITORY

Project_01

AI Local Automation

Script avanzati per l'automazione di workflow locali, ottimizzati per ridurre il consumo di VRAM durante l'inferenza massiva.

ESPLORA REPO →

Project_02

Hardware Bench Suite

Collezione di utility per testare il throughput reale di modelli LLM su diverse architetture hardware.

ESPLORA REPO →