Intelligenza Artificiale

Dentro la Testa di un Modello di Intelligenza Artificiale: Come Funziona un Transformer

Luca Terribili

Autore

Pubblicato 17 apr 2025Aggiornamento: 23 nov 2025

Caricamento contenuto...

Domande Frequenti

Che cos'è un embedding?

Un embedding è il modo con cui una parola, un pezzo di parola o una sillaba viene trasformata in un insieme di numeri. Per esempio, la parola "cane" può essere rappresentata con 768 numeri, creando un vettore numerico. Parole simili hanno vettori vicini nello spazio.

A cosa serve un embedding?

Gli embedding permettono di rappresentare le parole come numeri, permettendo ai modelli di elaborarle. Permette di creare relazioni tra parole simili, rappresentandoli come punti vicini in uno spazio vettoriale.

Che cos'è il positional encoding?

Il positional encoding è un meccanismo che aggiunge informazioni sulla posizione di ogni parola nella frase al suo embedding. Questo permette al modello di distinguere tra frasi con lo stesso insieme di parole ma ordine diverso, come "mangia il cane" e "il cane mangia".

A cosa serve il positional encoding?

Il positional encoding fornisce al modello informazioni sull'ordine delle parole in una frase, permettendogli di comprendere la struttura sintattica e il significato corretto.

Che cos'è l'encoder?

L'encoder è una componente del modello che elabora la frase in input, cercando di capire come ogni parola si relaziona alle altre tramite il meccanismo di self-attention.

A cosa serve l'encoder?

L'encoder elabora la frase e determina le relazioni tra le parole, generando vettori contestualizzati che tengono conto del significato di ogni parola nel contesto della frase.

Che cos'è la self-attention?

La self-attention è un meccanismo utilizzato dall'encoder dove ogni parola "guarda" tutte le altre parole nella frase per determinare la loro importanza reciproca nel contesto.

Che cos'è un encoder layer?

Un encoder layer è uno strato ripetuto all'interno dell'encoder che ripete il processo di elaborazione della frase, raffinando sempre più i vettori e permettendo al modello di cogliere sfumature più complesse.

Che cos'è il decoder?

Il decoder è la componente del modello che genera una risposta o una traduzione, basandosi sull'output dell'encoder e sui token già generati.

A cosa serve il decoder?

Il decoder genera una sequenza di parole in output, basandosi sulle informazioni fornite dall'encoder e sui token precedentemente generati. Viene utilizzato per attività come la traduzione, la generazione di testo e la continuazione di frasi.

Che cos'è la masked self-attention?

La masked self-attention è un meccanismo utilizzato dal decoder che impedisce al modello di "sbirciare" nel futuro, evitando che basi la generazione di una parola su parole che non sono ancora state generate.

Che cos'è la cross-attention?

La cross-attention è un meccanismo utilizzato dal decoder per accedere alle informazioni elaborate dall'encoder, permettendo al modello di rimanere coerente con l'input.

Quali sono le differenze tra BERT, GPT e T5?

BERT ha solo un encoder (analisi e comprensione), GPT ha solo un decoder (generazione di testo), T5 ha entrambi (lettura e generazione).

Come funzionano gli LSTM?

Gli LSTM sono modelli più vecchi che funzionano in modo sequenziale, parola per parola, senza positional encoding ma con memoria temporale incorporata. Sono più lenti e meno potenti di modelli più recenti.

← Torna alla categoria Intelligenza Artificiale Tutti gli articoli