← Blog
giudice aialgoritmo giustiziabias intelligenza artificialeetica algoritmicompas recidivadiritto e tecnologia

Ti fideresti di un giudice robot? Il dibattito sull'IA in tribunale

Dal caso COMPAS nel Wisconsin ai bias razziali di ProPublica: quando un algoritmo decide chi va in prigione, la giustizia può ancora dirsi uguale per tutti?

·7 min di lettura

Nel 2013 un giudice del Wisconsin condannò Eric Loomis a sei anni di carcere. La difesa impugnò la sentenza sostenendo che il giudice avesse basato la propria decisione, almeno in parte, su un punteggio prodotto da un algoritmo proprietario chiamato COMPAS — un software che Loomis non poteva interrogare, contestare o comprendere. La Corte Suprema del Wisconsin respinse il ricorso nel 2016. Il caso divenne un banco di prova mondiale per una domanda che non smette di farsi più urgente: può un algoritmo fare giustizia?

COMPAS e il Wisconsin: quando l'algoritmo entra nell'aula

COMPAS non è un giudice nel senso letterale. Non pronuncia sentenze. Quello che fa è assegnare a ogni imputato un punteggio di rischio di recidiva da 1 a 10, calcolato su oltre 130 variabili: reati precedenti, storia familiare, condizione lavorativa, risposta a questionari comportamentali. Quel numero finisce nel fascicolo del giudice, che teoricamente può ignorarlo — ma in pratica lo vede, lo legge, e raramente dispone degli strumenti per confutarlo. La distinzione tra "strumento di supporto" e "decisore effettivo" è più sottile di quanto voglia ammettere chi ha progettato il sistema.

Il Wisconsin non è un caso isolato. Almeno una decina di stati americani usano sistemi analoghi per decisioni su cauzione, libertà vigilata e, in alcuni contesti, sulla durata della pena. L'algoritmo è diventato parte dell'infrastruttura giudiziaria americana con una velocità che ha lasciato indietro il dibattito pubblico, la dottrina giuridica e — come dimostreremo — la valutazione accurata dei rischi.

Cosa fa davvero un sistema di scoring del rischio

Per capire il dibattito è utile distinguere tra diverse categorie di strumenti. I sistemi di valutazione del rischio come COMPAS sono progettati per prevedere la probabilità che un individuo commetta nuovi reati — e fornire questa previsione in forma di punteggio numerico. I sistemi di raccomandazione della pena vanno oltre: suggeriscono direttamente l'entità della condanna, a volte confrontando il caso con uno storico di casi simili. I sistemi di analisi predittiva del crimine, invece, operano prima ancora dell'arresto, identificando zone o individui "a rischio".

Ciascuno di questi strumenti ha una logica tecnica diversa, ma condivide un presupposto filosofico problematico: che il comportamento futuro di una persona possa essere stimato statisticamente sulla base delle caratteristiche del gruppo a cui appartiene. Un punteggio che prevede che il 70% delle persone con un certo profilo recidivi non dice nulla di certo sull'individuo di fronte al giudice. Eppure è quell'individuo che sconterà la pena.

Il problema del bias: cosa ha trovato ProPublica

Nel 2016 ProPublica pubblicò un'inchiesta destinata a diventare un punto di riferimento nel dibattito sull'IA e la giustizia. I giornalisti analizzarono i dati di oltre 7.000 imputati nella contea di Broward, in Florida, confrontando i punteggi COMPAS assegnati con i tassi di recidiva effettivi nei due anni successivi. Il risultato fu scomodo: gli imputati neri venivano classificati come ad alto rischio quasi il doppio delle volte rispetto agli imputati bianchi, anche controllando per i reati precedenti. Allo stesso tempo, i detenuti bianchi che avevano poi effettivamente recidivato venivano classificati come a basso rischio più spesso.

Northpointe — l'azienda produttrice, oggi Equivant — contestò la metodologia di ProPublica, sostenendo che l'algoritmo fosse in realtà calibrato correttamente in termini di accuracy complessiva. Aveva ragione, tecnicamente: ma questo aprì un dibattito ancora più fondamentale. Tre ricercatori di Stanford dimostrarono matematicamente che alcuni criteri di equità statistica sono incompatibili tra loro — non per un difetto del software, ma per un teorema. Non esiste un algoritmo che sia contemporaneamente calibrato per tutti i gruppi e che erri in modo simmetrico tra gruppi. La scelta di quale equità privilegiare è, inevitabilmente, una scelta politica.

Gli algoritmi sono davvero più bravi degli esseri umani?

Uno degli argomenti più ricorrenti a favore degli strumenti algoritmici è che i giudici umani sono sistematicamente distorte da fattori irrilevanti: il momento della giornata, la stanchezza, il pregiudizio implicito, persino l'umore. Una serie di studi — tra cui una ricerca molto citata sui giudici israeliani che concedevano più spesso la libertà vigilata dopo la pausa pranzo — suggerisce che l'arbitrarietà umana sia un problema reale. In questo quadro, un algoritmo coerente sembrerebbe preferibile.

Il problema è che l'evidenza empirica non supporta in modo uniforme la superiorità algoritmica. Una ricerca di Dressel e Farid pubblicata su Science Advances nel 2018 mostrò che COMPAS non era più accurato di persone senza alcuna formazione giuridica o criminologica a cui veniva chiesto di fare una previsione sulla base di una breve descrizione del caso. L'accuratezza dell'algoritmo era intorno al 65%; quella dei partecipanti umani era simile. La promessa della macchina più accurata dell'uomo, nella giustizia penale, è ancora ampiamente da dimostrare.

Chi risponde quando l'algoritmo sbaglia?

La questione della responsabilità è forse la più spinosa di tutte. Quando un giudice umano emette una sentenza ingiusta, esiste un sistema di appello, una responsabilità professionale, una storia documentata delle sue decisioni. Quando un algoritmo sbaglia, la catena di responsabilità si dissolve in modo preoccupante. Il giudice dice di aver seguito lo strumento. Il produttore dice che lo strumento era "di supporto". Il legislatore non ha ancora definito cosa significhi impugnare una decisione presa con l'aiuto di un software proprietario.

Nel caso Loomis, la Corte Suprema del Wisconsin stabilì che l'utilizzo di COMPAS non violava il diritto al due process — ma solo perché il giudice aveva dichiarato di non aver basato la sentenza esclusivamente sul punteggio. Una distinzione sottile, quasi impossibile da verificare. L'imputato non aveva e non ha il diritto di esaminare il codice sorgente del software, perché protetto da segreto industriale. La scatola nera rimane chiusa.

Il diritto di sapere perché: trasparenza e black box

Il problema della trasparenza non riguarda solo la giustizia penale. Lo stesso tipo di sistema — un modello che produce una raccomandazione sulla base di variabili opache — viene usato per decidere se un candidato supera il primo screening di un colloquio, se una domanda di mutuo viene approvata, se un'assicurazione sanitaria applica un premio più alto. In tutti questi contesti, il soggetto colpito dalla decisione spesso non sa perché è stato rifiutato, non può contestare la logica, non può nemmeno identificare il fattore discriminante.

La differenza con la giustizia penale è che qui le posta in gioco è la libertà personale. Il diritto a conoscere le prove a proprio carico è un principio fondamentale dei sistemi di common law e di quelli di civil law. Un punteggio algoritmico che non può essere spiegato in termini comprensibili all'imputato — e al suo avvocato — è difficilmente compatibile con questo principio. Non è una questione tecnica. È una questione costituzionale.

La domanda più profonda: la giustizia è calcolabile?

Dietro il dibattito tecnico sul bias e sull'accuratezza si nasconde una domanda filosofica più radicale. La giustizia — nel senso di giudicare un individuo per le sue azioni, tenendo conto delle circostanze, dell'intenzione, del contesto morale — è il tipo di cosa che un algoritmo può fare? O la natura stessa di questo compito richiede qualcosa che i sistemi statistici non possono avere: la comprensione di ciò che significa essere umani, sbagliare, essere vulnerabili?

I filosofi del diritto si dividono su questo punto. Chi abbraccia una visione consequenzialista della pena — la punizione è giustificata in quanto riduce la criminalità futura — può trovare ragionevole che uno strumento predittivo informi le decisioni. Chi sostiene una visione retributiva o basata sulla dignità personale — la pena risponde a un atto passato, non a una probabilità futura — troverà l'intero impianto degli strumenti predittivi fondamentalmente fuori luogo. Non è un bug nel codice. È un disaccordo su cosa significhi fare giustizia.

Dallo stesso dibattito: assunzioni, credito, assicurazioni

  • Screening delle assunzioni: sistemi come HireVue o Pymetrics analizzano video-interviste e test comportamentali per filtrare i candidati — con denunce documentate di bias su genere, etnia e disabilità
  • Credit scoring: i modelli di rischio creditizio usano proxy che correlano con la razza o il quartiere di residenza, perpetuando cicli di esclusione finanziaria
  • Assicurazioni sanitarie: algoritmi di previsione della spesa medica negli USA sono stati accusati di sottostimare sistematicamente i bisogni dei pazienti neri
  • Sorveglianza preventiva: sistemi di polizia predittiva come PredPol (ora Geolitica) concentrano il pattugliamento in quartieri già iper-sorvegliati, amplificando le disparità esistenti
  • Valutazione degli studenti: durante la pandemia, sistemi di standardizzazione dei voti automatizzati nel Regno Unito hanno abbassato sistematicamente i voti degli studenti nelle scuole di quartieri svantaggiati

Questi casi condividono una struttura comune: un sistema addestrato su dati storici produce raccomandazioni che riflettono e amplificano le disuguaglianze presenti in quei dati. La giustizia penale è il caso più estremo — perché le conseguenze sono più gravi — ma non è un caso eccezionale. È il caso più visibile di un problema diffuso.

Come vota il pubblico su SplitVote: il dilemma del giudice robot

Sul dilemma "robot-judge" di SplitVote — che chiede direttamente se affideresti a un'IA una decisione di condanna — le risposte rivelano una frattura netta. La maggioranza degli utenti si dichiara contraria all'uso autonomo dell'IA in questo contesto, ma una quota significativa ritiene accettabile l'uso come strumento di supporto, a condizione che la decisione finale resti in mano a un giudice umano. La distinzione tra "IA che decide" e "IA che consiglia" è la linea di confine intorno a cui si organizza il dissenso. Come in molti dilemmi sul limite della tecnologia, il voto cambia sensibilmente in base alla nazionalità e all'età degli utenti: i più giovani tendono a essere più aperti all'uso algoritmicoanche in ambiti sensibili, purché sia presente un meccanismo di appello.

Il quadro normativo: l'EU AI Act e la risposta americana

L'Unione Europea ha classificato i sistemi di IA usati nella giustizia penale come "ad alto rischio" nell'AI Act entrato in vigore nel 2024. Questo significa obblighi stringenti: trasparenza sul funzionamento, supervisione umana obbligatoria, valutazione d'impatto sui diritti fondamentali, diritto degli individui a una spiegazione comprensibile delle decisioni che li riguardano. Gli Stati Uniti si muovono in modo più frammentato: alcuni stati hanno già approvato leggi che richiedono audit indipendenti degli strumenti algoritmici usati in tribunale, mentre a livello federale gli ordini esecutivi sull'IA si sono succeduti con approcci divergenti nelle diverse amministrazioni.

La differenza di approccio riflette una differenza di cultura giuridica. Il sistema europeo tende a regolare in anticipo, per principio. Il sistema americano tende a litigare caso per caso, per giurisprudenza. In entrambi i contesti, la velocità del deployment tecnologico ha superato quella della risposta normativa — e il gap si sta richiudendo, ma lentamente.

L'IA è già in tribunale. La domanda è a quali condizioni

Sarebbe comodo concludere che la soluzione è semplice: o vietare l'IA nella giustizia, o abbracciarla pienamente. La realtà è più complicata. I sistemi algoritmici sono già presenti in molti tribunali del mondo, e la domanda non è se entreranno — è già entrata. La domanda è sotto quali condizioni, con quale supervisione, con quale possibilità di contestazione, e con chi porta la responsabilità quando sbagliano.

Queste condizioni non sono domande tecniche. Sono domande politiche, filosofiche e morali — del tipo che non ammette una risposta ovvia. Richiede di decidere cosa valorizzare di più: la coerenza o la compassione, la prevedibilità o il caso per caso, l'efficienza o la dignità. Sono, in altri termini, esattamente il tipo di domande che SplitVote esiste per portare a galla — perché il modo in cui le persone rispondono rivela qualcosa di reale su come concepiscono la giustizia stessa.

Questo articolo ha scopo divulgativo e giornalistico. I dati citati si riferiscono a studi e inchieste pubblicamente disponibili. I risultati di voto SplitVote riportati sono indicativi e si aggiornano in tempo reale con le risposte degli utenti.