L'imputazione media distorce le relazioni tra le variabili Ma l'imputazione media distorce anche le relazioni multivariate e influenza le statistiche come la correlazione. Ad esempio, la seguente chiamata a PROC CORR calcola la correlazione tra la variabile Orig_Height e le variabili Weight ed Age.
Perché usare una media per i dati mancanti è una cattiva idea?
La media riduce una varianza dei dati Andando più in profondità nella matematica, una varianza più piccola porta a un intervallo di confidenza più ristretto nella distribuzione di probabilità[3]. Questo non porta a nient' altro che introdurre una distorsione nel nostro modello.
Perché i valori mancanti sono un problema?
I dati mancanti presentano vari problemi. Primo, l'assenza di dati riduce il potere statistico, che si riferisce alla probabilità che il test rifiuti l'ipotesi nulla quando è falsa. In secondo luogo, i dati persi possono causare distorsioni nella stima dei parametri. Terzo, può ridurre la rappresentatività dei campioni.
Perché l'imputazione cattiva è cattiva?
Problema 1: L'imputazione media non preserva le relazioni tra le variabili. Vero, l'imputazione della media preserva la media dei dati osservati. Quindi, se i dati mancano completamente in modo casuale, la stima della media rimane imparziale.
Dovresti sostituire i dati mancanti con la media?
I punti dati anomali avranno un impatto significativo sulla media e quindi, in questi casi, non è consigliabile utilizzare la media per sostituire i valori mancanti. L'utilizzo di valori medi per sostituire i valori mancanti potrebbe non creare un modello eccezionale e quindi viene escluso.