Logo it.boatexistence.com

Quali sono i difetti di imputare i valori mancanti con la media?

Sommario:

Quali sono i difetti di imputare i valori mancanti con la media?
Quali sono i difetti di imputare i valori mancanti con la media?

Video: Quali sono i difetti di imputare i valori mancanti con la media?

Video: Quali sono i difetti di imputare i valori mancanti con la media?
Video: Machine learning in python - 9 - Come gestire i valori mancanti 2024, Maggio
Anonim

L'imputazione media distorce le relazioni tra le variabili Ma l'imputazione media distorce anche le relazioni multivariate e influenza le statistiche come la correlazione. Ad esempio, la seguente chiamata a PROC CORR calcola la correlazione tra la variabile Orig_Height e le variabili Weight ed Age.

Perché usare una media per i dati mancanti è una cattiva idea?

La media riduce una varianza dei dati Andando più in profondità nella matematica, una varianza più piccola porta a un intervallo di confidenza più ristretto nella distribuzione di probabilità[3]. Questo non porta a nient' altro che introdurre una distorsione nel nostro modello.

Perché i valori mancanti sono un problema?

I dati mancanti presentano vari problemi. Primo, l'assenza di dati riduce il potere statistico, che si riferisce alla probabilità che il test rifiuti l'ipotesi nulla quando è falsa. In secondo luogo, i dati persi possono causare distorsioni nella stima dei parametri. Terzo, può ridurre la rappresentatività dei campioni.

Perché l'imputazione cattiva è cattiva?

Problema 1: L'imputazione media non preserva le relazioni tra le variabili. Vero, l'imputazione della media preserva la media dei dati osservati. Quindi, se i dati mancano completamente in modo casuale, la stima della media rimane imparziale.

Dovresti sostituire i dati mancanti con la media?

I punti dati anomali avranno un impatto significativo sulla media e quindi, in questi casi, non è consigliabile utilizzare la media per sostituire i valori mancanti. L'utilizzo di valori medi per sostituire i valori mancanti potrebbe non creare un modello eccezionale e quindi viene escluso.

Consigliato: