Rilevamento outlier multivariato in Python

Blog

Il rilevamento di valori anomali nei dati multivariati può spesso essere una delle sfide della fase di pre-elaborazione dei dati. Esistono varie metriche di distanza, punteggi e tecniche per rilevare i valori anomali. La distanza euclidea è una delle metriche di distanza più conosciute per identificare i valori anomali in base alla loro distanza dal punto centrale. C'è anche uno Z-Score per definire valori anomali per una singola variabile numerica. In alcuni casi, possono essere preferiti anche algoritmi di clustering. Tutti questi metodi considerano gli outlier da diverse prospettive. I valori anomali trovati in base a un metodo potrebbero non essere trovati dagli altri come valori anomali. Pertanto, questi metodi e metriche dovrebbero essere scelti considerando la distribuzione delle variabili. Tuttavia, questo fa emergere anche le esigenze di metriche diverse. In questo articolo, discuteremo la metrica della distanza chiamata Mahalanobis Distance per rilevare valori anomali nei dati multivariabili.



#python #data-science #multivariate-analysis #anomaly-detection #outlier-detection

versodatascience.com

Rilevamento outlier multivariato in Python

Outlier multivariati e distanza di Mahalanobis in Python. In questo articolo, discuteremo la metrica della distanza chiamata Mahalanobis Distance per rilevare valori anomali nei dati multivariabili.