Fehlende Werte aus Data Frame entfernen

Author

Claudia Spannbauer

Anwendung:

  • Wir möchten Zeilen löschen, die NAs enthalten.

  • Wir nutzen den penguins Datensatz aus dem Paket palmerpenguins:

library(palmerpenguins)
data("penguins")
pinguine <- penguins |>
  head(7)
pinguine
# A tibble: 7 × 8
  species island    bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
  <fct>   <fct>              <dbl>         <dbl>             <int>       <int>
1 Adelie  Torgersen           39.1          18.7               181        3750
2 Adelie  Torgersen           39.5          17.4               186        3800
3 Adelie  Torgersen           40.3          18                 195        3250
4 Adelie  Torgersen           NA            NA                  NA          NA
5 Adelie  Torgersen           36.7          19.3               193        3450
6 Adelie  Torgersen           39.3          20.6               190        3650
7 Adelie  Torgersen           38.9          17.8               181        3625
# ℹ 2 more variables: sex <fct>, year <int>
  • Funktion na.omit() löscht alle Zeilen mit NAs:
saubere_pinguine <- na.omit(pinguine)
saubere_pinguine
# A tibble: 6 × 8
  species island    bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
  <fct>   <fct>              <dbl>         <dbl>             <int>       <int>
1 Adelie  Torgersen           39.1          18.7               181        3750
2 Adelie  Torgersen           39.5          17.4               186        3800
3 Adelie  Torgersen           40.3          18                 195        3250
4 Adelie  Torgersen           36.7          19.3               193        3450
5 Adelie  Torgersen           39.3          20.6               190        3650
6 Adelie  Torgersen           38.9          17.8               181        3625
# ℹ 2 more variables: sex <fct>, year <int>

Vorsicht!

Das Löschen von ganzen Zeilen aufgrund von NAs kann zu einer Verzerrung der Daten führen und sollte deshalb nur in Ausnahmefällen angewendet werden!