ckages ( "dplyr") library ( dplyr) select ( filter ( iris, Kelchlänge > 7), c ( "Kelchlänge", "Blütenblattlänge", "Gattung")) Die Funktionen aus dem dplyr -Packet sind nicht nur einfacher zu verwenden, sie sind auch in unserem Vergleich schneller als alle anderen hier vorgestellten Möglichkeiten.
Wie man sehen kann, sind in dem neuen Datenframe nur noch die drei Variablen gespeichert. Wir können auch nur Zeilen auswählen. Dazu müssen wir nur vor dem Komma spezifizieren welche Fälle wir haben wollen. Dies geschieht meist mit einem logischen Operator. nur die Studenten sehen, dann müssen wir folgendes machen: nurStudenten <- profData[job=="Medizin Student", ] nurStudenten Da wir nach dem Komma nichts festgelegt haben, beinhaltet der neue Datenframe alle Zeilen in denen in der Variable "Job" Medizin Student vorkommt. Tabelle in r erstellen de. Natürlich können wir auch beides gleichzeitig machen. Nehmen wir mal an, wir wollen die Persönlichkeitsvariablen haben, aber nur von den Personen die mehr als 10 Einheiten Alkohol trinken. alkoholPersönlichkeit <- profData[alkohol > 10, c("freunde", "alkohol", "neurotisch")] alkoholPersönlichkeit Der erstellt Datenframe enthält jetzt nur noch die drei Persönlichkeitsvariablen von Fällen, die mehr als 10 Einheiten Alkohol trinken. Daten auswählen mit der Funktion subset() Natürlich existiert auch eine Funktion, um bestimmte Daten auszuwählen.
N auf die Gruppierung bezieht. Säulendiagramm in R erstellen - Björn Walther. Ein Barplot von den aggregierten Daten: Weitere Funktionen Das Package kann noch mehr. Einige Beispiele: Keine direkte Funktion vom Package, aber sehr hilfreich, um nach mehreren Dingen zu filtern: dt[Category%in% c("Sport", "Politik") & nchar(Name) > 20] (nimmt nur Bücher aus Sport und Politik mit Titel, die länger als 20 Buchstaben sind) Benutzen von Funktionen als by -Argument: dt[,. (Med = median(Pages), SD = sd(Pages)), by=(nchar(Name) > 15)] (Gruppierung, ob der Titel länger als 15 Zeichen ist - aggregiert Median und Standardabweichung von der Seitenanzahl) Aggregieren von ausgewählten Spalten mit und: dt[, lapply(, sum), ("Pages", "PercentInCategory"), by="Category"] (Summieren der angegebenen Spalten je Kategorie) Ein weiteres Beispiel noch; hier sehen wir, wie man den Datensatz reduziert und in einem neuen speichert, in diesem anschließend Spaltennamen ändert, die Reihenfolge der spalten anpasst und die Fälle sortiert: #Use of 'set' functions dtReduced <- dt[,.