Python w Data Science

Poprzednio pisałam o statystyce i Excelu, ale to co mnie interesuje najbardziej, to jednak programowanie. Dziś jednak będzie krótko, ponieważ temat, którego poznania się podjęłam jest naprawdę ogromny:)

Dlaczego wybrałam Pythona nie R? Chyba już wspomniałam, iż zależało mi na tym, żeby to był język, który mogę wykorzystać też do czegoś innego. Zresztą w zeszłym roku, właśnie tuż przed rozpoczęciem poprzedniej edycji Daj się poznać miałam swoje pierwsze podejście do Pythona, ale w postaci Django. Ostatecznie jednak w konkursie zdecydowałam się na realizację aplikacji androidowej, bo jej tematyka była ciekawsza.

I tak w Pythonie do tej pory poznałam dwie dość ciekawe rzeczy związane z Data Science: NumPy i Pandas.

NumPy – w dużym skrócie

Jest to moduł/rozszerzenie do Pythona, które umożliwia nam operacje na macierzach i wielowymiarowych tablicach. Jest to zatem niesamowicie przydatne w przypadku przetwarzania danych.
Jedną z podstawowych rzeczy, które często są używane przy pracy z danymi to typ ndarray – jest to tablica, która w odróżnieniu od tablic wbudowanych w Pythona pozwala na przechowywanie danych tylko jednego typu oraz muszą mieć z góry zdefiniowany rozmiar. Dzięki temu tak skonstruowane tablice są dużo bardziej wydajne. W przypadku dużych ilości przetwarzanych danych naprawdę ma to znaczenie.

Pandas – w dużym skrócie

Jest to biblioteka, która dostarcza funkcjonalności związanych z przetwarzaniem danych i ich analizą. Za jej pomocą możemy dokonywać podobnych operacji jak te o których pisałam w poprzednim wpisie poświęconym tematowi Data Science – wyznaczać wartości średnie, mediany, odchylenia standardowe itd. Możemy również agregować dane na różne sposoby, tworzyć pivoty a także rysować wykresy. Właściwie realizując lekcje z Pandas robiłam niemalże to samo co wcześniej w lekcjach z Excela związanymi z przetwarzaniem danych.

NumPy i Pandas mają całą masę funkcjonalności – wielu z nich na pewno jeszcze nie znam, ale wszystko przede mną!

  • Uwielbiam NumPy za łatwość przetwarzania danych, szczególnie tych wielowymiarowych. Polecam jeszcze Matplotlib do rysowania wykresów, histogramów i innych wizualizacji. O Pandas słyszałam, ale jeszcze nie miałam okazji sie wgłębić.

  • Pandas rządzi. Już kilka fajnych analiz logów mi umożliwił. Czekamy na kod!