Przetwarzanie danych w data science

Jednym z podstawowych wyzwań jakie stoją przed data scientistami jest odpowiednia analiza zbiorów danych. Czasami takimi rzeczami zajmują się data analyst, ale jednak dla obu specjalności wiedza o tym jak postępować ze zbiorami danych jest bardzo ważna.

Po pierwsze przydaje się wiedza biznesowa na temat danych z jakimi ma się do czynienia, po to by zrozumieć, co poszczególne kolumny tabeli, którą dostaliśmy reprezentują. Czasem może to wymagać jakiegoś rozeznania w temacie. Tutaj możę się przydać też cecha, którą każdy data scientist powinien posiadać – czyli ciekawość. Im lepiej poznamy dany temat tym lepiej będziemy w stanie przeanalizować dane i uzyskać z nich przydatne wyniki. Przyda się też komunikatywność – aby informacje na temat danych zdobyć od ludzi, którzy wiedzę biznesową posiadają.

Po drugie – ważne jest, by zastanowić się, które z posiadanych przez nas danych mogą mieć wpływ na wynik, którego szukamy oraz jakie te korelacje mogą być. Jeśli na przykład chcemy przewidzieć wzrost czytelnictwa w danej grupie wiekowej będzie nas interesował wiek oraz ilość przeczytanych książek w ciągu roku. Ale niekoniecznie będzie nas interesował region czy płeć czytelników. Dlatego też już na wstępie pewne dane możemy wyciąć, jeśli wiemy, że do wyniku nas nie przybliżą.

Trzecia rzecz – dane nie zawsze są uporządkowane i kompletne. Możemy się spotkać z tabelami w których brakuje danych dla jakiejś kolumny w pewnym procencie wierszy. Co wtedy? Podejścia są różne – jeśli procent takich danych jest mały można pokusić się o usunięcie tych wierszy. Jednak jeśli danych nie mamy dużo i nie chcemy niczego usuwać częstą praktyką jest wstawienie w puste miejsca mediany wartości z danej kolumny. Spotkałam się też z uzupełnianiem pustych miejsc wartością średnią.

Ostatnie – często by dane łatwiej się przetwarzało pozbywamy się wartości tekstowych i zamieniamy je na wartości liczbowe. I tak na przykład gdy mamy kolumnę przechowującą płeć w formacie F lub M, możemy ja zamienić na reprezentację za pomocą cyfr 1 i 0.

You might also like