W ostatnim czasie udało mi się przerobić całkiem fajny tutorial na Kaggle.com, który uczy podstaw machine learning na przykładzie pasażerów Titanica i przewidywania, którzy mieli szansę na przetrwanie. Tutorial nazywa się Titanic: Machine Learning from Disaster i pozwala on na przejście całego procesu od przetworzenia zbioru danych do uzyskania wyników, które możemy wysłać na serwer Kaggle w celu zrobienia sobie portfolio.
Ponieważ moim celem w ramach tegorocznego Daj się poznać jest właśnie wrzucenie swoich właśnych “prognoz” na Kaggle do zadania “Partly Sunny with a Chance of Hashtags” taki tutorial bardzo mi pomógł w zrozumieniu co i jak po kolei. Jest tam jednak parę rzeczy, które muszę bardziej zgłębić, by wiedzieć co robię a nie tylko odtwarzać. Jednak w tym świetnie pomaga mi uczenie się na Dataquest o którym już tutaj wspominałam.
Po przerobieniu tutoriala z Titanica moim pierwszym krokiem było przeniesienie instrukcji z tutoriala do notesu Jupyter aby później móc na tym pracować już moim zbiorem danych. Okazało się jednak, że to nie było takie proste, ponieważ po pierwsze po instrukcji:
predictions[predictions > .5] = 1
predictions[predictions <=.5] = 0
dostałam informację: “FutureWarning: in the future, boolean array-likes will be handled as a boolean array index app.launch_new_instance()” Na szczęście to póki co ostrzeżenie, więc nie szukałam w tym momencie rozwiązania dla tego problemu.
Gorzej było, gdy po instrukcji:
alg = LogisticRegression(random_state=1)
pojawiło się:
NameError Traceback (most recent call last)
in ()
----> 1 alg = LogisticRegression(random_state=1)
NameError: name ‘LogisticRegression’ is not defined
Na szczęście okazało się, że wystarczy instrukcję zamienić na:
alg = linear_model.LogisticRegression(random_state=1)
Jednak w tutorialu nic takiego potrzebne nie było;) No ale na szczęście wszystko ostatecznie poszło szybko i sprawnie. Tak więc krok po kroku posuwam się coraz dalej. Jednak już wiem, że temat Data science jest tak ogromny, iż jeśli nie zwiększę ilości czasu jaki mu poświęcam, zgłębienie go zajmie mi dłużej niż bym chciałą. Ale nie przeszkadza mi to zbytnio, bo jest to bardzo ciekawe!
No i udało się też wrzucić wreszcie coś sensownego do Gita – czyli mój Jupyter Notebook z póki co rozwiązaniem do kwestii Titanica.