Rekrutacja na studia w roku akademickim 2017/2018 została zakończona.
Zapraszamy za rok! Kolejna rekrutacja rozpocznie się w kwietniu 2018 r.

Organizatorem studiów jest Wydział Nauk Ekonomicznych Uniwersytetu Warszawskiego.
Pierwsza edycja studiów zostanie uruchomiona w listopadzie 2017 r. i zajęcia potrwają do czerwca 2018.



Dlaczego Data Science?

Oferta studiów podyplomowych Wydziału Nauk Ekonomicznych Uniwersytetu Warszawskiego „Data Science w zastosowaniach biznesowych. Warsztaty z wykorzystaniem programu R” jest odpowiedzią na rosnące zapotrzebowanie na rynku na interdyscyplinarnych analityków danych – tzw. data scientists. Głównym celem projektu jest podniesienie kompetencji osób zajmujących się szeroko rozumianą pracą z danymi w odniesieniu do analityki biznesowej oraz nowej dynamicznie rozwijającej się dziedziny – Data Science.


Data Science jest pojęciem, które odnosi się do połączenia kompetencji statystycznych, analitycznych, programistycznych. Data scientist to osoba, która nie tylko umie przetwarzać dane i wykonywać na nich analizy statystyczne, ale potrafi także analizować olbrzymie ilości danych i zaobserwować w nich zależności i trendy niewidoczne dla zwykłych analityków. Wymaga to posiadania rozległej wiedzy statystycznej, doświadczenia analitycznego, umiejętności zrozumienia problemu biznesowego, a także bardzo dobrych umiejętności programistycznych i znajomości elastycznych narzędzi pozwalających na efektywną analizę dużych ilości danych (w tym metod uczenia maszynowego – ang. machine learning). Program studiów „Data Science w zastosowaniach biznesowych. Warsztaty z wykorzystaniem programu R” przygotowuje słuchaczy do nowoczesnej pracy analitycznej na przykładach realnych problemów biznesowych.


Efektywna praca nowoczesnego analityka wymaga dogłębnego poznania wydajnego i uniwersalnego języka programowania – codziennego środowiska pracy. Dla data scientist naturalnym i najpopularniejszym na świecie narzędziem pracy jest program R. Jest to bezpłatny pakiet statystyczny dostępny w ramach licencji open source, stworzony i rozwijany przez społeczność użytkowników z całego świata. R można nazwać swego rodzaju lingua franca w dziedzinie data science. Do analizy danych pakietu R używają takie firmy jak Google, Facebook, Twitter, Microsoft i wiele, wiele innych na całym świecie. Jest on bezkonkurencyjny, jeśli chodzi o wachlarz metod ilościowych oferowanych użytkownikowi. W pełni funkcjonalne środowisko analityczne i dedykowane biblioteki znajdzie dla siebie ekonometryk, finansista, psychometryk czy biostatystyk. Projekt R zakłada ewolucję użytkownika od osoby używającej gotowych komend (język wysokopoziomowy) do projektowania własnych funkcji i samodzielnego pisania zaawansowanych algorytmów (korzystanie z języka niskopoziomowego). Jest to zatem program dopasowujący się do kompetencji informatycznych analityka – usatysfakcjonowany z niego będzie za równo początkujący badacz zjawisk społecznych jak i programista C++.


Wcześniejsza znajomość oprogramowania R nie jest wymagana.


Czego uczymy?

Ogólnym rezultatem uczestnictwa w studiach podyplomowych „Data Science w zastosowaniach biznesowych. Warsztaty z wykorzystaniem programu R” jest szeroko rozumiany rozwój umiejętności pracy z danymi u słuchaczy – od zapisywania i organizacji bazy danych, przez wizualizację i analizę statystyczno-ekonometryczną, po raportowanie i prezentację wyników analiz. W trakcie studiów słuchacze zdobędą fundamentalną wiedzę teoretyczną i praktyczne umiejętności niezbędne do budowy zaawansowanych modeli analitycznych i prognostycznych. W programie studiów znajdują się ogólne przedmioty wprowadzające do R i statystycznej analizy danych, zaawansowane kursy dotyczące nowoczesnych metod uczenia maszynowego (machine learning) i data mining oraz specjalistyczne fakultety do wyboru przez uczestników kursu.


Sylwetka absolwenta

Dzięki połączeniu wiedzy teoretycznej z praktyczną, absolwenci studiów staną się ekspertami z dziedziny interdyscyplinarnej analizy danych (analizy statystyczne, machine learning, data mining, programowanie w R).


Absolwent studiów będzie posiadał zaawansowaną wiedzę z zakresu pracy z danymi w programie R, a dokładniej:

  • znał efektywne metody przeglądowej analizy danych,
  • znał zasady budowy i obróbki bazy danych,
  • umiał wykorzystywać wnioskowanie statystyczne na poziomie podstawowym i zaawansowanym,
  • znał na poziomie zaawansowanym język programowania R i wydajne metody służące do pracy z danymi, także z dużymi zbiorami danych,
  • umiał tworzyć zaawansowane i efektywne wizualizacje danych statystycznych,
  • posiadał niezbędną wiedzę teoretyczną i praktyczną z szeroko pojętej tematyki data science (m.in. machine learning, data mining, text mining),
  • umiał budować i walidować modele prognostyczne na podstawie poznanych algorytmów statystycznych i ekonometrycznych.


Absolwent studiów będzie posiadał umiejętność pracy z danymi w programie i języku programowania R, a dokładniej:

  • samodzielnej pracy w programie R przy wykorzystaniu zaawansowanych narzędzi statystycznej analizy danych,
  • programowania w R na poziomie zaawansowanym (projektowanie własnych algorytmów i funkcji, dynamicznych raportów),
  • tworzenia zaawansowanych statystycznych i interaktywnych wizualizacji danych,
  • tworzenia aplikacji internetowych (web scraping, aplikacje webowe w pakiecie shiny),
  • dogłębnego analizowania danych empirycznych przy pomocy specjalistycznych pakietów ekonometrycznych programu R,
  • budowy i walidacji modeli predykcyjnych wykorzystujących różne algorytmy (machine learning),
  • tworzenia automatycznie generowanych raportów z przeprowadzonych analiz danych (R Markdown),
  • samodzielnego tworzenia (projektowania, programowania i wdrażania) profesjonalnych aplikacji biznesowych w środowisku R.


Tryb zajęć

Studia "Data Science w zastosowaniach biznesowych" są studiami rocznymi, dwusemestralnymi. Studia obejmują w ramach programu podstawowego 226 godzin zajęć, w tym 216 godzin zajęć realizowanych w całości w formie warsztatów, w pracowni komputerowej i 10 godzin seminarium dyplomowego w formie indywidualnych konsultacji.

Przewiduje się 12 zjazdów sobotnio-niedzielnych w wymiarze 18 godzin (czyli 9 godzin dydaktycznych dziennie).


Wszystkie zajęcia odbywają się na Wydziale Nauk Ekonomicznych UW w trybie zaocznym - raz na dwa-trzy tygodnie na dwudniowych sesjach w soboty i niedziele w godz. 9:00-17:00.


WSTĘPNY terminarz zjazdów w roku akademickim 2017/2018:

  • grupa 1, zjazdy wspólne dla wszystkich: 4-5.11, 25-26.11, 9-10.12 2017 r. oraz 13-14.01, 3-4.02, 17-18.02, 3-4.03, 17-18.03, 7-8.04, 21-22.04 2018 r.
  • grupa 2, zjazdy wspólne dla wszystkich: 18-19.11, 2-3.12, 16-17.12 2017 r. oraz 27-28.01, 10-11.02, 24-25.02, 10-11.03, 24-25.03, 14-15.04, 5-6.05 2018 r.

fakultety - wspólne terminy dla obu grup (wybierane 4 zajęcia z 8):

  • 12.05, 13.05, 19.05, 20.05, 26.05, 27.05, 2.06, 3.06 2018 r.


Warunkiem ukończenia studiów podyplomowych jest jednoczesne spełnienie następujących kryteriów:

  • zaliczenie wszystkich testów cząstkowych (minimum 60% poprawnych odpowiedzi w każdym z nich)
  • udział w minimum 80% zajęć
  • przygotowanie pod kierunkiem osoby posiadającej co najmniej stopnień doktora w ramach konsultacji indywidualnych w drugim semestrze studiów i złożenie w terminie pracy dyplomowej oraz uzyskanie dwóch pozytywnych recenzji.

Absolwenci, którzy spełnią powyższe kryteria, otrzymają świadectwo ukończenia studiów podyplomowych Uniwersytetu Warszawskiego.



Zaliczenie poszczególnych kursów będzie się odbywać na podstawie obecności i testów cząstkowych w formie take-home exam (minimum 60% odpowiedzi prawidłowych).

Wykładowcy

Wykładowcami na studiach podyplomowych "Data Science w zastosowaniach biznesowych. Warsztaty z wykorzystaniem programu R" są osoby mające wieloletnie doświadczenie w prowadzeniu zajęć i szkoleń analitycznych zarówno na forum akademickim, jak i dla odbiorców biznesowych, a także analitycy z wieloletnim praktycznym doświadczeniem w stosowaniu omawianych metod, m.in.:



Alfabetyczna lista wykładowców:


mgr Piotr Ćwiakowski

Doktorant na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego, współorganizator studiów podyplomowych. Od trzech lat prowadzi kursy i szkolenia z zakresu wykorzystania Excela i języka VBA do analizy danych na Uniwersytecie Warszawskim oraz komercyjnie na zlecenia przedsiębiorstw. Metody ilościowe najczęściej wykorzystuje w projektach marketingowych (badania preferencji konsumentów), wycenie nieruchomości i biostatystyce. Członek wielu grantów badawczych, finansowanych m. in. przez Narodowe Centrum Nauki i Polską Agencję Przedsiębiorczości. Ponadto, angażuje się w działalność biznesową – jest współzałożycielem pierwszego w Polsce internetowego domu aukcyjnego Revinart.com. Wolny czas poświęca na działalność społeczną w Stowarzyszeniu Absolwentów WNE oraz fundacji „Polski Instytut Sztuki”.



mgr Wojciech Hardy

Ekonomista w Instytucie Badań Strukturalnych oraz doktorant na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego. Wcześniej uczestniczył w projektach naukowych prowadzonych przez GRAPE (Group for Research in APplied Economics), m.in. na temat tzw. "piractwa" internetowego, którą to tematyką zajmuje się w dalszym ciągu w ramach własnego projektu badawczego w IBS, finansowanego przez Narodowe Centrum Nauki. W Instytucie Badań Strukturalnych zajmuje się ponadto tematyką wpływu postępu technologicznego na rynek pracy w Polsce i Europie, zmian umiejętności i zadań na rynkach pracy oraz tematyką późnego przechodzenia na emeryturę. Na Wydziale Nauk Ekonomicznych prowadził także zajęcia z Rachunku Prawdopodobieństwa.



mgr Magdalena Kalbarczyk

Magister Wydziału Nauk Ekonomicznych Uniwersytetu Warszawskiego. Zajmuje się zawodowo analizą danych w zespole Big Data Grupy Pracuj. Poprzednio członek zespołu zarządzania funduszami ilościowymi w Towarzystwie Funduszy Inwestycyjnych Union Investment. Specjalizuje się w wykorzystaniu oprogramowania R oraz Python do uczenia maszynowego oraz budowy modeli predykcyjnych. Stale pogłębia swoją wiedzę z zakresu dziedziny data science, deep learningu oraz narzędzi dedykowanych dla Big Data.



dr hab. Katarzyna Kopczewska

Adiunkt i prodziekan na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego. Ekspert w zakresie wykorzystania oprogramowania R w analizach ekonomicznych i finansowych. Autor licznych publikacji naukowych, w tym współautor podręczników poświęconym programowi R („Metody ilościowe w R. Aplikacje ekonomiczne i finansowe” oraz „Ekonometria i statystyka przestrzenna w R”). Naukowo zajmuje się analizami przestrzennymi w procesach gospodarczych i biznesie, rozwijając metodologię modelowania przestrzennego i regionalnego. Kierownik i członek wielu projektów badawczych, w tym finansowanych z funduszy europejskich, przez Narodowe Centrum Nauki i Ministerstwo Rozwoju Regionalnego. Ekspert oceniający wnioski m.in. dla Narodowego Centrum Nauki, Komisji Europejskiej (Horyzont 2020), regionalnych i krajowych Programów Operacyjnych.



dr Tomasz Kopczewski

Jest pracownikiem Wydziału Nauk Ekonomicznych Uniwersytetu Warszawskiego (WNE UW) i założycielem centrum badawczego Laboratorium Ekonomii Eksperymentalnej. Jego prace badawcze koncentrują się na tworzeniu narzędzi dydaktycznych opartych na eksperymentach, których celem jest lepsze zrozumienie zjawisk ekonomicznych w życiu codziennym. Podejście eksperymentalne do nauczania ekonomii obejmuje: ekonomię eksperymentalną, symulacyjne Monte Carlo i eksperymenty obliczeniowe wykorzystujące modelowanie Agent Based Computational Economics oraz eksperymenty z wykorzystaniem obliczeń symbolicznych wykonywanych w programach typu Computer Algebra System. Zajmuje się metodologia nauczania ekonomii ze szczególnym uwzględnieniem wykorzystania narzędzi informatycznych. Jest twórcą prowadzanego od 10 lat kursu internetowego Program R w zastosowaniach ekonomicznych i finansowych (COME IBIZA UW). Prowadził szkolenia z podstaw ekonometrii z wykorzystaniem programów Matlaba, Gaussa, R-CRAN dla Narodowego Banku Polskiego oraz Departament Analiz Strategicznych KPRM.



dr Karolina Kuligowska

Analityk, ekspert i konsultant w multidyscyplinarnych projektach badawczych i wdrożeniowych IT. Od 2010 r. wykładowca studiów podyplomowych „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”. Autorka licznych publikacji, naukowo zajmuje się problematyką analizy danych nieustrukturyzowanych w analizach ekonomicznych (Text Mining, Data Science, Data Mining) oraz eksploracją danych związanych z przetwarzaniem języka naturalnego i lingwistyką obliczeniową.



mgr Karol Partyka

Doktorant na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego. Absolwent matematyki na Uniwersytecie Warszawskim specjalizujący się w metodach Monte Carlo oraz zastosowaniu programu R do analizy danych ekonomicznych. Entuzjasta metod uczenia maszynowego oraz metod symulacyjnych.
Członek grantów badawczych, finansowanych m. in. przez Narodowe Centrum Nauki oraz autor publikacji naukowych na styku finansów i ekonomii. Zawodowo zajmował się oceną modeli szacujących ryzyko, przeciwdziałaniem praniu brudnych pieniędzy oraz raportowaniem danych zarządczych. Naukowo zajmuje się metodami określania przyczynowości w kontekście makroekonomicznym.



dr Paweł Sakowski

Adiunkt na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego. Niezależny analityk danych i konsultant w zakresie zastosowań R oraz SAS w wielowymiarowej analizie danych. Od 2012 r. kierownik studiów magisterskich „Quantitative Finance”. Koordynuje działalność grupy badawczej Quantitative Finance Research Group. Jego zainteresowania badawcze koncentrują się na analizie zmienności, wycenie instrumentów pochodnych a także na tworzeniu automatycznych strategii inwestycyjnych. Wykonawca wielu projektów badawczych o charakterze zarówno naukowym jak i komercyjnym. Entuzjasta rozwiązań open-source.



Marek Wielgosz

ponad 8 lat doświadczenia pracy w sektorze finansowym. Przez ponad 6 lat pracy w nadzorze ubezpieczeniowym zajmował się oceną modeli ryzyka oraz budowaniem narzędzi ją wspierających. Od 2016 roku zatrudniony w Grupie Aviva, gdzie zajmuje się modelowaniem ryzyka oraz kieruje zespołem ds. modeli wyceny opcji i gwarancji wbudowanych w produkty ubezpieczeniowe. Ekspert w zakresie wykorzystania oprogramowania R do modelowania stochastycznego oraz wnioskowania statystycznego.



dr Piotr Wójcik

Adiunkt na Wydziale Nauk Ekonomicznych Uniwersytetu Warszawskiego. Ekspert w zakresie wykorzystania oprogramowania R oraz SAS do efektywnego przetwarzania danych oraz zaawansowanego modelowania statystycznego i ekonometrycznego. Od 2008 r. kierownik i wykładowca studiów podyplomowych „Metody statystyczne w biznesie. Warsztaty z oprogramowaniem SAS”, posiadający także wieloletnie doświadczenie zawodowe analityka ilościowego w branży finansowej, telekomunikacyjnej i badań marketingowych. Autor licznych publikacji naukowych, w tym współautor podręcznika poświęconego programowi R („Metody ilościowe w R. Aplikacje ekonomiczne i finansowe”). Naukowo zajmuje się analizami regionalnej konwergencji oraz wykorzystaniem narzędzi statystycznych do projektowania automatycznych strategii inwestycyjnych na danych wysokiej częstotliwości. Wykonawca i kierownik projektów badawczych finansowanych przez Narodowe Centrum Nauki i Ministerstwo Rozwoju Regionalnego.



Rekrutacja

Studia są kierowane do osób pracujących na co dzień z danymi. Wcześniejsza znajomość programu R nie jest wymagana.

Kandydaci na studia powinni złożyć w dziekanacie studiów:

  • odpis lub kopię dyplomu ukończenia studiów wyższych (magisterskich lub licencjackich)
  • standardowy kwestionariusz osobowego (wg wzoru UW) - koniecznie z podaniem adresu email i numeru telefonu kontaktowego
  • zobowiązanie do ponoszenia kosztów odpłatności za studia (wg wzoru)
  • CV wg własnego wzoru kandydata
  • trzy zdjęcia



Wszystkie wymienione wyżej dokumenty należy przesłać listem poleconym w terminie do 15.10.2017 r. na adres:

Wydział Nauk Ekonomicznych
Uniwersytetu Warszawskiego
ul. Długa 44/50, 00-241 Warszawa
z dopiskiem: "Studia podyplomowe: Data Science w zastosowaniach biznesowych"

lub złożyć w sekretariacie studiów u pani mgr Moniki Czechowskiej (adres jw., pok. K4).



Osoby dostarczające dokumenty prosimy również o przesłanie informacji na adres email: datascience@wne.uw.edu.pl



UWAGA !!!
Wymagana jest również rekrutacja za pośrednictwem systemu Internetowej Rekrutacji Kandydatów na UW pod adresem: https://irk.podyplomowe.uw.edu.pl.

Po wejściu na stronę https://irk.podyplomowe.uw.edu.pl należy kolejno:

  • kliknąć prostokąt: Studia podyplomowe w roku akademickim 2017/2018
  • po prawej stronie na górze klinkąć zaloguj się
  • kliknąć ....lub utwórz konto i poczekać na maila zwrotnego
  • po zalogowaniu się z użyciem adresu e-mail wybrać oferta
  • następnie kliknąć przy literce E w Ekonomia (11)
  • wybrać studia podyplomowe Data Science w zastosowaniach biznesowych. Warsztaty z wykorzystaniem programu R
  • kliknąć formularz z podstawowymi danymi osobowymi i uzupełnić:
    • podstawowe dane osobowe, zapisz
    • adres i dane kontaktowe, zapisz
    • wykształcenie, zapisz
  • wrócić do ogólnych informacji nt. studiów i kliknąć zielone Zapisz się

Dzięki temu otrzymamy Państwa zgłoszenie i zaczynamy kontaktować się z Państwem mailowo.

UWAGA!
O KOLEJNOŚCI ZGŁOSZEŃ decyduje kolejność OTRZYMANIA przez sekretariat studiów papierowych wersji KOMPLETNYCH DOKUMENTÓW REKRUTACYJNYCH, a NIE kolejność rejestracji w IRK.



Liczba miejsc: 25

W przypadku liczby zgłoszeń przekraczającej liczbę miejsc na studiach po uwzględnieniu kryteriów merytorycznych pod uwagę brana będzie kolejność zgłoszeń (UWAGA! Kolejność zgłoszeń liczona jest na podstawie OTRZYMANYCH przez sekretariat studiów kompletnych dokumentów rekrutacyjnych).

W przypadku dużego zainteresowania możliwe jest uruchomienie dwóch równoległych grup.




Czesne: 8000 zł (w roku akademickim 2017/2018)

Opłatę za udział w studiach należy wpłacić na konto UW po zakwalifikowaniu na studia, lecz przed datą rozpoczęcia studiów na indywidualny rachunek bankowy wskazany Słuchaczom.

Informacja o numerze konta zostanie przekazana wraz z informacją o wynikach rekrutacji.

Na Państwa potrzeby wystawiamy fakturę VAT z tytułu opłat za studia. Informacje oraz odpowiednie druki znajdują się na stronie głównej WNE UW w zakładce Dla studentów > Opłaty za studia > Faktury VAT.
W szczególnych okolicznościach umożliwia się rozłożenie opłaty za studia na dwie równe raty – pierwsza płatna bezpośrednio po zakwalifikowaniu na studia, druga najpóźniej do końca lutego następnego roku kalendarzowego.




Program

Program studiów obejmuje 226 godzin zajęć, przypadających na 12 kursów obowiązkowych (łącznie 180 godzin + 10 godzin seminarium dyplomowego) oraz 4 kursy specjalistyczne (fakultety - do wyboru przez słuchaczy).


Wszystkie kursy mają charakter warsztatów i prowadzone są w pracowni komputerowej według analogicznego schematu.

Zakres każdego kursu podzielony jest na kolejne bloki tematyczne. Każdy blok rozpoczyna się od wstępu teoretycznego, będącego przeglądem istniejących metod, ze szczególnym naciskiem na przedstawienie i omówienie czynników, od których powinien być uzależniony wybór właściwej metody. Następnie prezentowane są przykłady praktyczne pozwalające na zastosowanie poznanych metod w środowisku R oraz omówienie i interpretację uzyskanych wyników. Ostatnim elementem każdego bloku jest zestaw samodzielnych ćwiczeń wykonywanych przez uczestników, pozwalających utrwalić zdobytą wiedzę teoretyczną i praktyczną.



Poniżej znajduje się krótka charakterystyka poszczególnych kursów.



Wprowadzenie do R i R Studio (9 godzin)

Celem kursu jest prezentacja podstawowych możliwości programu R oraz interfejsu RStudio. Kurs ma stanowić solidną bazę wiedzy i umiejętności niezbędną do opanowana bardziej skomplikowanych problemów prezentowanych na innych kursach, stąd też główny nacisk podczas zajęć zostanie położny na pokazanie efektywnego sposobu pracy z tym programem oraz ogólnie rozumianej analizy danych. Kurs ten będzie prowadzany wg zasady 20/80 tj. 20 procent zasobów programistycznych jest używanych w 80% procentach przypadków. Kurs ten zakłada zerową wiedzę z zakresu posługiwania się programem R. Studenci opanują posługiwanie się pakietami programu R.



Wczytywanie danych do R (9 godzin)

Celem kursu jest zapoznanie słuchaczy z metodami importu danych do R. W pierwszej części zaprezentowane zostaną przykłady importowania danych do R z popularnych formatów plików (np. txt, csv, xlsx), w tym z tzw. plików tekstowych płaskich (ang. flatfiles), plików ze stałą szerokością kolumn, czy plików, w których jeden rekord zapisany jest w kilku wierszach. Zaprezentowane zostaną także metody warunkowego wczytywania danych, jedynie rekordów spełniających określone warunki. Szczególny nacisk zostanie położony także na efektywne wczytywanie danych z dużych plików. W dalszej kolejności pokazane zostaną metody wczytywania danych z innych pakietów statystycznych (np. SAS, Stata, SPSS, Matlab), a także z baz danych, w związku z czym omówione zostaną podstawy wykorzystania języka SQL w R. Słuchacze poznają także sposoby wczytywanie danych zapisanych w plikach XML. Ostatnia część kursu będzie poświęcona omówieniu zapisywania (eksportu) danych z R do omówionych wcześniej popularnych formatów.



Przygotowanie danych do analiz (9 godzin)

Celem kursu jest zapoznanie słuchaczy z metodami przygotowania danych do analiz. Jakość analiz statystycznych zależy od jakości danych, na których są przeprowadzane – trudno spodziewać się wiarygodnych wyników analiz, gdy wykorzystane dane są „śmieciowe”. Właściwie przygotowane dane to co najmniej połowa sukcesu ich analizy. W pierwszej kolejności słuchacze poznają metody sprawdzania jakości danych oraz ich czyszczenia z wykorzystaniem tzw. wyrażeń regularnych, nauczą się sprawdzać czy dane zapisane w tabeli odpowiadają przyjętemu wzorcowi (np. właściwy kod pocztowy, data, adres, nr PESEL, itp.). Kolejnym ważnym zagadnieniem, które zostanie poruszone na zajęciach, będą braki danych, które eliminują cały rekord z analiz statystycznych. Słuchacze poznają najczęstsze metody imputacji braków danych – zastępowania ich w sensowny sposób wartościami niebrakującymi.



Statystyczna analiza danych (18 godzin)

Celem zajęć jest zapoznanie uczestników ze statystyczną analizą danych. Kurs ma charakter podstawowy i średniozaawansowany. W pierwszej części Słuchacze dowiedzą się jak wykonać analizę opisową rozkładu empirycznego – zostaną wyłożone zasady, przykłady i interpretacja statystyk opisowych. W drugiej części Słuchacze zapoznają się z procedurą weryfikacji hipotez badawczych na podstawie wnioskowania statystycznego, którą następnie przećwiczą w różnych wariantach na danych empirycznych, przeprowadzając testy statystyczne parametryczne i nieparametryczne.



Wizualizacja danych w R (9 godzin)

Celem zajęć jest zapoznanie uczestników z podstawowymi funkcjami graficznymi w R oraz z nowoczesnymi technikami wizualizacji danych w pakiecie ggplot2. Zajęcia mają charakter podstawowy i średniozaawansowany w ramach kursu wykładana jest zarówno składnia funkcji z pakietu ggplot2, jak i zasady poprawnej i efektywnej wyników analizy statystycznej



Zaawansowane programowanie w R (18 godzin)

Celem kursu jest nauczenie zaawansowanych metod programowania w R, tworzenia złożonych programów i oceny ich złożoności czasowej, a także tworzenia własnych funkcji i pakietów. W pierwszej kolejności zaprezentowane zostaną funkcje pakietu dplyr służące efektywnemu agregowaniu danych i ich analizie w podgrupach, a także wykorzystanie operatora %>% dla czytelniejszego przedstawienia kodu składającego się z kilku zagnieżdżonych poleceń. Następnie główny nacisk zostanie położony na automatyzację powtarzalnych czynności. W tym kontekście omówione zostaną pętle while oraz for, a także alternatywne dla nich funkcje R z rodziny apply. Wprowadzone zostaną także elementy pozwalające na warunkowe wykonywanie fragmentów programu (polecenia if, else oraz ifelse) oraz uruchamianie kodu w trybie wsadowym (polecenie source). W dalszej części omówione zostanie tworzenie własnych funkcji i pakietów. Ważną częścią kursu będzie pokazanie narzędzi służących do analizy własnego kodu, oceny jego efektywności czasowej, a także identyfikacji i obsługi błędów. Ostatnią częścią kursu będzie omówienie wykorzystania podstaw języka C++ w R (pakiet Rcpp) m.in. do zastąpienia pętli.



Machine Learning 1. Metody klasyfikacji (18 godzin)

Celem kursu jest przedstawienie metod klasyfikacji, czyli modelowania zjawisk o charakterze jakościowym, kiedy dla każdej obserwacji znana jest jakościowa zmienna zależna oraz zestaw charakterystyk. Zbudowanym model może być wykorzystany do przewidywania wartości zmiennej zależnej (klasyfikacji obserwacji do jednej z grup) na podstawie posiadanych charakterystyk. Klasyfikacja może mieć charakter binarny (dwuwartościowa zmienna zależna) albo wielowartościowy. Wśród metod modelowania omówione zostaną w pierwszej kolejności tradycyjne modele logistyczne (binarny i wielomianowy). Jako alternatywne metody klasyfikacji omówione zostaną także metoda k-najbliższych sąsiadów, naiwny klasyfikator bayesowski oraz drzewa decyzyjne. W ostatniej części kursu przedstawiona zostanie również popularna metoda wektorów nośnych oraz „zwiększone” (boosted) drzewa decyzyjne, w tym w szczególności algorytm eXtreme Gradient Boosting. Szczególny nacisk położony zostanie w trakcie kursu na porównanie jakości predykcji analizowanych metod, w tym na problem przetrenowania algorytmu.



Machine learning 2. Modele regresji (18 godzin)

Celem kursu jest przedstawienie modeli regresyjnych, służących do modelowania zjawisk o charakterze ilościowym, kiedy dla każdej obserwacji znana jest ciągła zmienna zależna oraz zestaw dodatkowych charakterystyk ilościowych lub jakościowych. W ramach kursu jako punkt wyjścia omówiona zostanie analiza regresji liniowej. Jako jej rozszerzenie omówiona zostanie regresja grzbietowa (ang. ridge regression) oraz metoda Lasso pozwalające uniknąć przetrenowania modelu liniowego. Następnie jako alternatywne dla regresji liniowej omówione zostaną drzewa regresyjne oraz sztuczne sieci neuronowe. Ważnym elementem kursu będzie omówienie metod i wskaźników pozwalających ocenić jakość przygotowanego modelu regresyjnego i umożliwiających porównanie kilku modeli między sobą i ostateczny wybór najlepszego modelu.



Machine learning 3. Metody uczenia bez nadzoru -- unsupervised learning (18 godzin)

Celem przedmiotu jest zapoznanie słuchaczy z możliwościami algorytmów odkrywania wiedzy z danych (Knowledge Discovery in Databases, KDD) wykorzystujących uczenie bez nadzoru (ang. unsupervised learning). Przedstawione zostaną główne algorytmy reguł asocjacyjnych (Apriori, Eclat) oraz poszukiwania grup danych przez klastrowanie i możliwość ich wykorzystania w analityce biznesowej. Ich zastosowanie dotyczy głównie danych transakcyjnych (tzw. market basket analysis) i poszukiwania reguł najczęściej występujących wspólnie produktów w koszyku. Realizowane będą modele dla danych rzeczywistych, wymagających przekształcenia i wyczyszczenia danych wejściowych. Wśród metod grupowania omówione zostaną hierarchiczna analiza skupień, metoda k-średnich oraz metody wykorzystujące funkcję gęstości lub model.



Text mining i Social Media Mining: Twitter, Facebook, Google (18 godzin)

Celem kursu jest zapoznanie uczestników z technikami pozwalającymi na analizę danych nieustrukturyzowanych – danych tekstowych. Omówione metody umożliwiają strukturyzację informacji tekstowych oraz doskonalenie podejmowania decyzji poprzez przeprowadzenie analizy zawartości różnorodnych dokumentów tekstowych oraz znajdowanie nieznanych zależności, wzorców i trendów pomiędzy danymi tekstowymi. Szczególnym rodzajem danych analizowanych w ramach kursu będą dane z portali społecznościowych (Twitter, Facebook, Google). Analizy tego rodzaju danych znane są jako Social Media Mining.



Tworzenie aplikacji webowych (18 godzin)

Celem kursu jest zapoznanie Słuchaczy z tworzeniem interaktywnych aplikacji w projekcie R. Aplikacje Shiny są w całości przygotowywane w pakiecie R, bazując na jego algorytmach i pakietach. Dzięki wykorzystani interfejsu graficznego (widgety) możliwe jest tworzenie aplikacji z interfejsem użytkownika dla odbiorców niezainteresowanych ingerencją w kod R. Jednocześnie jest to znakomity sposób na skrócenie wykonywania powtarzalnych analiz oraz prezentacji wyników w formie interaktywnej, z opcją samodzielnego doboru parametrów przez użytkownika.



Analityka dużych zbiorów danych w R (18 godzin)

Celem kursu jest przekazanie podstawowej wiedzy na temat analizowania dużych zbiorów danych na przykładzie pakietu h2o dla programu R. Podczas zajęć słuchacze zapoznawać się będą zarówno z instalacją pakietu h2o jak i jego praktycznym wykorzystaniem. Po zakończeniu kursu Słuchacze będą w stanie przeprowadzić analizę danych, ich klasteryzację, a także zaimplementować dostępne modele predykcyjne. Istotną kwestią podczas kursu jest poznanie interfejsu pakietu h2o, jego zalet i dostępnych metod do monitorowania postępów swojej pracy. Podczas zajęć Słuchacze będą zapoznawać się z kolejnymi zagadnieniami, a następnie z pomocą prowadzącego wykonywać przykładowe ćwiczenia.



Fakultet 1 (do wyboru 4 z 8) – Raporty i prezentacje w R Markdown (9 godzin)

Celem fakultetu jest zaprezentowanie Słuchaczom modułu R Markdown – służącego do generowania automatycznych raportów na podstawie kodu źródłowego sporządzonego w R. R Markdown umożliwia pisanie roboczych raportów, artykułów naukowych, prostych stron internetowych, dokumentów MS Word a prezentacji i dokumentów PDF z wykorzystaniem LaTeX z poziomu R Studio. Podczas zajęć Słuchacze będą zapoznawać się z kolejnymi zagadnieniami, a następnie z pomocą prowadzącego wykonywać przykładowe ćwiczenia.



Fakultet 2 (do wyboru 4 z 8) – Web scraping (9 godzin)

Celem fakultetu jest zaprezentowanie Słuchaczom technik web scrapingu – pozyskiwania informacji do analiz bezpośrednio ze stron i aplikacji internetowych. Web scraping pozwala znakomicie skrócić czas poświęcany na pozyskanie i/lub aktualizację danych internetowych. Podczas zajęć Słuchacze będą zapoznawać się z kolejnymi zagadnieniami, a następnie z pomocą prowadzącego wykonywać przykładowe ćwiczenia.



Fakultet 3 (do wyboru 4 z 8) – Statystyka bayesowska w R (9 godzin)

Celem fakultetu jest wprowadzenie do statystyki bayesowskiej poprzez omówienie kilku popularnych modeli statystycznych z wykorzystaniem pakietu R. Analiza bayesowska proponuje odmienne od klasycznej statystyki podejście do wnioskowania statystycznego – jest szeroko wykorzystywana w naukach przyrodniczych i społecznych.



Fakultet 4 (do wyboru 4 z 8) – Wprowadzenie do szeregów czasowych (9 godzin)

Celem fakultetu jest wprowadzenie Słuchaczy w analizę szeregów czasowych. Jest to typ danych występujący masowo m. in. w finansach, biznesie i makroekonomii. Znajomość technik analizy i estymacji danych czasowych jest zatem kluczowa w wielu zadaniach analitycznych.



Fakultet 5 (do wyboru 4 z 8) – Analizy przestrzenne w R (9 godzin)

Celem fakultetu jest poznanie przez Słuchaczy technik analizy danych o charakterze przestrzennym, tj. przypisanych do określonej lokalizacji w przestrzeni geograficznej. Słuchacze poznają sposoby wizualizacji danych przestrzennych (mapy dla danych punktowych i regionalnych) oraz takie operacje jak liczenie odległości między punktami czy wskazanie punktów w zadanej odległości czy obszarze. Wykorzystane zostaną pakiety spdep, sp, rgdal, ggmap, maptools, smarterPoland.



Fakultet 6 (do wyboru 4 z 8) – R w pakiecie MS Office (9 godzin)

Celem fakultetu jest prezentacja metod komunikacji i przenoszenia informacji pomiędzy pakietem MS Office i R. Łączenie w pracy możliwości obu narzędzi jest codziennością dla analityków danych – istotne jest więc, aby zadania były zorganizowane w sposób efektywny, a przenoszenie wyników pomiędzy programami odbywało się bezbłędnie i jak najszybciej. Podczas zajęć Słuchacze będą zapoznawać się z kolejnymi zagadnieniami, a następnie z pomocą prowadzącego wykonywać przykładowe ćwiczenia.



Fakultet 7 (do wyboru 4 z 8) Zaawansowane ekonometria – metody ewaluacyjne (9 godzin)

Celem kursu jest zaprezentowanie nowoczesnych technik modelowania ekonometrycznego. Metody te służą do precyzyjnych szacunków ewaluacji działań w polityce publicznego (np. ewaluacja efektów polityk społecznych), jak i sektorze biznesowym (np. ocena działań marketingowych). Podczas kursu omawiane są czynniki wpływające na nielosowość danych empirycznych (np. selekcja do próby) i inne przyczyny (problem równoczesności i endogeniczności zmiennych) obciążające poprawność wnioskowania statystycznego i ustalania przyczynowości pomiędzy zjawiskami. Następnie Słuchacze uczą się jak identyfikować poszczególne problemy w danych empirycznych i w jaki sposób estymować modele statystyczne aby otrzymać poprawne wyniki.



Fakultet 8 (do wyboru 4 z 8) Algorytmiczne strategie inwestycyjne (9 godzin)

Celem kursu jest zaprezentowanie narzędzi pozwalających wykorzystać środowisko R do zbudowania i testowania algorytmicznych strategii inwestycyjnych na danych wysokiej częstotliwości (dane śróddzienne = duże wolumeny). Pierwsza część kursu poświęcona będzie zdefiniowaniu podstawowych pojęć i wskaźników wykorzystywanych w tego typu analizach oraz pokazaniu darmowych źródeł danych śróddziennych. Następnie omówione zostaną sposoby testowania wybranych rodzajów strategii na danych historycznych, miary oceny zyskowności strategii oraz kryteria wyboru optymalnej kombinacji parametrów.



Kontakt

Kierownik studiów podyplomowych: dr Piotr Wójcik (email: pwojcik@wne.uw.edu.pl)

Koordynator ds. organizacyjnych: mgr Piotr Ćwiakowski (email: pcwiakowski@wne.uw.edu.pl)


Sekretariat studiów:
Wydział Nauk Ekonomicznych Uniwersytetu Warszawskiego,
ul. Długa 44/50,
00-241 Warszawa,
pani mgr Monika Czechowska
tel.: (022) 55-49-178,
fax: (022) 831-23-29,
pokój K4,
email: mczechowska@wne.uw.edu.pl




Lokalizację Wydziału Nauk Ekonomicznych Uniwersytetu Warszawskiego wskazuje poniższa mapa


Wyświetl większą mapę


Linki


R dla Data Science

DataCamp

Tutorials point. R Programming. Simple Easy Learning

Quick-R. accessing the power of R

DataScience+. Online community for showcasing R & Python tutorials.

Data Science Live Book (Pablo Casas)

Wprowadzenie do statystyki. Z przykładami w środowisku R (Adam Zagdański, Artur Suchwałko)

r-statistics.co (Selva Prabhakaran)

R-statistics blog

R Tutorial. An R Introduction to Statistics

R for Data Science (Garrett Grolemund, Hadley Wickham)

RStudio webinars

R-bloggers

Common R Programming Errors Faced by Beginners


Ciekawe dane

kaggle datasets

UCI Machine Learning Repository

Awesome Public Datasets (caesar0301)