Skip to article frontmatterSkip to article content

Wprowadzenie

W końcowym projekcie Twoim zadaniem będzie wykorzystanie umiejętności nabytych na tych zajęciach do eksploracyjnej analizy danych dotyczącej rzeczywistego zestawu danych (lub zestawów danych).

Będziesz pracować w małej grupie (2-3 osoby). Gorąco zachęcam do kontaktu, aby uzyskać informacje zwrotne na temat swoich pomysłów.

Ocenianie i rezultaty

Końcowym rezultatem (tym, co oddasz) będzie link do REPO na GitHubie, w którym Twój zespół umieści wszystkie pliki projektu:

Po przesłaniu finalnej wersji projektu, każda grupa projektowa zobowiązana jest do umówienia się na krótkie spotkanie online ze mną w celu jego omówienia. Spotkanie ma na celu potwierdzenie samodzielności wykonania pracy oraz umożliwia zadanie ewentualnych pytań dotyczących przeprowadzonej analizy.

SekcjaPunktyOpisPrzykład
Wprowadzenie2Na jaki zbiór danych patrzysz? Gdzie/jak został utworzony? Jakie pytania będą zadawane?Zbiór danych dotyczący cen nieruchomości w Polsce - ceny i charakterystyka nieruchomości (liczba pokoi, piętro, miasto, wyposazenie, itp.)
Czyszczenie i porządkowanie danych4Diagnostyka danych; braki - wizualizacja, omówienie, wzorzec, błędy w danych i ich naprawa, imputacja braków, obserwacje odstające - analiza.Shadowmapy, heatmapy braków, omówienie wzorca, strategii imputacji braków, określenie reguł dla danych, wizualizacja naruszeń, naprawa, analiza obserwacji odstających z omówieniem.
Wizualizacje44-5 wykresów przedstawiających określone wzorce lub cechy, które chcesz podkreślić. Każdej wizualizacji powinien towarzyszyć krótki (1-2 zdania) opis tego, co według Ciebie pokazuje.Boxplot pokazujący ceny nieruchomości według miast lub innych charakterystyk - przekroje. Wykres słupkowy pokazujący proporcję mieszkań o róznym standardzie wykończenia.
Analiza opisowa42-3 analizy opisowe, odnoszące się do pytania badawczego (pytań). Każdej analizie powinna towarzyszyć krótka (1-3 zdania) interpretacja.Tabele statystyk opisowych - np. statystyki cen mieszkań wg róznych charakterystyk. Dobrze by było, aby otoczone były wizualizacjami na ten sam temat przewodni. Analiza korelacji - macierz korelacji (liniowych). Analiza korelacji innego typu (rangowa, jakościowa) - jeśli są tego typu zmienne. Heatmapy.
Wnioski2Wyciągnięcie wniosków na temat zbioru danych i postawionych pytań.Mile widziane ogólne podsumowanie, wnioski końcowe, ograniczenia dot. metod, propozycje na ciąg dalszy (modelowanie), itp.

Przykładowe zbiory danych

Istnieją dwa krytyczne wymagania dotyczące zestawu danych:

  1. Po pierwsze, powinien on zawierać główną zmienną zależną - badaną, analizowaną. Jeśli nie masz pewności, czy dany zestaw danych się kwalifikuje, możesz mnie zapytać.
  2. Po drugie, powinien zawierać co najmniej 3-4 zmienne (ale najlepiej więcej). Nie chciałbym, aby analizowana była tylko jedna zmienna. Idealnie byłoby, gdyby wzięto pod uwagę związek wielu zmiennych (np. w końcu to analiza przekrojowa, eksploracyjna).

Mając to na uwadze, oto kilka pomysłów na odpowiednie zestawy danych. Możesz skorzystać z jednego z nich (i zadać pytania, które uważasz za interesujące), ale możesz też znaleźć własny; te zestawy danych zostały zweryfikowane nieco bardziej.

Zbiór danychDziedzinaOpisDostęp
World Bank Open DataEkonomiaZawiera dane szeregów czasowych dla wielu dziedzin, takich jak rozwój rolnictwa, ubóstwo na obszarach wiejskich, emisje dwutlenku węgla i wiele, wiele innych.Link do banku danych; można przeglądać według „wskaźnika”; może wymagać połączenia zbiorów danych w celu uzyskania większej ilości informacji.
World Happiness ReportEkonomiaZbiór danych o globalnych wynikach szczęścia; może wymagać połączenia z innymi zbiorami danych, aby zadać przydatne pytania.Kaggle
Zużycie energii na świecieEnergetykaZawiera dane szeregów czasowych o zużyciu energii i energii elektrycznej.Link na Kaggle
SCARFS (Spontaniczne, kontrolowane akty odniesienia między przyjaciółmi i nieznajomymi)LingwistykaDane o przyjaciołach i nieznajomych grających w grę Taboo, które wskazówki dali i czy próba została przeprowadzona.Link do GitHub
California Housing PricesEkonomiaInformacje o medianie wartości domów dla różnych dzielnic w Kalifornii.Link na Kaggle.
Spożycie alkoholu przez studentówZdrowie publiczneInformacje o zachowaniu uczniów, w tym spożyciu alkoholu i nie tylko.Link na Kaggle.
Zbiory danych dla projektów z SADRózne tematyZbiory danych przeznaczone dla projektów zespołowych na Analityce. Wiele zbiorów, rózniących się poziomem trudności, wraz z opisami.Link do mojego GitHuba

Trudność projektu

Należy pamiętać, że pod uwagę zostanie wzięty również poziom trudności analiz związanych z projektem, zwłaszcza na etapie danych (np. czyszczenie danych, łączenie wielu zestawów danych).

Znalezienie i połączenie wielu zestawów danych nie jest konieczne - tzn. można uzyskać pełne punkty bez tego - ale jeśli pomyślnie wyczyścisz i połączysz wiele zestawów danych, może to „zrównoważyć” niższe wyniki w innej sekcji (np. Wizualizacja); czyli możesz myśleć o tym jako o rodzaju nieoficjalnego dodatkowego kredytu.

Oto kilka przykładów rzeczy, które, choć nie są konieczne, uczyniłyby twój projekt trudniejszym, a tym samym bardziej imponującym: