Inżynieria i analiza Big Data-ćwiczenia WSE-BD-IABD-I-ćw
Moduł 1: Wprowadzenie do inżynierii i analizy danych
Kluczowe pojęcia, cele i zastosowania inżynierii danych
Etapy analizy danych: od pozyskiwania do prezentacji wyników
Ewolucja podejścia do danych: od tradycyjnych hurtowni do analityki czasu rzeczywistego
Moduł 2: Tworzenie i zarządzanie hurtowniami danych
Projektowanie architektury hurtowni danych
Procesy ETL (Extract, Transform, Load): koncepcje, narzędzia i dobre praktyki
Hurtownie danych w środowiskach chmurowych – modele wdrożeniowe i skalowalność
Moduł 3: Czyszczenie i zapewnienie jakości danych
Metody identyfikacji i usuwania błędów w zbiorach danych
Utrzymywanie jakości danych: standardy, polityki i procedury kontrolne
Przykłady wdrażania zarządzania jakością danych w różnych sektorach
Moduł 4: Analiza danych czasowych
Rola danych czasowych w analizach biznesowych i społecznych
Analiza szeregów czasowych: wykrywanie trendów, sezonowości i prognozowanie
Techniki analizy danych w czasie rzeczywistym – przegląd narzędzi i możliwości
Moduł 5: Przetwarzanie danych w czasie rzeczywistym
Wprowadzenie do przetwarzania strumieniowego i jego zastosowań
Magazynowanie danych w czasie rzeczywistym – bazy nierelacyjne i NoSQL
Praktyczne scenariusze analizy danych strumieniowych w organizacjach
Moduł 6: Wizualizacja i raportowanie danych
Kryteria doboru narzędzi wizualizacji danych
Projektowanie czytelnych, interaktywnych i dynamicznych raportów
Studium przypadków: efektywna komunikacja wyników analitycznych
Moduł 7: Projekty praktyczne
Samodzielny wybór i realizacja projektów opartych na danych
Pozyskiwanie i analiza danych z różnych źródeł (biznes, nauka, społeczeństwo)
Prezentacja wyników projektów oraz omówienie wniosków
Moduł 8: Etyka i bezpieczeństwo w analizie danych
Prywatność danych: ochrona danych osobowych w analizach
Bezpieczeństwo danych w środowiskach przetwarzania i raportowania
Etyczne aspekty pracy z danymi – analiza przypadków i dobre praktyki
Grupa przedmiotów ogólnouczenianych
Opis nakładu pracy studenta w ECTS
Poziom przedmiotu
Symbol/Symbole kierunkowe efektów uczenia się
Typ przedmiotu
Wymagania wstępne
Koordynatorzy przedmiotu
Efekty kształcenia
Wiedza
Student zna podstawowe pojęcia oraz etapy procesu analizy danych, w tym pozyskiwanie, przygotowanie, przetwarzanie i prezentację informacji.
Student rozumie strukturę i funkcję hurtowni danych oraz rolę środowisk chmurowych w skalowalnym zarządzaniu danymi.
Student posiada wiedzę na temat metod czyszczenia danych, zapewniania ich jakości oraz analizy szeregów czasowych.
Student zna podstawy eksploracji danych, modelowania statystycznego oraz przetwarzania danych w czasie rzeczywistym.
Umiejętności
Student potrafi zaprojektować podstawowe procesy ETL i zastosować techniki czyszczenia danych w celu poprawy ich jakości.
Student potrafi przeprowadzać analizy obejmujące prognozowanie, klasyfikację oraz analizę skupień przy użyciu wybranych metod.
Student umie tworzyć czytelne i trafne wizualizacje danych, dostosowane do różnych odbiorców.
Student potrafi krytycznie interpretować wyniki analizy danych i skutecznie prezentować je w formie pisemnej oraz graficznej.
Kompetencje społeczne
Student wykazuje świadomość zasad etycznych w analizie danych, w tym ochrony prywatności i odpowiedzialnego wykorzystania technologii sztucznej inteligencji.
Student potrafi współpracować w zespole realizującym projekt analityczny i efektywnie wnosić wkład do wspólnej pracy.
Student jest otwarty na podejścia interdyscyplinarne oraz refleksyjny wobec społecznych konsekwencji technologii opartych na danych.
Kryteria oceniania
wysoka frekwencja na zajęciach (15 pkt)
rozwiązanie testu końcowego polegającego na przeprowadzeniu i wizualizacji informacji znajdujących się ćwiczeniowej bazie danych (max 50 pkt)
eseju napisanego w oparciu o wybrana publikację tekstową, film lub audycję radiową poświęconą problematyce prywatności w systemach cyfrowych, etyki sztucznej inteligencji oraz mediów społecznościowych (zadanie grupowe -35 pkt)
Skala ocen:
0 - 50 - niedostateczny
51 - 60 - dostateczny
61 - 70 - dostateczny +
71 - 80 - dobry
81 - 90 - dobry +
91 - 100 - bardzo dobry
Praktyki zawodowe
nie dotyczy
Literatura
Alla S., Big Data Analytics with Hadoop 3. Build highly effective analytics solutions to gain valuable insight into your big data, Birmingham 2023.
Ben_Gan I. Podstawy języka T-SQL: Microsoft SQL Server 2022 i Azure SQL Database, Warszawa 2023.
Foster D., Deep learning i modelowanie generatywne. Jak nauczyć komputer malowania, pisania, komponowania i grania, Gliwice 2021.
Franco Caleano M. I., Big Data Processing with Apache Spark. Efficiently tackle large datasets and big data analysis with Spark and Python, Birmingham 2018.
Gedeck P. Bruce P. Bruce A. Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python, Gliwice 2021.
Grus J. Data science od podstaw. Analiza danych w Pythonie. Gliwice 202.
Harrison G. , NoSQL, NewSQL i BigData. Bazy danych następnej generacji, Gliwice 2019.
Kleppmann M. Designing Data-Intensive Applications. The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Sebastopopol (US) 2017.
Knight D., Pearson M., Ostrovsky E. Schacht B. Microsoft Power BI. Jak modelować i wizualizować dane oraz budować narracje cyfrow, Gliwice 2022.
Lantz B. Machine Learning with R. Learn techniques for building and improving machine learning models, from data preparation to model tuning, evaluation, and working with big data - Fourth Edition, Birmingham 2023.
Lukavsky J. Building Big Data Pipelines with Apache Beam. Use a single programming model for both batch and stream data processing, Birmingham 2022.
Mishra S. Simplify Big Data Analytics with Amazon EMR. A beginner’s guide to learning and implementing Amazon EMR for building data analytics solutions, Birmingham 2022.
Nield T., Podstawy matematyki w data science. Algebra liniowa, rachunek prawdopodobieństwa i statystyka, Gliwice 203.
Oficalne materiały edukacyjne Microsoft dostępne pod adresem: https://learn.microsoft.com
Oficjajna dokumentacja techniczna Microsoft, dostępna pod adresem https://docs.microsoft.com
Rockoff L. Język SQL. Przyjazny podręcznik.Gliwice 2022.
Russo A. Ferrari M., Kompletny przewodnik po DAX, wyd. 2 rozszerzone. Analiza biznesowa przy użyciu Microsoft Power BI, SQL Server Analysis Services i Excel, Warszawa 202.
Stevenson D., Big Data i nauka o danych i AI bez tajemnicy, Gliwice 2019.
Ward B. Odsłaniamy SQL Server 2019: Klastry Big Data i uczenie maszynowe, Warszawa 202.
Warren J., Marz N., Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym, Gliwice 2016.
Żulickie R. Data science: najseksowniejszy zawód XXI wieku w Polsce. Big data, sztuczna inteligencja i PowerPoint, Łódź 2023.
Więcej informacji
Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb: