Środowisko programistyczne dla inżynierii danych (II) WSE-BD-ŚPID-II

Przedmiot „Środowisko programistyczne dla inżynierii danych” ma na celu wprowadzenie studentów w fundamentalne aspekty środowisk cyfrowych wykorzystywanych we współczesnej analizie danych. Kurs przeznaczony jest dla studentów niemających kierunkowego wykształcenia informatycznego, a jego celem jest zbudowanie świadomego rozumienia technologii przetwarzania danych — od poziomu sprzętowego, przez systemy operacyjne i sieci komputerowe, aż po zaawansowane środowiska chmurowe i obliczeniowe klastry danych.

W trakcie zajęć studenci poznają zasady działania infrastruktury informatycznej, w tym procesy zapisu i przesyłu danych, rolę sieci komputerowych oraz sposób organizacji przetwarzania danych w systemach rozproszonych. Szczególny nacisk położony jest na rozumienie architektury i podstawowych usług dwóch dominujących środowisk chmurowych: Google Cloud Platform oraz Microsoft Azure, w tym usług przechowywania danych, przetwarzania wsadowego i uruchamiania usług analitycznych.

Integralną część kursu stanowi zapoznanie z językami używanymi do analizy i zapytań do danych: Structured Query Language (SQL), wykorzystywanym w relacyjnych bazach danych, oraz Data Analysis Expressions (DAX), typowym dla środowisk raportowania i wizualizacji (np. Power BI). Studenci uczą się podstawowych konstrukcji zapytań i analiz, przetwarzając przykładowe zestawy danych.

W części poświęconej przetwarzaniu rozproszonemu studenci poznają ogólne zasady działania klastrów danych na przykładzie Apache Spark, w tym logikę rozproszonego przetwarzania danych, komponenty klastra i sposób jego integracji z platformami chmurowymi.

Zajęcia mają charakter praktyczny i projektowy – oprócz wiedzy teoretycznej studenci realizują ćwiczenia obejmujące zapytania do danych, eksplorację struktur plikowych, analizę przepływu informacji w infrastrukturze oraz podstawowe zadania obliczeniowe w środowisku rozproszonym.

Dyscyplina naukowa, do której odnoszą się efekty uczenia się

informatyka

Grupa przedmiotów ogólnouczenianych

nie dotyczy

Opis nakładu pracy studenta w ECTS

Udział w zajęciach (wykłady + laboratoria): 60 godzin Samodzielne przygotowanie do zajęć: 30 godzin Realizacja ćwiczeń praktycznych i zadań online: 35 godzin Przygotowanie do zaliczenia końcowego: 15 godzin Inne aktywności (np. korzystanie z materiałów, konsultacje): 10 godzin Łączny nakład pracy studenta: 150 godzin

Poziom przedmiotu

podstawowy

Symbol/Symbole kierunkowe efektów uczenia się

Zgodnie z programem studiów uchwalonym przez Senat UKSW: https://monitor.uksw.edu.pl/docs/search BDAS2_U12, BDAS2_U10, BDAS2_K01

Typ przedmiotu

obowiązkowy

Wymagania wstępne

Student rozpoczynający udział w kursie powinien posiadać ogólną orientację w zakresie funkcjonowania współczesnych technologii informacyjnych. W szczególności oczekuje się: umiejętności obsługi komputera w systemie Windows lub macOS (np. tworzenie i zarządzanie plikami i folderami, korzystanie z przeglądarki internetowej, edycja dokumentów tekstowych), podstawowej znajomości arkuszy kalkulacyjnych (np. Excel lub Google Sheets), umiejętności korzystania z uczelnianej platformy e-learningowej i narzędzi do komunikacji (np. Microsoft Teams, Google Workspace), gotowości do nauki nowych narzędzi informatycznych i otwartości na zagadnienia techniczne.

Koordynatorzy przedmiotu

Adam Bartosiewicz

Efekty kształcenia

PL:

Student zna podstawowe komponenty infrastruktury informatycznej wspierającej przetwarzanie danych, w tym sprzęt komputerowy, sieci oraz zasady działania systemów operacyjnych.
Student rozumie architekturę i funkcjonowanie usług chmurowych (Google Cloud Platform, Microsoft Azure) w kontekście przechowywania i przetwarzania danych.
Student zna podstawowe koncepcje i składnię języków SQL oraz DAX w analizie danych.
Student posiada wiedzę o zasadach działania systemów rozproszonych i klastrów obliczeniowych (np. Apache Spark).
EN:

The student understands the core components of IT infrastructure supporting data processing, including computer hardware, networks, and operating systems.
The student is familiar with the architecture and operation of cloud services (Google Cloud Platform, Microsoft Azure) for data storage and processing.
The student knows the fundamental concepts and syntax of SQL and DAX languages for data analysis.
The student has knowledge of distributed systems and computing clusters (e.g., Apache Spark).
Umiejętności / Skills

PL:

Student potrafi zastosować podstawowe zapytania SQL i DAX do eksploracji oraz analizy danych.
Student potrafi zidentyfikować i opisać elementy infrastruktury technologicznej wykorzystywanej w inżynierii danych.
Student potrafi zinterpretować podstawowe przepływy danych w środowisku chmurowym i rozproszonym.
Student potrafi wykonać proste ćwiczenia projektowe związane z przetwarzaniem danych w różnych środowiskach programistycznych.
EN:

The student can apply basic SQL and DAX queries for data exploration and analysis.
The student can identify and describe components of the technological infrastructure used in data engineering.
The student can interpret fundamental data flows within cloud and distributed environments.
The student is able to perform simple project-based tasks involving data processing in different programming environments.
Kompetencje społeczne / Social Competences

PL:

Student rozumie znaczenie poprawnego i etycznego przetwarzania danych.
Student wykazuje otwartość na interdyscyplinarne podejście do pracy z danymi.
Student potrafi pracować w zespole realizującym zadania projektowe.
EN:

The student understands the importance of ethical and correct data processing.
The student demonstrates openness to interdisciplinary approaches in data-related work.
The student is able to collaborate effectively within a project team.

Kryteria oceniania

Ocena z przedmiotu „Środowisko programistyczne dla inżynierii danych” opiera się w całości na realizacji zadań laboratoryjnych wykonywanych online. Łączna liczba punktów możliwych do zdobycia wynosi 100. Aby zaliczyć przedmiot, student musi uzyskać co najmniej 51% punktów (50% + 1 punkt).

Skala ocen przedstawia się następująco:
W przypadku uzyskania od 0% do 50% punktów końcowa ocena to 2,0 (niedostateczny), co oznacza niezaliczenie przedmiotu. Zakres od 51% do 60% odpowiada ocenie 3,0 (dostateczny) i oznacza minimalne spełnienie wymagań oraz wykonanie zadań na poziomie podstawowym. Wynik w przedziale od 61% do 70% skutkuje oceną 3,5 (dostateczny plus) i świadczy o częściowo poprawnych rozwiązaniach oraz podstawowym zrozumieniu zagadnień. Uzyskanie od 71% do 80% punktów skutkuje oceną 4,0 (dobry), która potwierdza poprawną realizację zadań i dobrą znajomość materiału. W przypadku osiągnięcia od 81% do 90% punktów student otrzymuje ocenę 4,5 (dobry plus), wskazującą na wysoką jakość pracy, samodzielność i świadome podejście do zadań. Najwyższą ocenę, 5,0 (bardzo dobry), otrzymują osoby, które zdobyły od 91% do 100% punktów – oznacza to pełną realizację ćwiczeń oraz bardzo dobrą znajomość i rozumienie treści kursu.

Praktyki zawodowe

nie dotyczy

Literatura

Alla S., Big Data Analytics with Hadoop 3. Build highly effective analytics solutions to gain valuable insight into your big data, Birmingham 2023.
Ben_Gan I. Podstawy języka T-SQL: Microsoft SQL Server 2022 i Azure SQL Database, Warszawa 2023.
Foster D., Deep learning i modelowanie generatywne. Jak nauczyć komputer malowania, pisania, komponowania i grania, Gliwice 2021.
Franco Caleano M. I., Big Data Processing with Apache Spark. Efficiently tackle large datasets and big data analysis with Spark and Python, Birmingham 2018.
Gedeck P. Bruce P. Bruce A. Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python, Gliwice 2021.
Grus J. Data science od podstaw. Analiza danych w Pythonie. Gliwice 202.
Harrison G. , NoSQL, NewSQL i BigData. Bazy danych następnej generacji, Gliwice 2019.
Kleppmann M. Designing Data-Intensive Applications. The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Sebastopopol (US) 2017.
Knight D., Pearson M., Ostrovsky E. Schacht B. Microsoft Power BI. Jak modelować i wizualizować dane oraz budować narracje cyfrow, Gliwice 2022.
Lantz B. Machine Learning with R. Learn techniques for building and improving machine learning models, from data preparation to model tuning, evaluation, and working with big data - Fourth Edition, Birmingham 2023.
Lukavsky J. Building Big Data Pipelines with Apache Beam. Use a single programming model for both batch and stream data processing, Birmingham 2022.
Mishra S. Simplify Big Data Analytics with Amazon EMR. A beginner’s guide to learning and implementing Amazon EMR for building data analytics solutions, Birmingham 2022.
Nield T., Podstawy matematyki w data science. Algebra liniowa, rachunek prawdopodobieństwa i statystyka, Gliwice 203.
Oficalne materiały edukacyjne Microsoft dostępne pod adresem: https://learn.microsoft.com
Oficjajna dokumentacja techniczna Microsoft, dostępna pod adresem https://docs.microsoft.com
Rockoff L. Język SQL. Przyjazny podręcznik.Gliwice 2022.
Russo A. Ferrari M., Kompletny przewodnik po DAX, wyd. 2 rozszerzone. Analiza biznesowa przy użyciu Microsoft Power BI, SQL Server Analysis Services i Excel, Warszawa 202.
Stevenson D., Big Data i nauka o danych i AI bez tajemnicy, Gliwice 2019.
Ward B. Odsłaniamy SQL Server 2019: Klastry Big Data i uczenie maszynowe, Warszawa 202.
Warren J., Marz N., Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym, Gliwice 2016.
Żulickie R. Data science: najseksowniejszy zawód XXI wieku w Polsce. Big data, sztuczna inteligencja i PowerPoint, Łódź 2023.

Więcej informacji

Dodatkowe informacje (np. o kalendarzu rejestracji, prowadzących zajęcia, lokalizacji i terminach zajęć) mogą być dostępne w serwisie USOSweb:

Strona przedmiotu WSE-BD-ŚPID-II w USOSweb