Αλγοριθμική Επιστήμη Δεδομένων
Περιγραφή εβδομάδας
- Ακαδημαϊκό Έτος 2023-2024
Ακαδημαϊκό Έτος 2023-2024
Το μάθημα προσφέρεται στα πλαίσια του ΔΠΜΣ "Επιστήμη Δεδομένων και Μηχανική Μάθηση", στους Υ.Δ. της ΣΗΜΜΥ, καθώς και σε άλλα μεταπτυχιακά προγράμματα (ΑΛΜΑ, ΕΜΕ, Μαθηματική Προτυποποίηση).
Διαλέξεις
- Παρασκευή, 13:15-16:00, αίθ. 002, Νέο Κτ. Ηλεκτρολόγων ΕΜΠ
(οι φοιτητές του ΑΛΜΑ θα έχουν 1 πρόσθετη ώρα, 16:15-17:00)
Έναρξη
- Παρασκευή 23/2/2024
Διδάσκοντες
- Άρης Παγουρτζής, Καθηγητής (pagour@cs.ntua.gr)
- Δώρα Σούλιου, ΕΔΙΠ (dsouliou@mail.ntua.gr)
Βοηθός διδασκαλίας
- Σταύρος Πετσαλάκης, Υ.Δ. (stpetsalakis@gmail.com)
Βιβλιογραφία
- [MMDS] Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, and Jeff Ullman
www.mmds.org (book, slides, videos, etc.) - [FDS] Foundations of Data Science, Avrim Blum, John Hopcroft, and Ravindran Kannan
https://www.cs.cornell.edu/jeh/book.pdf - [TSKK] Introduction to Data Mining (2nd ed.), Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, and Vipin Kumar
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php
- Παρασκευή, 13:15-16:00, αίθ. 002, Νέο Κτ. Ηλεκτρολόγων ΕΜΠ
- 1η διάλεξη
1η διάλεξη
Διάλεξη 23/2
- Εισαγωγή - διαδικαστικά (διαφάνειες)
Εισαγωγή στο clustering
Clustering Techniques. (Διαφάνειες, 1-15).
Προτεινόμενη μελέτη: [MMDS] Ενότητες: 7.1, 7.2, 7.3 και 7.4.Περαιτέρω μελέτη: [TSKK] Κεφάλαιο 7
- 2η Διάλεξη
2η Διάλεξη
Διάλεξη 1/3
Σύντομη επισκόπηση του clustering
Clustering Techniques, The curse of dimensionality, Hierarchical clustering, K-means, BFR algorithm, Cure. (Διαφάνειες, 1-56).
Προτεινόμενη μελέτη: [MMDS] Ενότητες: 7.1, 7.2, 7.3 και 7.4.Περαιτέρω μελέτη: [TSKK] Κεφάλαιο 7 - 3η Διάλεξη
3η Διάλεξη
Διάλεξη 15/3
Κατακερματισμός (hashing) I
(διαφάνειες U. Zwick από μάθημα Advanced Algorithms, Tel Aviv University):
- Κλειστή και ανοιχτή διευθυνσιοδότηση. Universal hash families. Αλυσίδωση.
- Παράγοντας φόρτου και επίδρασή του στον χρόνο εκτέλεσης.
Παρουσιάστηκαν οι διαφάνειες 1-20.
Προτεινόμενη μελέτη: σημειώσεις (και αναφορές που περιέχονται). - 4η Διάλεξη
4η Διάλεξη
Διάλεξη 29/3
Κατακερματισμός (hashing) II
(διαφάνειες U. Zwick από μάθημα Advanced Algorithms, Tel Aviv University):
- Επιθυμητές ιδιότητες. Καθολικότητα και k-ανεξαρτησία. Carter-Wegman Universal hash family.
- Ανάλυση χρόνου βασικών πράξεων στην κλειστή και ανοιχτή διεθυνσιοδότηση.
- Μέθοδοι διερεύνησης στην ανοιχτή διευθυνσιοδότηση.
- Τέλειος κατακερματισμός (perfect hashing). Κατακερματισμός κούκου (Cuckoo hashing).
Παρουσιάστηκαν οι διαφάνειες 14-20 (επανάληψη) και 21-54.
Προτεινόμενη μελέτη: σημειώσεις (και αναφορές που περιέχονται). - 5η Διάλεξη
5η Διάλεξη
- 6η διάλεξη
6η διάλεξη
Διάλεξη 12/4
- Εξόρυξη συχνών συνόλων στοιχείων (μέρος 2), κανόνες συσχέτισης, αλγόριθμοι με λιγότερες διασχίσεις βάσης. Διαφάνειες (έμφαση στις διαφ. 48-105) από μάθημα Π. Τσαπάρα (Παν. Ιωαννίνων).
Προτεινόμενη μελέτη: [MMDS] κεφ. 6 (link) [ενότητες 6.3, 6.4].
Δείτε ακόμη: [TSKK] κεφ. 6 (link) (ενότητα 6.5). - 7η Διάλεξη
7η Διάλεξη
Διάλεξη 19/4
Community Detection Ι
- Εισαγωγή σε community detection. Edge Betweeness και Modularity.
- Αλγόριθμος Girvan-Newman.
Προτεινόμενη μελέτη: [MMDS] 10.1 και 10.2- Αλγόριθμος Louvain (σύντομη αναφορά).
Προτεινόμενη μελέτη (προαιρετική): σχετικό paper.
- 8η Διάλεξη
8η Διάλεξη
Διάλεξη 26/4
Community Detection II
- Εντοπισμός κοινοτήτων μέσω ιδιοτιμών γράφων, spectral clustering.
- Διαφάνειες (24-64, οι διαφ. 44-57 συνοπτικά).
- Προτεινόμενη μελέτη: [MMDS] 10.4
- 9η Διάλεξη
9η Διάλεξη
Διάλεξη 17/5
Recommendation Systems
The long Tail, Utility Matrix, Content Based Recommendation Systems, Item Profile, User Profile
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 9 - 10η Διάλεξη
10η Διάλεξη
Διάλεξη 24/05/2023
Recommendation Systems
Collaborative Filtering, Finding Similar Users, Rating prediction, User - User , Item - Item
Hybrid Methods, Combining Global Baseline estimate and Collaborative Filtering
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 9Link Analysis
Definition of Page Rank, Structure of the Web
Power Iteration method, Avoiding Dead Ends, Spider Traps and Taxation Efficient Computation of Page Rank, Efficient Approaches to Page Rank Iteration
Διαφάνειες, 1-45
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 5 - 11η Διάλεξη
11η Διάλεξη
Διάλεξη 31/6
Link Analysis
Random Teleports, Computing Page Rank (Matrix Formulation, Rearranging the Equation, Sparse Matrix Formulation and Enconding, Block stripe Analysis)
Διαφάνειες, 46-60
Topic Specific Page Rank, Measuring Proximity in Graphs (Διαφάνειες 1-20)
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο 5
Advertising on the web
Adwords problem, the Balance Algorithm
Διαφάνειες (1-34)
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο 8