Αλγοριθμική Επιστήμη Δεδομένων
Weekly outline
- Ακαδημαϊκό Έτος 2022-23
Ακαδημαϊκό Έτος 2022-23
Το μάθημα προσφέρεται στα πλαίσια του ΔΠΜΣ "Επιστήμη Δεδομένων και Μηχανική Μάθηση", στους Υ.Δ. της ΣΗΜΜΥ, καθώς και σε άλλα μεταπτυχιακά προγράμματα (ΑΛΜΑ, ΕΜΕ, Μαθηματική Προτυποποίηση).
Διαλέξεις (έναρξη 1/3/2023)
- Τετάρτη, 09:45-12:30, αίθ. 002, Ν. Κτ. Ηλεκτρολόγων ΕΜΠ
(οι φοιτητές του ΑΛΜΑ θα έχουν 1 πρόσθετη ώρα, 08:45-09:30)
Διδάσκοντες
- Άρης Παγουρτζής, Καθηγητής (pagour@cs.ntua.gr)
- Δώρα Σούλιου, ΕΔΙΠ (dsouliou@mail.ntua.gr)
Βοηθός διδασκαλίας
- Σταύρος Πετσαλάκης, Υ.Δ. (stpetsalakis@gmail.com)
Βιβλιογραφία
- [MMDS] Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, and Jeff Ullman
www.mmds.org (book, slides, videos, etc.) - [FDS] Foundations of Data Science, Avrim Blum, John Hopcroft, and Ravindran Kannan
https://www.cs.cornell.edu/jeh/book.pdf - [TSKK] Introduction to Data Mining (2nd ed.), Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, and Vipin Kumar
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php
- Τετάρτη, 09:45-12:30, αίθ. 002, Ν. Κτ. Ηλεκτρολόγων ΕΜΠ
- 1η διάλεξη
1η διάλεξη
Διάλεξη 1/3
- Εισαγωγή - διαδικαστικά (διαφάνειες).
- Εξόρυξη κανόνων συσχέτισης και συνόλων στοιχείων που εμφανίζονται συχνά σε μεγάλα δεδομένα.
- Αλγόριθμος A-priori (διαφάνειες: 1-17).
Προτεινόμενη μελέτη: [MMDS] κεφ. 6 (link) (ενότητες 6.1, 6.2). Συμπληρωματικά: [TSKK] κεφ. 6 (link) (ενότητες 6.1, 6.2) και βίντεο παλαιότερης διάλεξης (ζητήστε το password μέσω email).
- 2η Διάλεξη
2η Διάλεξη
- Εξόρυξη συχνών συνόλων στοιχείων (μέρος 2), διαφάνειες (κυρίως 74-105, δείτε και 1-47) από μάθημα Π. Τσαπάρα (Παν. Ιωαννίνων).
Προτεινόμενη μελέτη: [MMDS] κεφ. 6 (link) [ενότητες 6.3, 6.4].
Δείτε ακόμη: [TSKK] κεφ. 6 (link) (ενότητα 6.5). - 3η Διάλεξη
3η Διάλεξη
Σύντομη επισκόπηση του clustering
Clustering Techniques, The curse of dimensionality, Hierarchical clustering, K-means, BFR algorithm. (Διαφάνειες, 1-47).
Προτεινόμενη μελέτη: [MMDS] Ενότητες: 7.1, 7.2, 7.3 και 7.4.Περαιτέρω μελέτη: [TSKK] Κεφάλαιο 7 - 4η Διάλεξη
4η Διάλεξη
Clustering
CURE (Διαφάνειες, 48-56)
Προτεινόμενη μελέτη: [MMDS] Ενότητες: 7.1, 7.2, 7.3 και 7.4.
Περαιτέρω μελέτη: [TSKK] Κεφάλαιο 7
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 5
- 5η Διάλεξη
5η Διάλεξη
Link Analysis
Power Iteration method, Avoiding Dead Ends, Spider Traps and Taxation Efficient Computation of Page Rank, Efficient Approaches to Page Rank Iteration (Διαφάνειες, 15-45)
Random Teleports, Computing Page Rank (Matrix Formulation, Rearranging the Equation, Sparse Matrix Formulation and Enconding, Block stripe Analysis) (Διαφάνειες, 46-60)
Topic Specific Page Rank, Measuring Proximity in Graphs (Διαφάνειες 1-20)
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 5
- 6η Διάλεξη
6η Διάλεξη
Διάλεξη 3/5
Community Detection Ι
- Εισαγωγή σε community detection. Edge Betweeness και Modularity. Αλγόριθμος Girvan-Newman.
- Διαφάνειες (1-23).
- Προτεινόμενη μελέτη: [MMDS] 10.1 και 10.2
- 7η Διάλεξη
7η Διάλεξη
Διάλεξη 10/5
Community Detection II
- Εντοπισμός κοινοτήτων μέσω ιδιοτιμών γράφων, spectral clustering.
- Διαφάνειες (24-64, από 41 και μετά συνοπτικά).
- Προτεινόμενη μελέτη: [MMDS] 10.4
- 8η Διάλεξη
8η Διάλεξη
Διάλεξη 17/5
Κατακερματισμός (hashing)
(διαφάνειες U. Zwick, από μάθημα Advanced Algorithms, Tel Aviv University):
- Κλειστή και ανοιχτή διευθυνσιοδότηση. Universal hash families. Αλυσίδωση.
- Παράγοντας φόρτου και ανάλυση χρόνου εκτέλεσης βασικών πράξεων.
- 9η Διάλεξη
9η Διάλεξη
Διάλεξη 24/5
Recommendation Systems
The long Tail, Utility Matrix, Content Based Recommendation Systems, Item Profile, User Profile
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 9 - 10η Διάλεξη
10η Διάλεξη
Διάλεξη 31/05/2023
Recommendation Systems
Collaborative Filtering, Finding Similar Users, Rating prediction, User - User , Item - Item
Hybrid Methods, Combining Global Baseline estimate and Collaborative Filtering
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 9Advertising on the web
On-line Algoithms, Greedy Algorithms, Competitive Ratio, Matching problem.
Διαφάνειες (1-15)
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο 8
- 11η Διάλεξη
11η Διάλεξη
Διάλεξη 7/6
Advertising on the web
Adwords problem, the Balance Algorithm
Διαφάνειες (1-34)
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο 8