Αλγοριθμική Επιστήμη Δεδομένων
Περιγραφή θέματος
- Γενικά
Γενικά
Το μάθημα προσφέρεται στα πλαίσια του ΔΠΜΣ "Επιστήμη Δεδομένων και Μηχανική Μάθηση", στους Υ.Δ. της ΣΗΜΜΥ, καθώς και σε άλλα μεταπτυχιακά προγράμματα (ΑΛΜΑ, ΕΜΕ, Μαθηματική Προτυποποίηση).
Διαλέξεις (έναρξη 2/3/2022)
- Τετάρτη, 08:45-11:30, αίθ. 013, Ν. Κτ. Ηλεκτρολόγων ΕΜΠ
- Διαδικτυακά: σύνδεσμος webex (meeting number: 2733 753 7648, password: ads2022@NTUA)
Προσοχή: η παρακολούθηση με αυτόν τον τρόπο αφορά μόνο όσους έχουν ειδικά θέματα υγείας, που καθιστούν την φυσική παρακολούθηση επίφοβη. Επιπλέον, δεν μπορούμε να εγγυηθούμε την τεχνική αρτιότητα της μετάδοσης.
Διδάσκοντες
- Άρης Παγουρτζής, Καθηγητής (pagour@cs.ntua.gr)
- Δώρα Σούλιου, ΕΔΙΠ (dsouliou@mail.ntua.gr)
Βοηθός διδασκαλίας
- Σταύρος Πετσαλάκης, Υ.Δ. (stpetsalakis@gmail.com)
Βιβλιογραφία
- [MMDS] Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, and Jeff Ullman
www.mmds.org (book, slides, videos, etc.) - [FDS] Foundations of Data Science, Avrim Blum, John Hopcroft, and Ravindran Kannan
https://www.cs.cornell.edu/jeh/book.pdf - [TSKK] Introduction to Data Mining (2nd ed.), Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, and Vipin Kumar
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php
- Διαλέξη 2/3/2022
Διαλέξη 2/3/2022
- Εισαγωγή - διαδικαστικά (διαφάνειες).
- Εξόρυξη κανόνων συσχέτισης και συνόλων στοιχείων που εμφανίζονται συχνά σε μεγάλα δεδομένα.
- Αλγόριθμος A-priori (διαφάνειες: 1-17).
Βίντεο της διάλεξης (λόγω τεχνικού προβλήματος καταγράφηκε ένα μέρος μόνο)
[ΠΡΟΣΟΧΗ: Απαιτείται συνθηματικό για την πρόσβαση. Το υλικό των διαλέξεων προορίζεται αποκλειστικά για προσωπική χρήση των φοιτητών του μαθήματος και δεν επιτρέπεται η ανάρτησή του ή μεταφόρτωσή του σε οποιοδήποτε άλλο site ή μέσο. Ισχύουν περιορισμοί προστασίας προσωπικών δεδομένων.]Προτεινόμενη μελέτη: [MMDS] κεφ. 6 (link) (ενότητες 6.1, 6.2). Συμπληρωματικά: [TSKK] κεφ. 6 (link) (ενότητες 6.1, 6.2) και βίντεο περυσινής διάλεξης. - Διάλεξη 9/3/2022
Διάλεξη 9/3/2022
- Εξόρυξη συχνών συνόλων στοιχείων (μέρος 2), διαφάνειες (κυρίως 74-105, δείτε και 1-47) από μάθημα Π. Τσαπάρα (Παν. Ιωαννίνων).
- Χρήση hashing (διαφάνειες: 18-21), αλγόριθμοι PCY, SON, Toivonen.
Βίντεο της διάλεξης [ΠΡΟΣΟΧΗ: Απαιτείται συνθηματικό για την πρόσβαση. Ισχύουν περιορισμοί προστασίας προσωπικών δεδομένων, δείτε παραπάνω.]
Προτεινόμενη μελέτη: [MMDS] κεφ. 6 (link) [ενότητες 6.3, 6.4].Δείτε ακόμη: [TSKK] κεφ. 6 (link) (ενότητα 6.5), και βίντεο περυσινής διάλεξης - Εξόρυξη συχνών συνόλων στοιχείων (μέρος 2), διαφάνειες (κυρίως 74-105, δείτε και 1-47) από μάθημα Π. Τσαπάρα (Παν. Ιωαννίνων).
- Διάλεξη 16/3/2022
Διάλεξη 16/3/2022
Εξόρυξη συχνών συνόλων στοιχείων (μέρος 3) :- Παραγωγή και αξιολόγηση κανόνων συσχέτισης - διαφάνειες (έμφαση σε 48-73) από μάθημα Π. Τσαπάρα (Παν. Ιωαννίνων).
- Αλγόριθμος FP-Growth (διαφάνειες: 22-30).
Προτεινόμενη μελέτη: [TSKK] κεφ. 6 (link) [ενότητες 6.1, 6.3, 6.4, 6.6 και 6.7]. Δείτε και [MMDS] κεφ. 6 (link) [ενότητα 6.1]. - Παραγωγή και αξιολόγηση κανόνων συσχέτισης - διαφάνειες (έμφαση σε 48-73) από μάθημα Π. Τσαπάρα (Παν. Ιωαννίνων).
- Διάλεξη 23/3/2022
Διάλεξη 23/3/2022
Σύντομη επισκόπηση του clustering
Clustering Techniques, The curse of dimensionality, Hierarchical clustering, K-means, BFR algorithm. (Διαφάνειες, 1-47).
Προτεινόμενη μελέτη: [MMDS] Ενότητες: 7.1, 7.2, 7.3 και 7.4.Περαιτέρω μελέτη: [TSKK] Κεφάλαιο 7 - Διάλεξη 30/3/2022
Διάλεξη 30/3/2022
Clustering
CURE (Διαφάνειες, 48-56)
Προτεινόμενη μελέτη: [MMDS] Ενότητες: 7.1, 7.2, 7.3 και 7.4.
Περαιτέρω μελέτη: [TSKK] Κεφάλαιο 7
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 5
- Διάλεξη 6/4/2022
Διάλεξη 6/4/2022
Link Analysis
Power Iteration method, Avoiding Dead Ends, Spider Traps and Taxation Efficient Computation of Page Rank, Efficient Approaches to Page Rank Iteration (Διαφάνειες, 15-45)
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 5
- Διάλεξη 13/4/2022
Διάλεξη 13/4/2022
Link Analysis
Random Teleports, Computing Page Rank (Matrix Formulation, Rearranging the Equation, Sparse Matrix Formulation and Enconding, Block stripe Analysis) (Διαφάνειες, 46-60)
Topic Specific Page Rank, Measuring Proximity in Graphs, Sim Rank, Web Spam, Term Spam, Spam Farming, Link Spamming (Διαφάνειες 1-35)
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 5
- Διάλεξη 4/5/2022
Διάλεξη 4/5/2022
Κατακερματισμός (hashing)
(slides [1-24] U. Zwick, από μάθημα Advanced Algorithms, Tel Aviv University):
- Κλειστή και ανοιχτή διευθυνσιοδότηση. Universal hash families. Αλυσίδωση.
- Παράγοντας φόρτου και ανάλυση χρόνου εκτέλεσης βασικών πράξεων.
- Διάλεξη 11/5
Διάλεξη 11/5
Κατακερματισμός (hashing)
(slides [25-54] U. Zwick, από μάθημα Advanced Algorithms, Tel Aviv University):
- Ανοιχτή διευθυνσιοδότηση. Γραμμική και τετραγωνική διερεύνηση. Διπλός κατακερματισμός.
- Παράγοντας φόρτου και ανάλυση χρόνου εκτέλεσης βασικών πράξεων.
- Τέλειος κατακερματισμός. Κατακερματισμός κούκου (cuckoo hashing).
Link Analysis
- Trust Rank algorithm (Combating Link Spam)
- Spam Mass
- Hubs and Authorities (Hits Algorithm)
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 5
- Ανοιχτή διευθυνσιοδότηση. Γραμμική και τετραγωνική διερεύνηση. Διπλός κατακερματισμός.
- Διάλεξη 25/5
Διάλεξη 25/5
Recommendation Systems
The long Tail, Utility Matrix, Content Based Recommendation Systems, Item Profile, User Profile
Collaborative Filtering, Finding Similar Users, Rating prediction, User - User , Item - Item
- Hybrid Methods, Combining Global Baseline estimate and Collaborative Filtering
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο: 9 - Διάλεξη 1/6
Διάλεξη 1/6
Community Detection
- Εισαγωγή σε community detection. Edge Betweeness και Modularity. Αλγόριθμος Girvan-Newman.
Διαφάνειες (1-23).
Προτεινόμενη μελέτη: [MMDS] 10.1 και 10.2 - Αλγόριθμος Louvain (σύντομη αναφορά).
Προτεινόμενη μελέτη (προαιρετική): σχετικό paper.
- Εισαγωγή σε community detection. Edge Betweeness και Modularity. Αλγόριθμος Girvan-Newman.
- Διάλεξη 8/6
Διάλεξη 8/6
- Community Detection II
Εντοπισμός κοινοτήτων μέσω ιδιοτιμών γράφων, spectral clustering (σύντομη αναφορά).
Διαφάνειες (24-64, από 41 και μετά συνοπτικά).
Προτεινόμενη μελέτη: [MMDS] 10.4
- Advertising on the web
On-line Algoithms, Greedy Algorithms, Competitive Ratio, Matching problem, Adwords problem, the Balance Algorithm. Διαφάνειες (1-34)
Προτεινόμενη μελέτη: [MMDS] Κεφάλαιο 8
- Community Detection II