6 April - 10 April
Section outline
-
Διάλεξη 9/4: Heavy-Hitters σε Ροές Δεδομένων και Εύρεση Κοντινών Γειτόνων
- Eπεξεργασία ροών δεδομένων (data streams): εκτίμηση συχνότητας εμφάνισης συχνών στοιχείων (heavy-hitters), αλγόριθμοι lossy counting και count-min sketch (προτείνεται να μελετήστε ακόμη τις σημειώσεις εδώ και εδώ, και να δείτε τις διαφάνειες εδώ, εδώ και εδώ).
- Εύρεση κοντινών γειτόνων: ορισμός προβλήματος, επεξεργασία κειμένων, shingling, min-hashing, locality sensitive hashing.
Προτεινόμενη μελέτη:
- Διαφάνειες.
- [MMDS] 3.1 - 3.8.
- Σημειώσεις Jeff Philips για Min Hashing, Locality Sensitive Hashing, και αποστάσεις.
Περαιτέρω μελέτη για επεξεργασία ροών δεδομένων:
- Σημειώσεις και βιβλίο του S. Muthukrishnan για αλγόριθμους ροών δεδομένων.
- Η εργασία των Manku και Motwani όπου παρουσιάζεται ο αλγόριθμος lossy counting.
- Η εργασία των Cormode και Muthukrishnan όπου παρουσιάζεται ο αλγόριθμος count-min sketch.
Σύνδεσμος στη βιντεοσκοπημένη διάλεξη (απαιτείται συνθηματικό)
(ΠΡΟΣΟΧΗ: Απαιτείται συνθηματικό για την πρόσβαση. Το υλικό των διαλέξεων προορίζεται αποκλειστικά για προσωπική χρήση των φοιτητών του μαθήματος και δεν επιτρέπεται η ανάρτησή του ή μεταφόρτωσή του σε οποιοδήποτε άλλο site ή μέσο.)