Περιεχόμενο μαθήματος
- Boolean μοντέλο, λεξικό και postings λίστες, ανεκτική ανάκτηση, κατασκευή ευρετηρίου, συμπίεση ευρετηρίου, scoring και ζύγιση όρων
- ανάκτηση με το μοντέλο διανυσματικού χώρου, recall και precision, relevance feedback και επέκταση ερωτήματος, ανάκτηση με το πιθανοκρατικό μοντέλ
- latent semantic indexing, αποθήκευση αραιών πινάκων, αποθήκευση με συμπίεση γραμμών, αποθήκευση με συμπίεση στηλών, προσεγγίσεις με χαμηλό βαθμό πίνακα,
- τα βασικά της αναζήτησης στον Παγκόσμιο Ιστό, Web crawling και ευρετήρια
- η εξίσωση της άθροισης του PageRank, προβλήματα με την επαναληπτική διαδικασία, θεωρία Markov αλυσίδων, το φάσμα του πίνακα της Google
- παράμετροι του μοντέλου του PageRank, πίνακας υπερσυνδεσμων, πίνακας τηλεμεταφοράς
- ανάλυση ευαισθησίας του PageRank, το πρόβλημα PageRank ως γραμμικό σύστημα, απόδειξη του PageRank ως αραιό γραμμικό σύστημα
- μεγάλης κλίμακας υλοποίηση του PageRank, μοντελοποίηση του back button, προσαρμοζόμενη δυναμο-μέθοδος, extrapolation, aggregation, ενημέρωση του διανύσματος του PageRank
- η μέθοδος HITS για τη διάταξη ιστοσελίδων, υλοποίηση του HITS, σύγκλιση του HITS, σχέση του HITS με τη βιβλιομετρία, HITS ανεξάρτητος από το ερώτημα, ευασθησία του HITS
- το μοντέλο διάταξης ιστοσελίδων SALSA
- Ρυποδιαφήμιση περιεχομένου και συνδέσμων
Μαθησιακοί στόχοι
Το μάθημα αποτελεί αναλυτική παρουσίαση της μοντέρναςανάκτησης πληροφορίας στον Παγκόσμιο Ιστό, παρουσιάζοντας τα θέματα της διαβάθμισης ιστοσελίδων με βάση τόσο το περιεχόμενο όσο και της ανάλυσης υπερσυνδέσμων.
Στόχος του μαθήματος είναι να προσφέρει τη γνώση των δομών και μεθόδων που απαιτούνται για την ανάπτυξη και εκτέλεση λειτουργιών ανάκτησης πληροφορίας σε σύγχρονα (δικτυακά) περιβάλλοντα του Παγκοσμίου Ιστού.
Με την επιτυχή ολοκλήρωση του μαθήματος ο φοιτητής / τρια θα είναι σε θέση να έχει:
- Κατανόηση της διάκρισης μεταξύ ανάκτησης δεδομένων και ανάκτησης πληροφορίας.
- Εξοικείωση με την αρχιτεκτονική ενός συστήματος ανάκτησης πληροφορίας.
- Κατανόηση των ιδιοτήτων του δυαδικού, του διανυσματικού και του πιθανοτικού μοντέλου ανάκτησης πληροφορίας.
- Κατανόηση των πιο διαδεδομένων μεθόδων δεικτοδότησης στα συστήματα ανάκτησης πληροφορίας.
- Ικανότητα αξιολόγησης συστημάτων ανάκτησης πληροφορίας.
- Εξοικείωση με τις τεχνικές ανάδρασης χρήστη και επέκτασης ερωτήματος.
- Κατανόηση των ιδιαιτεροτήτων της ανάκτησης πληροφορίας στον Παγκόσμιο Ιστό.
- Εξοικείωση με τις τεχνικές web crawling.
- Κατανόηση της διάταξης με βάση την έννοια της φασματικής κεντρικότητας
Βιβλιογραφία
- Η μέθοδος PageRank της Google και άλλα Συστήματα Κατάταξης Ιστοσελίδας, A.N. Langville-C.D.Meyer, ΙΤΕ/Παν/κές Εκδόσεις Κρήτης, 2010, Ηράκλειο
- Εισαγωγή στην Ανάκτηση Πληροφοριών, C.D. Manning-P. Raghavan-H. Schutze, Εκδόσεις Κλειδάριθμος ΕΠΕ, 2012, Αθήνα
Προαπαιτούμενα
Βάσεις Δεδομένων και Πληροφοριακά Συστήματα, Προγραμματισμός Ι, Γραμμική Άλγεβρα
Διδάσκοντες
Κατσαρός Δημήτριος