3743 Εξόρυξη Γνώσης

Μάθημα Επιλογής,  Η’ εξάμηνο, 6 μονάδες ECTS

Διδάσκων: 

URL: https://eclass.aueb.gr/courses/INF131/

Περιεχόμενο

Προεπεξεργασία δεδομένων, διερευνητική ανάλυση δεδομένων, μείωση διάστασης, επιλογή, εξαγωγή και αξιολόγηση χαρακτηριστικών. Επιβλεπόμενη μάθηση, νευρωνικά δίκτυα, μη επιβλεπόμενη μάθηση (k-means, EM, spectral clustering). Εξόρυξη γνώσης από κείμενα/παγκόσμιο ιστό: Μοντέλα αναπαράστασης κειμένων, κειμενογραφήματα (graph of words), ενθέσεις λέξεων (word embeddings), αρχειοθέτηση Ιστού, συστήματα συστάσεων (spectral NMF). Εξόρυξη γνώσης από γραφήματα: μέθοδοι κατάταξης κορυφών (centrality measures), συσταδοποίηση και κατηγοριοποίηση γραφημάτων (graph kernels), μεγιστοποίηση επιρροής σε κοινωνικά δίκτυα (influence maximization), μέθοδοι εξαγωγής κοινοτήτων και εφαρμογές στα κοινωνικά δίκτυα. Κατανεμημένοι αλγόριθμοι μάθησης (Spark/MLIB, Graphx).

Μαθησιακά Αποτελέσματα

Μετά την επιτυχή ολοκλήρωση του μαθήματος, οι φοιτητές θα είναι σε θέση:

  • Να εξηγούν αναλυτικά τις κεντρικές έννοιες στην εξόρυξη γνώσης και την επιστήμη των δεδομένων.
  • Να χρησιμοποιούν στατιστικές μεθόδους και μεθόδους οπτικοποίησης για να εξερευνήσουν ένα σύνολο δεδομένων.
  • Να εφαρμόζουν αλγορίθμους μηχανικής μάθησης ώστε να κάνουν προβλέψεις με βάση τα διαθέσιμα δεδομένα.
  • Να γράφουν κώδικα ώστε να αναλύουν δεδομένα.
  • Να χρησιμοποιούν κριτική σκέψη ώστε να παίρνουν τις κατάλληλες αποφάσεις με βάση τα διαθέσιμα δεδομένα.
  • Να εφαρμόζουν τεχνικές εξόρυξης γνώσης σε δεδομένα που βρίσκονται σε μορφή κειμένων ή γραφημάτων.
  • Να υλοποιούν υπολογισμούς μεγάλης κλίμακας σε συστοιχίες υπολογιστών χρησιμοποιώντας την τεχνική MapReduce.

Προαπαιτούμενα Μαθήματα

Για να εγγραφεί στο μάθημα, ο φοιτητής πρέπει να έχει εξεταστεί επιτυχώς σε προηγούμενο εξάμηνο είτε στο μάθημα «Βάσεις Δεδομένων» είτε στο μάθημα «Τεχνητή Νοημοσύνη». Όμως, συνιστάται στους φοιτητές να έχουν εξεταστεί επιτυχώς σε προηγούμενο εξάμηνο και στα δύο αυτά μαθήματα καθώς και στα μαθήματα «Εισαγωγή στον Προγραμματισμό Υπολογιστών», «Μαθηματικά ΙΙ», «Πιθανότητες», «Αλγόριθμοι» και «Στατιστική στην Πληροφορική».

Συνιστώμενη Βιβλιογραφία

  • Εξόρυξη Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό, Μ. Χαλκίδη, Μ. Βαζιργιάννης, Εκδόσεις Gutenberg, 2005.
  • Doing Data Science - Straight Talk from the Frontline, C. O'Neil, R. Schut, O'Reilly Media, 2013.
  • Data Mining: Concepts and Techniques, J. Han, J. Pei, M. Kamber, Morgan Kaufmann, 2013.
  • Algorithms and Models for Network Data and Link Analysis, F. Fouss, M. Saerens, M. Shimbo, Cambridge Univ. Press, 2016.

Διδακτικές και Μαθησιακές Μέθοδοι

Διαλέξεις (2 διαλέξεις των 2 ωρών εβδομαδιαίως), εργαστήρια (1 εργαστήριο των 2 ωρών εβδομαδιαίως), και εξαμηνιαία εργασία (project).

Μέθοδοι Αξιολόγησης/Βαθμολόγησης

Ο τελικός βαθμός είναι ο σταθμισμένος μέσος όρος του βαθμού της γραπτής τελικής εξέτασης (με βάρος 60%) και της εξαμηνιαίας εργασίας (με βάρος 40%).