Επεξεργασία Φυσικής Γλώσσας

Επιλογής Μάθημα, Εαρινό Εξάμηνο, 6 μονάδες ECTS

Διδάσκων: Καθηγητής Ίων Ανδρουτσόπουλος

URL: https://eclass.aueb.gr/courses/INF210/

Περιεχόμενο

Γλωσσικά μοντέλα n-γραμμάτων. Εντροπία, διασταυρωμένη εντροπία, περιπλοκή. Ορθογραφική διόρθωση. Παραστάσεις κειμένων με σάκους λέξεων. Επιλογή και εξαγωγή χαρακτηριστικών. Κατηγοριοποίηση κειμένων με k κοντινότερους γείτονες και Αφελή Bayes. Ομαδοποίηση λέξεων και κειμένων με k-means. Λογιστική παλινδρόμηση, στοχαστική κατάβαση κλίσης, πολυ-επίπεδα Perceptron, ανάστροφη μετάδοση σφάλματος για κατηγοριοποίηση κειμένων. Προ-εκπαίδευση ενσωματώσεων λέξεων, Word2Vec, FastText. Ανατροφοδοτούμενα νευρωνικά δίκτυα (RNNs), κελιά GRU και LSTM, RNN με αυτο-προσοχή, διπλής κατεύθυνσης, στοιβαγμένα, ιεραρχικά RNN και εφαρμογές σε γλωσσικά μοντέλα, κατηγοριοποίηση κειμένων και επισημείωση ακολουθιών. Μοντέλα RNN μετατροπής ακολουθίας σε ακολουθία, μηχανική μετάφραση. Προ-εκπαίδευση γλωσσικών μοντέλων RNN, ELMo. Συνελικτικά νευρωνικά δίκτυα και εφαρμογές στην επεξεργασία κειμένου. Transformers, BERT. Ανάλυση συντακτικών εξαρτήσεων και εξαγωγή σχέσεων με μοντέλα βαθιάς μάθησης. Συστήματα ερωταποκρίσεων για συλλογές εγγράφων. Διαλογικά Συστήματα.

Προαπαιτούμενα

Οι φοιτητές θα πρέπει να έχουν βασικές γνώσεις μαθηματικού λογισμού, γραμμικής άλγεβρας και θεωρίας πιθανοτήτων. Για τις προγραμματιστικές ασκήσεις του μαθήματος, απαιτείται εμπειρία προγραμματισμού (π.χ. σε Java, C, C++, Python). Συνιστάται οι φοιτητές να παρακολουθήσουν και το μάθημα «Βαθιά Μάθηση», χωρίς αυτό να απαιτείται.

Επιδιωκόμενα Μαθησιακά Αποτελέσματα

Μετά την επιτυχή ολοκλήρωση του μαθήματος, οι φοιτητές θα είναι σε θέση:

  • να περιγράφουν μεγάλο εύρος πιθανών εφαρμογών Επεξεργασίας Φυσικής Γλώσσας,
  • να περιγράφουν αλγορίθμους Επεξεργασίας Φυσικής Γλώσσας που μπορούν να χρησιμοποιηθούν σε συγκεκριμένες εφαρμογές,
  • να επιλέγουν και να υλοποιούν κατάλληλους αλγορίθμους Επεξεργασίας Φυσικής Γλώσσας για συγκεκριμένες εφαρμογές,
  • να αξιολογούν την αποτελεσματικότητα και απόδοση μεθόδων και συστημάτων Επεξεργασίας Φυσικής Γλώσσας.

Συνιστώμενη Βιβλιογραφία

  • Speech and Language Processing, Daniel Jurafsky and James H. Martin, Pearson Education, 2nd edition, 2009, ISBN-13: 978-0135041963.
  • Neural Network Methods for Natural Language Processing, Yoav Goldberg, Morgan & Claypool Publishers, 2017, ISBN-13: 978-1627052986.
  • Introduction to Natural Language Processing, Jacob Eisenstein, MIT Press, 2019, ISBN-13: 978-0262042840.
  • Foundations of Statistical Natural Language Processing, Christopher D. Manning and Hinrich Schütze, MIT Press, 1999, ISBN-13: 978-0262133609.
  • An Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Cambridge University Press, 2008, ISBN-13: 978-0521865715.

Διδακτικές και Μαθησιακές Μέθοδοι

Μια διάλεξη τριών ωρών εβδομαδιαίως, ασκήσεις μελέτης και προγραμματισμού στο σπίτι (ορισμένες προς παράδοση).

Μέθοδοι Αξιολόγησης και Βαθμολόγησης

Ο τελικός βαθμός είναι ο μέσος όρος του βαθμού της τελικής γραπτής εξέτασης (50%) και του βαθμού των παραδοτέων ασκήσεων μελέτης και προγραμματισμού (βάρος 50%), υπό την προϋπόθεση ότι ο βαθμός της τελικής γραπτής εξέτασης είναι τουλάχιστον 5/10. Διαφορετικά, ο τελικός βαθμός ισούται με τον βαθμό της τελικής γραπτής εξέτασης.