Best Paper Runner Up «Revisiting Silhouette Aggregation»

Η πρόσφατη έρευνα του Επίκουρου Καθηγητή Γιάννη Παυλόπουλου, «Revisiting Silhouette Aggregation», αναγνωρίστηκε ως Best Paper Runner Up στο συνέδριο Discovery Science 2024 στην Πίζα. Σε συνεργασία με τους Αριστείδη Λίκα και Γιώργο Βαρδάκα από το Τμήμα Μηχανικών Η/Υ και Πληροφορικής στο Πανεπιστήμιο Ιωαννίνων, ο Δρ. Παυλόπουλος ανέδειξε μια ισχυρή αλλά παραμελημένη μέθοδο αξιολόγησης λύσεων συσταδοποίησης (clustering) μέσω του δείκτη Silhouette, η οποία προσφέρει ιδιαίτερα πλεονεκτήματα για σύνολα δεδομένων με ανισοπληθείς συστάδες (cluster imbalance). Η εργασία τους εισάγει επίσης μια νέα τεχνική δειγματοληψίας, η οποία είναι σημαντική για μεγάλα σύνολα δεδομένων, ενισχύοντας την αξιοπιστία και τη σταθερότητα στην ανάλυση συσταδοποίησης.

Στην ανάλυση συσταδοποίησης, ο δείκτης Silhouette είναι ένα ευρέως χρησιμοποιούμενο εσωτερικό μέτρο αξιολόγησης, που δίνει σε κάθε σημείο του χώρου μια βαθμολογία που αντικατοπτρίζει την ποιότητα της ανάθεσής του σε μία συστάδα. Παραδοσιακά, η συνολική βαθμολογία Silhouette ενός συνόλου δεδομένων υπολογίζεται μέσω ενός μικρο-μέσου όρου (micro-averaged), όπου οι βαθμολογίες όλων των δεδομένων συνδυάζονται σε μία τιμή. Ωστόσο, η παρούσα μελέτη εξετάζει την εναλλακτική προσέγγιση ενός μακρο-μέσου όρου (macro-averaged), όπου οι βαθμολογίες πρώτα υπολογίζονται εντός κάθε συστάδας και στη συνέχεια υπολογίζεται ο μέσος όρος των μέσων που αντιστοιχούν στις συστάδες.

Μέσα από συνθετικά παραδείγματα, η εργασία αυτή δείχνει ότι ο μικρο-μέσος όρος είναι ιδιαίτερα ευαίσθητος σε ανισορροπίες μεταξύ των συστάδων ενώ ο μακρο-μέσος όρος είναι σημαντικά πιο ανθεκτικός σε αυτές τις συνθήκες. Η ανάλυση της εργασίας αποκαλύπτει επίσης ότι η ομοιόμορφη δειγματοληψία στις υπάρχουσες υλοποιήσεις, που χρησιμοποιείται σε μεγάλα σύνολα δεδομένων, μειώνει τη σταθερότητα των μακρο- και μικρο-μέσων όρων όταν υπάρχει ανισορροπία συστάδων.

Για την αντιμετώπιση του παραπάνω ζητήματος, η εργασία εισάγει μια νέα προσέγγιση δειγματοληψίας ανά ομάδα, η οποία διατηρεί τη σταθερότητα του μακρο-μέσου όρου Silhouette. H μέθοδος αυτή αξιολογήθηκε σε οκτώ σύνολα δεδομένων πραγματικού κόσμου, όπου συγκρίθηκαν οι βαθμολογίες μικρο- και μακρο-μέσου όρου Silhouette σε λύσεις συσταδοποίησης, αναδεικνύοντας τα οφέλη της προτεινόμενης προσέγγισης για πιο αξιόπιστη αξιολόγηση.

Συνολικά, η εργασία αυτή προσφέρει ένα βελτιωμένο σύνολο εργαλείων για αξιόπιστη αξιολόγηση λύσεων συσταδοποίησης, ιδιαίτερα πολύτιμο για μεγάλα ή ανισόρροπα σύνολα δεδομένων.

Προδημοσίευση: https://arxiv.org/abs/2401.05831