|
24/05/2008
Bot, Spider, Crawler
Οι μηχανές αναζήτησης μας προσφέρουν μια σημαντική υπηρεσία, η οποία είναι η πλέον δημοφιλής μεταξύ των χρηστών του Διαδικτύου. Πίσω, όμως, από τη λειτουργία των μηχανών αναζήτησης κρύβεται μια εξαιρετικά περίπλοκη διαδικασία, η οποία καταλήγει να προσφέρει τα (γνωστά) αποτελέσματα στους χρήστες.
Μια μηχανή αναζήτησης αποτελείται από τα παρακάτω τρία βασικά μέρη:
1. Crawler
Τα Crawlers, Bots και Spiders, είναι εφαρμογές λογισμικού οι οποίες επισκέπτονται ιστοσελίδες, συλλέγουν δεδομένα, τα οποία, τελικά, μεταφέρουν στη Βάση Δεδομένων της Μηχανής Αναζήτησης. Στη συνέχεια...
2. Index
Πρόκειται για το ευρετήριο (index) της Βάσης Δεδομένων. Στην πραγματικότητα, το ευρετήριο είναι μια δομή, η οποία καθορίζει τον τρόπο τοποθέτησης των δεδομένων στη βάση, έτσι ώστε να είναι εύκολα και γρήγορα προσβάσιμα.
3. Front End (FE)
Το Front End είναι η τελική υπηρεσία την οποία απολαμβάνει ο χρήστης, το περιβάλλον μέσα στο οποίο εξάγονται τα δεδομένα της αναζήτησής του, ο τρόπος που καταχωρούνται, με σειρά κατάταξης, κλπ.
Καθένα από τα παραπάνω μέρη είναι αποτέλεσμα εκτεταμένης προσπάθειας και εμπειρίας και συχνά, οι λεπτομέρειές του προστατεύονται από τις εταιρείες που συντηρούν τις μηχανές αναζήτησης, ως επτασφράγιστο μυστικό. Οι λεπτομέρειες αυτές, διαφοροποιούν τις μηχανές αναζήτησης μεταξύ τους, αφαιρώντας ή προσθέτοντας πόντους δημοτικότητας σε καθεμία.
Αναλύοντας το πρώτο από τα βασικά μέρη μιας μηχανής, τα bots ή crawlers ή spiders είναι εφαρμογές λογισμικού οι οποίες «κινούνται» στο Διαδίκτυο, ακολουθώντας συνδέσμους (links), «διαβάζουν» το περιεχόμενο των ιστοσελίδων, καταλήγοντας να «σαρώνουν» όλο το Διαδίκτυο, σε μια αέναη διαδικασία. Η πληροφορία που συλλέγουν για κάθε ιστοσελίδα, καταχωρείται στη Βάση Δεδομένων της μηχανής αναζήτησης. Για το λόγο αυτό, αρχικά, σαρώνουν κάθε νέα ιστοσελίδα.
Οι συγκεκριμένες εφαρμογές λογισμικού δε χρησιμοποιούνται βέβαια, μόνο για τις ανάγκες των μηχανών αναζήτησης, αλλά και κακόβουλα. Για παράδειγμα, με τον ίδιο τρόπο συλλέγονται οι λογαριασμοί ηλεκτρονικού ταχυδρομείου (e-mails), οι οποίοι γίνονται παραλήπτες ανεπιθύμητου διαφημιστικού υλικού (spam).
Της ΣΤΑΥΡΟΥΛΑΣ ΒΑΦΕΙΑΔΑΚΗ
stavaf@gmail.com
|