Η διαχείριση των web robots

Είδαμε στο προηγούμενο κείμενο (τα είδη των web robots) την αναγκαιότητα διαχείρισης των robots, ανάλογα με το αν είναι χρήσιμα ή όχι, σε μία ιστοσελίδα. Θα δούμε τώρα μερικούς τρόπους υλοποίησης της διαχείρισης των web robots.

Το αρχείο οδηγιών robots.txt

Το αρχείο robots.txt είναι ο πιο παραδοσιακός τρόπος διαχείρισης των robots. Πρόκειται για ένα αρχείο απλού κειμένου (txt) που περιέχει απλές οδηγίες προς τα robots. Δηλαδή, μέσω των δύο απλών εντολών Allow/Disallow υποδεικνύει στα robots αν είναι επιθυμητά ή όχι συνολικά στην ιστοσελίδα ή αν τους επιτρέπεται η πρόσβαση ή όχι σε κάποια συγκεκριμένα κομμάτια της ιστοσελίδας.

Το μειονέκτημα αυτής της μεθόδου είναι ότι πρόκειται για απλές υποδείξεις προς τα robots και όχι διαταγές που υποχρεούνται να ακολουθήσουν. Έτσι, τα καλά web robots, λαμβάνουν υπόψη τους και συμμορφώνονται σε αυτές τις υποδείξεις, όμως όλα τα υπόλοιπα δεν έχουν κάποιο εμπόδιο να παραβούν αυτές τις υποδείξεις και να συνεχίσουν το έργο που τους έχει ανατεθεί.

Υπάρχει λοιπόν η ανάγκη χρήσης επιπλέον τρόπων διαχείρισης των web robots που αδιαφορούν για τις υποδείξεις του robots.txt ώστε να μην έχουν την ελευθερία να δρουν ανεξέλεγκτα μέσα σε μία ιστοσελίδα.

Ρυθμίσεις στον web server

Μπορούν να γίνουν συγκεκριμένες ρυθμίσεις στον server που φιλοξενεί την ιστοσελίδα, ώστε να ανιχνεύει το web robot (π.χ. μέσω του IP ή του User Agent) και να μην του επιτρέπει την πρόσβαση στην ιστοσελίδα. Αυτό π.χ. σε έναν apache server μπορεί να γίνει εύκολα μέσω του αρχείου .htaccess (αν υπάρχει δυνατότητα επεξεργασίας του).

Πρόσθετο script διαχείρισης web robots

Παρόμοια με τον προηγούμενο τρόπο, μπορεί αντί για ρυθμίσεις απευθείας στον web server ή αν δεν υπάρχουν δικαιώματα επεξεργασίας του .htaccess, να γίνει η διαχείριση μέσω ενός πρόσθετου script στο CMS της ιστοσελίδας, που να ελέγχει την κίνηση μέσα στην ιστοσελίδα.

Συμπερασματικά, βλέπουμε πως υπάρχει μία ποικιλία τεχνικών διαχείρισης των web robots, οι οποίες μπορούν να χρησιμοποιηθούν και σε συνδυασμό μεταξύ τους, ανάλογα με τα κριτήρια διαχείρισης.

/ Αυτό το έγραψα στις 20/09/2008 (03:23:28) /