Τα είδη των web robots

Είδαμε σε προηγούμενο κείμενο τι είναι τα web robots ή crawlers ή spiders. Ουσιαστικά πρόκειται για λογισμικό που αυτόματα επισκέπτεται ιστοσελίδες και εκτελεί κάποιες ενέργειες, ανάλογα με το είδος του. Ας δούμε, λοιπόν, ποια είναι τα βασικότερα είδη των web robots.

1. Καταρχήν, έχουμε τα robots των μηχανών αναζήτησης, τα οποία αποτελούν βασικό στοιχείο στην λειτουργία των μηχανών αναζήτησης.

2. Ένα δεύτερο είδος, είναι τα robots που απλά ψάχνουν updates σε ιστοσελίδες π.χ. σε RSS Feeds, και τέτοια robots μπορεί να χρησιμοποιούν οι διάφοροι aggregators ή άλλες online υπηρεσίες (Feedburner, Technorati κ.α).

3. Ένα τρίτο είδος είναι τα spam robots, τα οποία μπορούν να χωριστούν σε δύο κατηγορίες:

α) Τα robots που συλλέγουν διευθύνσεις email που βρίσκονται εκτεθειμένες σε ιστοσελίδες, προκειμένου να δημιουργηθούν λίστες διευθύνσεων στις οποίες αργότερα θα αποστέλλεται ανεπιθύμητη αλληλογραφία (spam email) και

β) Τα robots που προσπαθούν να υποβάλλουν (submit) δεδομένα (π.χ. spam links) σε φόρμες εισαγωγής δεδομένων που υπάρχουν μέσα στις δυναμικές ιστοσελίδες.

4. Ένα τέταρτο είδος είναι τα "hack" robots, τα οποία προσπαθούν να ανακαλύψουν κενά ασφαλείας σε δυναμικές ιστοσελίδες, προσπαθώντας να κάνουν διάφορες ενέσεις (injections) κώδικα στην ιστοσελίδα.

5. Ένα πέμπτο είδος web robots είναι αυτά που κάνουν κάποιο είδος έρευνας στις ιστοσελίδες, προκειμένου να μπορούν να παρέχουν οι διαχειριστές τους κάποιες υπηρεσίες όπως π.χ. η σύγκριση κάποιων δεδομένων ανάμεσα σε διαφορετικές ιστοσελίδες κλπ.

Υπάρχει λοιπόν ποικιλία στα είδη και τις προθέσεις των web robots, και με μία πιο γενική κατηγοριοποίηση θα μπορούσαν να διαχωριστούν ως εξής:

α) καλά web robots, αυτά από τα οποία μπορεί η ιστοσελίδα να έχει κάποιο όφελος
β) κακά web robots, αυτά τα οποία έμμεσα ή άμεσα μπορούν να προκαλέσουν ανεπιθύμητα συμβάντα.
γ) αδιάφορα web robots, αυτά που δεν έχουν κάποιο κακό σκοπό, αλλά από τα οποία δεν υπάρχει και κάποιο όφελος για την ιστοσελίδα.

Γι' αυτό, ειδικά όταν πρόκειται για μεγάλου όγκου ιστοσελίδες, είναι σημαντικό να γίνεται σωστή διαχείριση τους. Δηλαδή, να πραγματοποιούνται οι κατάλληλες ενέργειες ώστε να επιτρέπεται η πρόσβαση στην ιστοσελίδα σε όσα web robots είναι καλοδεχούμενα και να αποκλείεται η πρόσβαση σε όσα web robots είναι ανεπιθύμητα ή αδιάφορα.

/ Αυτό το έγραψα στις 20/09/2008 (21:32:10) /