Semalt: Ο Οδηγός αποξήρανσης HTML - Κορυφαίες συμβουλές

Το περιεχόμενο ιστού είναι κυρίως σε δομημένη ή HTML μορφή. Κάθε σελίδα οργανώνεται με τον μοναδικό της τρόπο ανάλογα με το είδος του περιεχομένου σε αυτήν. Εάν κάποιος θέλει να εξαγάγει πληροφορίες ιστού, είναι επιθυμία κάθε ατόμου να λάβει τα δεδομένα με δομημένο και καλά οργανωμένο τρόπο. Αυτό θα βοηθήσει στην εξοικονόμηση χρόνου που απαιτείται για την αναθεώρηση, την ανάλυση και την οργάνωση του εγγράφου προτού το κοινοποιήσετε. Ωστόσο, η λήψη της δομημένης μορφής δεν είναι εύκολη, καθώς οι περισσότεροι ιστότοποι δεν προσφέρουν αυτήν την επιλογή για να αποτρέψουν τα άτομα από την εξαγωγή μεγάλων ποσοτήτων δεδομένων. Ορισμένοι ιστότοποι, ωστόσο, παρέχουν τα API που παρέχουν στους χρήστες την επιλογή εξαγωγής πληροφοριών σε μια γρήγορη και εύκολη διαδικασία.

Σε τέτοιες εκδηλώσεις, δεν θα έχετε άλλη επιλογή από το να χρησιμοποιήσετε τη βοήθεια ενός προγραμματισμού λογισμικού γνωστού ως scraping. Πρόκειται για μια προσέγγιση που χρησιμοποιεί πρόγραμμα υπολογιστή που βοηθά τους χρήστες να συλλέγουν πληροφορίες σε χρήσιμη μορφή και να διατηρούν τη δομή των δεδομένων.

Lxml και Αίτημα

Πρόκειται για μια ευρεία βιβλιοθήκη απόξεσης που βοηθά στην γρήγορη ανάλυση και αξιολόγηση XML και HTML και βοηθά στην εξοικονόμηση χρόνου. Είναι επίσης χρήσιμο στην αντιμετώπιση των χαλασμένων ετικετών στη διαδικασία ανάλυσης. Σε αυτήν τη διαδικασία, χρησιμοποιείτε αιτήματα Lxml αντί για το ενσωματωμένο urllib2, καθώς είναι πιο γρήγορο, ανθεκτικό και άμεσα διαθέσιμο. Είναι εύκολο να το εγκαταστήσετε χρησιμοποιώντας τα αιτήματα εγκατάστασης pip Lxml και pip.

Για το ξύσιμο HTML ακολουθήστε αυτά τα βήματα

Ξεκινήστε με εισαγωγές - εδώ εισάγετε HTML από Lxml και μετά εισαγάγετε αίτημα. Χρησιμοποιήστε το αίτημα και, στη συνέχεια, εντοπίστε την ιστοσελίδα που περιέχει τα δεδομένα που θέλετε να εξαγάγετε, αναλύστε την με ενότητα HTML και, στη συνέχεια, αποθηκεύστε τα αναλυμένα δεδομένα στο δέντρο.

Θα χρειαστεί να χρησιμοποιήσετε το περιεχόμενο της σελίδας και όχι το κείμενο, καθώς το HTML αναμένει να λάβει την εισαγωγή σε byte. Το δέντρο, όπου αποθηκεύσατε τα αναλυμένα δεδομένα σας περιέχει τώρα το έγγραφο HTML σε μια δομή δέντρου. Μπορείτε να δείτε τη δομή του δέντρου με διαφορετικές προσεγγίσεις, το XPath και το CSSelect.

Το XPath σάς βοηθά να ανακτήσετε πληροφορίες ή να τις αποκτήσετε σε δομημένη μορφή όπως HTML ή XML. Υπάρχουν διάφοροι τρόποι με τους οποίους μπορείτε να λάβετε τα στοιχεία XPath. Αυτά περιλαμβάνουν το Firebug for Firefox ή το Chrome Inspector. Όταν χρησιμοποιείτε το Chrome, η επιθεώρηση πληροφοριών είναι εύκολη, αφού χρειάζεται μόνο να κάνετε «δεξί» κλικ στο στοιχείο που απαιτεί επιθεώρηση, επιλέξτε «Επιθεώρηση στοιχείου», επισημάνετε τον παρεχόμενο κώδικα και, στη συνέχεια, κάντε δεξί κλικ και επιλέξτε αντιγραφή XPath. Αυτή η διαδικασία θα σας βοηθήσει να γνωρίζετε ποια στοιχεία περιέχονται στη σελίδα σας και από εκεί, είναι εύκολο να δημιουργήσετε το σωστό ερώτημα XPath και να εφαρμόσετε σωστά το Lxml XPath.

Η παρακολούθηση αυτών των βημάτων διασφαλίζει ότι έχετε αποκόψει όλα τα δεδομένα που θέλετε να εξαγάγετε από έναν συγκεκριμένο ιστό χρησιμοποιώντας Lxml και Requests. Θα έχετε τις πληροφορίες αποθηκευμένες σε μνήμη δύο λιστών και τώρα είναι έτοιμες για ταξινόμηση. Μπορείτε να το αναλύσετε χρησιμοποιώντας μια γλώσσα προγραμματισμού όπως το Python ή να το αποθηκεύσετε και να το μοιραστείτε. Επίσης, μπορεί να θέλετε να ξαναγράψετε ή να επεξεργαστείτε ορισμένα τμήματα των πληροφοριών πριν τα μοιραστείτε.