Handboek Webscraping met Python, 2e editie

Handboek Webscraping met Python, 2e editie

Meer gegevens op het moderne web verzamelen

Uitvoering
Boek, paperback, zwart-wit, 336 pagina's
Auteur
ISBN
9789463561006
Gepubliceerd
2019
Serie
€ 39,99

Handig om te weten: van dit boek is een webversie beschikbaar. Als u zich registreert, krijgt u gratis toegang, plus relevante extra’s.

Programmeren is magie, maar webscrapen is een vorm van tovenarij. Met een eenvoudig geautomatiseerd programma kunt u webservers bevragen, gegevens ophalen en analyseren om daar de benodigde informatie uit te halen. De uitgebreide editie van dit praktische boek laat u niet alleen kennismaken met webscrapen, maar is tevens een gids voor het scrapen van bijna alle soorten gegevens van het moderne web.

In deel I concentreren we ons op de techniek van het webscrapen met behulp van Python om informatie van een webserver op te vragen. We gaan hier dieper in op de afhandeling van de serverrespons en een geautomatiseerde manier om met sites te communiceren. In deel II onderzoeken we een aantal specifiekere tools en toepassingen die geschikt zijn voor elk webscrapescenario waar u waarschijnlijk mee te maken krijgt.

  • Ontleden van gecompliceerde HTML-pagina's
  • Ontwikkelen van crawlers met het Scrapy-framework
  • Opslagmethoden voor gescrapete gegevens
  • Documenten lezen en daar gegevens aan onttrekken
  • Opschonen en normaliseren van slecht geformatteerde gegevens
  • Natuurlijke talen lezen en schrijven
  • Door formulieren en log-ins crawlen
  • JavaScript scrapen en door APl's crawlen
  • Afbeelding-naar-tekstsoftware schrijven en gebruiken
  • Scrapevalkuilen en botblokkers vermijden
  • Uw website testen met scrapers

"Dankzij de tools en voorbeelden in dit boek kon ik meerdere zich herhalende taken gemakkelijker automatiseren zodat ik meer tijd over had voor interessantere problemen. Het is een resultaatgericht, goed leesbaar boek dat diep geworteld is in echte problemen en oplossingen."

  • Eric VanWyk, Electrical Computer Engineer, Olin College of Engineering
Downloadbare bestanden
Wis filter
  • Ryan Mitchell

    Ryan Mitchell is senior software engineer bij HedgeServ in Boston waar ze de API s en data-analysetools van het bedrijf ontwikkelt. Ze is afgestudeerd aan het Olin College of Engineering en heeft een master in software engineering en een certificaat in...
    Mitchell M

Handboek Webscraping met Python, 2e editie

1
Uw eerste webscraper
Verbinding maken
Een inleiding tot BeautifulSoup
2
Geavanceerde HTML-parsering
Je hebt niet altijd een botte bijl nodig
Nog een bord BeautifulSoup
Reguliere expressies
Reguliere expressies en BeautifulSoup
Toegang tot attributen
Lambda-expressies
3
Webcrawlers schrijven
Een enkel domein doorkruisen
Een hele site crawlen
Crawlen over internet
4
Webcrawlingmodellen
Objecten plannen en definiëren
Omgaan met verschillende websitestructuren
Crawlers structureren
Nadenken over webcrawlermodellen
5
Scrapy
Scrapy installeren
Een eenvoudige scraper schrijven
Spideren met regels
Items maken
Items als output
De item-pipeline
Loggen met Scrapy
Meer hulpmiddelen
6
Gegevens opslaan
Mediabestanden
Gegevens opslaan in CSV
MySQL
E-mail
7
Documenten lezen
Documentcodering
Tekst
CSV
PDF
Microsoft Word en .docx
8
Uw vuile gegevens opschonen
Opschonen met code
Achteraf opschonen
9
Natuurlijke talen lezen en schrijven
Gegevens samenvatten
Markov-modellen
Natural Language Toolkit
Aanvullende bronnen
10
Door formulieren en logins crawlen
Python’s Requests-bibliotheek
Een formulier verzenden
Keuzerondjes, selectievakjes en andere invoermogelijkheden
Bestanden en afbeeldingen verzenden
Logins en cookies afhandelen
HTTP basic access authentication
Andere problemen met formulieren
11
JavaScript scrapen
Een korte introductie op JavaScript
Ajax en Dynamic HTML
Redirects verwerken
Een afsluitende opmerking over JavaScript
12
Crawlen door API’s
Een korte inleiding op API‘s
JSON parseren
Ongedocumenteerde API‘s
API’s combineren met andere gegevensbronnen
Meer over API‘s
13
Beeldverwerking en tekstherkenning
Inleiding
Overzicht van bibliotheken
Goed geformatteerde tekst verwerken
CAPTCHA’s lezen en Tesseract trainen
CAPTCHA’s ophalen en oplossingen indienen
14
Valkuilen ontwijken
Een opmerking over ethiek
Eruitzien als een mens
Veel voorkomende formulierbeveiligingsfuncties
De menselijke checklist
15
Uw website testen met scrapers
Een inleiding tot testen
Python unittest
Testen met Selenium
unittest of Selenium?
16
Parallel webcrawlen
Processen versus threads
Multithreaded crawlen
Multiprocess crawlen
Multiprocess crawlen: een andere aanpak
17
Extern scrapen
Waarom externe servers gebruiken?
Tor
Extern hosten
Aanvullende bronnen
18
De juridische en ethische aspecten van webscrapen
Handelsmerken, auteursrechten, patenten, o jee!
Schending van roerende zaken
De Computer Fraud and Abuse Act
Robots.txt en gebruiksvoorwaarden
Drie zaken rond webscraping
Wat in het verschiet ligt...
Index