(Automatisch) search results downloaden
25 juli 2025 - 21:33   
geplaatst door: ScottyNL
Een search op een (genealogie) website levert vaak meer dan 50 pagina's op. Die wil ik allemaal downloaden om offline te analyseren - offline webscraping zou je kunnen zeggen. Omdat te doen moet ik handmatig voor iedere pagina SAVE AS gebruiken, een naam opgeven (want anders wordt de pagina steeds overschreven) en dan op de results pagina de volgende pagina kiezen.

Dit moet te automatiseren dacht ik, maar ik heb niets kunnen vinden in AUTOMATOR of in SHORTCUTS. In Automator heb ik geprobeerd met RECORD functie iets te maken maar het resultaat was teleurstellend - hij deed het niet :(
Iemand een brilliant idea hoe dit aan te pakken?
(Automatisch) search results downloaden
25 juli 2025 - 21:52    reactie #1
geplaatst door: nnsa
Waarom doe je dit niet via de Print functie en dan printen als PDF ?

Of:

https://apps.apple.com/nl/app/sitefetcher-site-downloader/id1398940694?mt=12
Ⓒnnsa(i)-2025
(Automatisch) search results downloaden
25 juli 2025 - 23:01    reactie #2
geplaatst door: Seagram
Heb geen directe oplossing voor je probleem.
Maar denk dat je je zoek parameters moet verfijnen tijdens het zoeken.
50 pagina’s met zeg 10 resultaten per pagina zijn 500 aktes die je moet bekijken. Dat is niet te doen.
(Automatisch) search results downloaden
26 juli 2025 - 10:49    reactie #4
geplaatst door: ScottyNL
Bedankt voor het meedenken.
De website search pagina's zijn niet statisch maar worden gevuld vanuit een database met census data uit (bijv) 1871 dus zoiets als sitesucker gaat niet werken vermoed ik.
Ik analyseer de resultaten door met python eerst op html tags te filteren en dan op verschillende manieren sorteren om verbanden (zoals families) te kunnen herkennen. Als ik de resultaten in PDF's zou bewaren wordt dat moeilijker en de gegevens te filteren.
Wat ik zoek is meer een manier op in een loop {save met name, next page} te kunnen definiëren. Misschien dieper in python duiken of dat te doen is.
(Automatisch) search results downloaden
26 juli 2025 - 11:18    reactie #5
geplaatst door: boiing
Als je toch al python gebruikt kun je daarmee ook rechtstreeks de pagina binnenhalen. Pagina 2 en verder kiezen moet dan ook wel lukken.

Heb je ChatGPT al gevraagd? Die is verrassend behulpzaam bij dit soort dingen.

(PS: vaak is er een optie op websites met zoekresultaten om het aantal items per pagina in te stellen, of alles tegelijk..)
The amount of energy needed to refute bullshit is an order of magnitude bigger than that needed to produce it (Brandolini's Law)
(Automatisch) search results downloaden
26 juli 2025 - 12:09    reactie #6
geplaatst door: mcmt
Ik heb een paar keer gebruik gemaakt van Selenium. Biedt veel mogelijkheden. Heeft bijv. een API die je vanuit Python kan aanspreken. Heeft misschien een wat hogere leercurve dan nodig hier.
(Automatisch) search results downloaden
28 juli 2025 - 16:02    reactie #7
geplaatst door: ScottyNL
@mcmt selenium is misschien wel een oplossing - maar je hebt gelijk, leercurve is inderdaad stijl te meer omdat de meeste voorbeelden zijn voor Firefox of Chrome en moeten worden aangepast voor Safari of anders gewoon niet (meer) werken.
Ik kom er wel steeds iets verder, gelukkig is er geen druk achter het vinden van een oplossing.