Skraap.Net vorderingsverslag(tm)

Die geskraap vorder goed. Tot dusver is 105,859 HTML-bladsye vanaf 226 blogs geskraap (die gemiddelde Afrikaanse blog het in teorie dus 468 bladsye) in 'n somtotaal van ongeveer 5.45 GB:

skraap

Dis belangrik om te onthou dat baie van hierdie bladsye duplikaat-inligting bevat. WordPress blogs (tot al LitNet se data in is, by verre die meerderheid) se permalink-struktuur is byvoorbeeld daarvoor verantwoordelik dat hierdie bladsy vandag rofweg dieselfde inligting as my tuisblad bevat. Daar is dus nie 105,859 inskrywings nie, maar eerder bloot 105,859 bladsye HTML.

Terwyl ek met hierdie eksperiment besig is, kry ek ongelooflik baie respek vir die ouens van Afrigator. Die aantal data wat hulle moet rondskuif, moet ongelooflik baie wees. Ek sal nogal wat wil gee om hulle setup te sien. (Ek wil nie eers probeer dink wat Google doen nie.)

As jy nog nie jou blog se adres ingedien het nie, doen so vinnig moontlik so! As jy reeds het: baie dankie vir jou tyd en moeite :-)

…en as jy Apple is, het ek eintlik minder data as wat ek regtig het. Riiiight…

This entry was posted in Matieland and tagged , , . Bookmark the permalink. Post a comment or leave a trackback: Trackback URL.

Post a Comment

Your email is never published nor shared. Required fields are marked *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>