Skraap.Net vorderingsverslag(tm)
Die geskraap vorder goed. Tot dusver is 105,859 HTML-bladsye vanaf 226 blogs geskraap (die gemiddelde Afrikaanse blog het in teorie dus 468 bladsye) in ‘n somtotaal van ongeveer 5.45 GB:
Dis belangrik om te onthou dat baie van hierdie bladsye duplikaat-inligting bevat. WordPress blogs (tot al LitNet se data in is, by verre die meerderheid) se permalink-struktuur is byvoorbeeld daarvoor verantwoordelik dat hierdie bladsy vandag rofweg dieselfde inligting as my tuisblad bevat. Daar is dus nie 105,859 inskrywings nie, maar eerder bloot 105,859 bladsye HTML.
Terwyl ek met hierdie eksperiment besig is, kry ek ongelooflik baie respek vir die ouens van Afrigator. Die aantal data wat hulle moet rondskuif, moet ongelooflik baie wees. Ek sal nogal wat wil gee om hulle setup te sien. (Ek wil nie eers probeer dink wat Google doen nie.)
As jy nog nie jou blog se adres ingedien het nie, doen so vinnig moontlik so! As jy reeds het: baie dankie vir jou tyd en moeite
…en as jy Apple is, het ek eintlik minder data as wat ek regtig het. Riiiight…


Sou dit nie makliker wees om feeds te scan nie? Of mis ek iets?
Reply
Nie heeltemal nie. Ek soek die hele blog; feeds wys net recent posts. (Of mis ek nou weer iets?)
Reply
Dis waar. Ek kan maklik met Google Reader baie ver terug in 'n blog lees, maar ek weet nie of dit dalk net hulle eie caching is nie. Ek besef nounet ook dat feeds dikwels net 'n deel of opsomming van die post bevat.
Ek is nuuskierig oor hoe julle die bladsye skraap en deur al die teks filter vir inhoud. Gaan jy een of ander tyd oor die tegniek van die operasie ook blog?
Reply
Vir eers nog nie. Dis proprietary code.
Reply
Vir my klink dit net na 'n helse klomp werk
Reply
//Start of off topic rant
Enige iemand met ‘n halwe brein moet werklik besef dat apple’s cater vir mense wat onsaglik noob is. Met noob bedoel ek “frans” of “punk” i.t.v wat in meeste tronk kultuur aangaan. Enige iemand wat sê ‘n OS moet werk daarop dat ‘n gig 1000 mb is, moet ge word in die gesig in my nederige opinie.
Hulle het dit hoogs waarskynlik verander omdat die average apple user “mense” (imo het hulle minder chromosome as die average linux user) geneul het: Ek het ‘n 500gb HDD gekoop, hoekom wys dit ek het net 465gb *slit* enige iemand met ‘n fraksie van kennis oor hoe rekenaars werk (aan en af elektrisiteit seine 0 en 1, binary etc.) sal besef dat hard drive manufacturers vir jou ‘n HDD verkoop het met ongeveer 500,000,000,000 bytes en dit dan dienooreenkomstig market en dat die 500gb nie 536,870,912,000 bytes is nie, maar nee!
Ons koop apple en ons weet alles van rekenaars af want apple maak dit so maklik en hier staan dan nie 500GB as ek my rekenaar aanskakel nie.
“Ek deskrimineer nie teen mense wat apples gebruik nie, inteendeel ek het baie apple user vriende gehad tot my ouers hulle verkoop het.” ~ so ‘n ander ou.
Ek sê nie apple is boos, sleg of useless nie, inteendeel dink ek apple is ‘n uitstekende produk wat nog as dit beter bemark word, maar dit retard ‘n alklaar retarded demographic van mense wat nie baie cool is in my opinie nie.
//end of rant
Reply