Keresés

Hirdetés

Új hozzászólás Aktív témák

  • -NoVa-

    őstag

    válasz Frawly #868 üzenetére

    Nem az egész adathalmon dolgozom, csak a kért témakupac html-ből. Ha kész a DB converter, akkor szintén felrakom, sima SQLiteDB outputot csinál.
    Maga a converter C++-ban ~300 sor lett, sok rekurzív függvény, egyszerű buta, nem kioptimalizált stringműveletek masszívan párhuzamosítva. Végigmegy az összes html-en a kiválasztott folderben, aztán max 16 magon intenzíven feldolgozza az egészet. Kényelmesen letérdelteti a 8 magos i7-et ~45 másodpercig.
    A 3.6GB-nyi ~30k darab html fileból csinál 680MB nyers főleg szöveges adatot memóriában. Témák, postok, benne lévő válaszok azonosíthatóan, követhetően, usernevek és avatarok linkje kigyűjtve. Az avatarokra írok még egy letöltő függvényt, a másik végéhez meg majd egy node.js-es website renderert, akkor vissza is lehet nézni közvetlen az adatbázisból. Szokásos módon szabadidőből, néha kicsit belenyúlva, úgyhogy nem ma lesz meg :).
    Ha kész, felrakom az egészet a google drive folderbe, aztán lehet community munkában menteni, aki amit akar.

Új hozzászólás Aktív témák