Mi történt?
FONTOS: ha nincs időd végigolvasni, a legfontosabb tudnivalókat itt találod (és ezt olvasd is végig)
Sziasztok!
Rendhagyó cikk ez, 25 év alatt sok nehézségen verekedtük már át magunkat, de a múlt keddi, amikor is adatbázisszerverünk egy meghibásodás miatt összeomlott és a könyvtárstruktúráig sérült, mindent visz. Mivel a helyreállítás még mindig minden energiánk elviszi, ezért ebben a cikkben két dolgot tudtunk csak nagyon gyorsan megtenni:
- Belinkeljük a legfontosabb tudnivalók oldalt, hogy azonnal információhoz juthassatok itt és most!
- Bemásoljuk a Prohardver Facebook oldalára írt #log jellegű posztokat a következő oldalakon, mint a az elmúlt hét krónikáját
Következzék akkor időrendben haladva a múlt hét, kezdve a teljes tanácstalanságtól, majd a helyzet megismerésén át a keserű realitásokig, végül az egy hétnyi non-stop küzdés után a tegnap esti újraindulásig. A dátumokra figyeljetek, mert az adott pillanatnyi lelkiállapot azért biztosan nem a türelmességet segítette stb.
Még annyit, hogy lezso a sírból hozta vissza ezt a meccset. Tényleg. Jópár régi kolléga is segített, de amit lezso futott az elmúlt 7 napban, abból filmet kéne csinálni, ha nem lenne dögunalmas. Az üzemeltetéssel kapcsolatban azonnal levontuk a konzekvenciákat, folyamatban van már a teljes váltás, sokkal robusztusabb, profibb, hibatűrőbb rendszerre állunk át. Az egész elmúlt egy hét kellemetlenségekért, az adatvesztésért és a jelenlegi lassú rendszerért is újra, “ZIP”-elve is elnézést kérünk. 🙁
Tudom, hogy senkit sem vigasztal önmagában, inkább csak mint ex-hc assemblys mondom technikai érdekességként, hogy az ilyen mértékű low-level adatmentés egy ilyen komplexitású, 500+ GB méretű SQL adatbázisnál nagyon-nagyon nem triviális.
Hirdetés
PROHARDVER!
July 22 at 10:12 PM
·
Update: Az egyik szerverünkön egy komolyabb összeomlás volt, jelenleg úgy látszik, hogy hardveres problémából kifolyólag. Ennek az összeomlásnak a következményeit mérjük fel és próbáljuk helyreállítani (mentés van, de ugye előbb kellene alá a stabil hardver is). Sajnos ez tovább tart annál, mint amit szeretnénk - természetesen számunkra is rendkívül fontos, hogy úrrá legyünk ezen a problémán, szóval ezerrel dolgozunk rajta, viszont bővebb infóval csak holnap tudunk szolgálni 🙁
PROHARDVER!
July 23 at 3:44 PM
·
Sziasztok!
Gyors helyzetjelentés, sajnos semmi igazán lelkesítőt nem tudunk írni:
- az adatbázisszerveren hardveres hiba lépett fel, ami jelenleg úgy fest, hogy a februárban upgrade-elt processzorhoz köthető
- ez a hiba magával rántotta a teljes adatbázist, a könyvtárstruktúra is sérült
- a hardveres rendszert sem tudtuk helyreállítani mostanáig, eleinte jónak tűnt, de aztán a recovery-be is beleborult 🙁
- visszakerült a régi cpu, és most tűnik először stabilnak a gép
- telepítődik a rendszer, másolódnak az adatok (egy-egy rész másolása is 4-5 óra)
- ha minden fent van, utána tudjuk csak elkezdeni megnézni, hogy az elvileg meglévő adatok gyakorlatilag is megvannak-e, tényleg minden el tud indulni stb.
Sajnos ezen a ponton biztosra kizárni az adatvesztést nem tudjuk (de reméljük, hogy elkerüljük), ahogy azt sem, hogy mikor lesz ebből újra működő lapcsalád. Ma nem túl valószínű. 🙁
Nagyon sajnáljuk! 🙁
Update: látjuk a rosszindulatú feltételezéseket, "legyen végetek" jellegű kommenteket, "én otthon fél nap alatt egy Pentium 2-n megoldom" vonalat is. Ezekre nem fogunk reagálni, nem nagyképűségből, hanem mert nincs rá erő és értelme sincs. Cikk az egészről lesz majd, csak tartsunk már ott...
Július 26.: az első teljes beszámoló
PROHARDVER!
July 26 at 8:38 PM
·
Sziasztok!
Lassan konkrétumokat is tudunk írni, ahogy egyre jobban látjuk, hogy mi mindenünk van, és mi mindenünk nincs. Tudjuk, hogy rengetegen szerettetek volna minél hamarabb minél többet tudni, de amíg nem sikerült stabilizálni a vasat és a környezetet, illetve nem tudtuk elég alaposan felmérni a fájlokat, adatokat, mi magunk sem tudtuk pontosan – a saját, megalapozatlan tippjeinket pedig nem szerettük volna megírni, azok közül számos nem is jött volna be.
Maga a szerverpara természetesen több szempontból is nagyon rossz pillanatban ért minket: a rendszergazda egy országos esemény komplett technikai backendjén dolgozott látástól-mikulásig már napok óta és még napokig. Jómagam (Parci) öt kamaszodó gyereket táboroztattam a Balatonon épp, ahonnan egyszerűen nem tudtam eljönni, minden akaratom ellenére sem. Az időközben a segítségünkre siető, a mentésbe bekapcsolódó hazai adatbázis guruk is mind valahol nyaraltak. Az első nap a géphez való fizikai eljutás is problémába ütközött.
Amíg a sérült rendszer nem volt stabil (nem az általános stabilitást értve ezalatt, hanem hogy egyáltalán most használható legyen), semmit sem tudtunk csinálni és minden létező erőforrást ide allokáltunk. Igen, lehetett volna, szerettünk volna többet kommunikálni, de se kapacitásunk nem volt egy “live feedhez”, se érdemi infónk nem volt, hogy mit mondhatunk, a baj akkora volt, hogy a jogos kíváncsiság/aggodalom kielégítését azokra a napokra jobb híján elengedtük.
Mivel párszor elhangzott, hogy hülyének nézzük a felhasználókat, nevetségesek vagyunk, egyáltalán nem értünk hozzá és miért nem vesszük végre tudomásul, hogy v-é-g-e, egyetlen alkalommal kitérnék erre a vonalra is (többet és kommentben nem fogunk):
- nincs kapacitásunk kommentharcolni, nem is lesz, hiába látjuk az olykor egész extrém teóriákat, vagy az olykor nettó rosszindulatot, kárörömöt. Nem azért hallgatunk, mert beleegyezünk, hanem azért, mert nincs erre allokálható energiánk. A mondanivalónk úgy is azoknak szól, akik szeretnék még használni a szolgáltatást.
- amint van megosztanivaló infónk, megosztjuk, beleértve a számunkra nem hízelgő dolgokat is. Az elmúlt 25 évben eddig is így tettünk, ellentétben a vérvádakkal.
- nem, a TB nagyságrendű adatbázisunk nem futott volna el egy desktop i7-ről (64 magos enterprise procink van… volt… csak hát az meg - valószínűleg nem önmagában, hanem az alaplappal tandemben - nem tette meg azt a szívességet, hogy leállt, hanem működött, néha hibásan, és szétverte az adatokat a könyvtár struktúrával bezárólag az adatbázis-szerveren).
- egyáltalán nem mentegetendő a felelősségünk, de az elmúlt napokban kis túlzással a fél IT szakma, az elmúlt 25 év sok-sok kollégája, versenytársa, ismerőse hívott minket, kivétel nélkül mind azért, hogy elmondják, hogy pontosan ismerik így vagy úgy a helyzetet saját tapasztalatból, őszinte részvétük, minden IT-üzemeltető rémálmaként ellenségüknek sem kívánják, és hogy hogyan tudnak segíteni. Súlyos technikai gondok nálunk több nagyságrenddel nagyobb cégeknél is voltak, vannak és lesznek.
- noha többek fejében egy nagy cég vagyunk, igazából egy mára nagy rendszert üzemeltető kis cég vagyunk, limitált erőforrásokkal. Sima közgazdasági matek, hogy azt a fajta robusztusságot nem tudjuk nyújtani, mint a nagy cégek. Ez nem azt jelenti, hogy most a mentésben nem segítenek a legjobb szakemberek (önkéntes alapon, amiért végtelenül hálásak vagyunk és köszönjük ezúton is), de azt igen, hogy az alap infrastruktúránk lehetett volna jobb, akár sokkal jobb.
- nem szeretnénk tudomásul venni, hogy végünk. Lehet, hogy végünk lesz, lehet, hogy ezért lesz végünk, számos okból lehet végünk, az élet már csak ilyen, hogy minden véges… de, amíg itt vagyunk, és amíg emberek örülnének annak, ha visszakapnák kedvelt felületeiket, tisztelettel küzdeni szeretnénk és fogunk is.
- nem gondoljuk, hogy nevetségesek volnánk, azt sokkal inkább, hogy a mai internet toxikussága egészen biztosan nem tartozik az erényei közé.
- megértjük az informálás iránti igényt, igyekszünk is neki megfelelni, és ahogy megyünk előre az időben, egyre több infóval tudunk majd jelentkezni. Valóságsót, live streamet nem tudunk csinálni.
És akkor az érdemi infók, amit jelenleg tudunk/gondolunk:
- ami elromolhat, az most tényleg mind elromlott 🙁 (egy példa: recovery közben is újraindult a vas)
- az adatbázis szerver olyan mértékig korrumpálódott (a schema is, könyvtárstruktúra is, data+wal fájlok is, minden), hogy nem tudjuk maradéktalanul helyreállítani, biztosan lesz adatvesztés.
- messze a legfájóbb pont, hogy a mentéseinkből is csak az használható közvetlenül, amit az automata mentésen felül kézzel is leszedtünk saját magunkhoz, mert a mentések is korrumpálódtak.
- ez az offline mentés az új címlap és a Gamepod + IT café Prohardverbe olvadása ELŐTTI közvetlen állapot: 2025.04.30.
- az adatbázisból rengeteg fragmentum fájl rendelkezésre áll, de ezekből az adatok csak részlegesen nyerhetők vissza, sok adat nem, és egy-egy tábla ilyen részleges helyreállítása is napok (hetek). Ezek vizsgálata már legalább két napja tart, rengeteg módon lehetne adatot visszanyerni egy sérült adatbázisból, ehhez rengeteg segítséget is kapunk és sikerül is egyre inkább végigjárni minden lehetőséget (sajnos: lassan minden opcióból kifogyunk).
- talán a legnagyobb eséllyel a hozzászólások és a privát üzenetek menthetők.
- a site-okat el fogjuk tudni indítani, maga a kód teljesen sértetlen, a működést maradéktalanul vissza tudjuk állítani, de sok olyan bejegyzés, komment, hirdetés, teszt, hír hiányozni fog az elmúlt 3 hónapból, ami korábban ott volt.
- a rangok, értékelések a legrosszabb esetben is az április végi állapotot fogják tükrözni, de jó eséllyel ebben tudunk előrelépni.
- a teljes technikai hátteret átalakítjuk. A közvetlen tűzoltás és az adathiány miatt jelentkező hibák kezelése még le fogja kötni minden időnk egy darabig, addig gyakori belassulások várhatók.
- a downgrade-elt szerverünk most látszólag stabil, de nem bízunk már benne, sürgősen el szeretnénk hagyni, ugyanakkor szeretnénk mihamarabb indulni is. Keressük az áthidaló megoldást, aminek szintén lehetnek kockázatai (de ezek legalább tervezettebbek).
Menetrend: lépcsős újraindítás tűnik reálisnak, és hétfőig mindenképp szeretnénk elindítani “valamit” az oldal 3 fő pilléréből:
- Fórum (közös)
- Tartalom (Prohardver, Mobilarena, Logout),
- Apróhirdetések (Hardverapró).
A tervezett sorrend is ez, de ez csak terv, mert nagymértékben függ attól, hogy melyik rész milyen gyorsan állítható helyre, hol van a legnagyobb, de időben beleférő esély adatot menteni (és jellemző momentum, hogy eredetileg a tartalmat akartuk előrevenni és egy órája is még azt gondoltuk, hogy azzal kezdünk). Mindenesetre túl sokat nem tudunk egyik pillér adatmentésére sem várni, hiába tudnánk még némi adatot kinyerni a szerveren maradt fájl-masszából, ha az két hétig tart. Onnantól pedig, hogy újraindítottuk az adott táblákat és kerülnek bele új adatok, a régieket visszahelyezni inkább csak elméleti, mint valódi opció a sok ilyen-olyan reláció miatt.
Egy-egy élesítés után pár nappal a következőt is szeretnénk, ennyi idő van plusz adatokat menteni. Ezen a ponton ezer forgatókönyv forog a fejünkben, de egy biztos: az elmúlt 25 év legnagyobb technikai kihívása ez számunkra, ami a méreténél fogva kihívás az egész cégnek, az egész lapcsaládnak. Sajnos a rosszabb forgatókönyvek sem zárhatók ki teljesen, de egyrészt mindent megteszünk, hogy felálljunk ebből, másrészt sokat gondolkodunk rajta, hogy ha így lesz, milyen kisfőnix emelkedik majd ki a romokból.
Szeretnénk megköszönni a sok bátorítást, emailt, telefont, lelkesítő kommentet, ezek komoly szerepet játszottak abban, hogy mostanra, bármilyen nagy is a baj, a pánik, döbbenet és elkeseredés helyett a jelen lehetőségeinkbe szorítva is előre nézzünk és megoldani akarjunk!
Végszóként pedig álljon itt egy régi kollégánk tegnapi üzenete: “Számomra az életem egyik legjobb szakaszát (is) jelentette a PH, és azóta is része. Teljesen biztos vagyok benne, hogy ha valaki, akkor ti ki tudtok ebből jönni, és bármi is megy a levesbe, helyébe új, értékes tartalom kerül.”
Július 28.: update
PROHARDVER!
July 28 at 5:01 PM
·
Sziasztok!
Gyors helyzetjelentés: a részlegesen helyreállított adatokkal működik minden, konzisztens az adatbázis, ma már az élesítendő teljes rendszert teszteltük házon belül. A lépcsős indulási forgatókönyvet is elsodorták a fejlemények, mindennel egyszerre indulunk újra, terv szerint holnap (07.29.) reggel/délelőtt. Típusonként változó mértékben, de mostanra kb. az adatok felét sikerült visszamentenünk – a reggeli rajt akkor csúszhat, ha az utolsó utáni pillanatban sikerül továbbiakat feltámasztani. Még a régi szerverkörnyezettel kezdünk (mínusz a proci), de a háttérben már készítjük elő az eddigi infrastruktúra teljes (és gyors) cseréjét.
Július 29.: a rajt
PROHARDVER!
Yesterday at 10:30 AM
·
Init, dump, restore, snapshot, copy, check, test, revert …
Még legalább két óra (felső limit nincs, bármelyik update-nél előfordulhat, hogy tíz perc helyett egy óráig tart), mire “minden” készen áll, addig is jövünk a legfontosabb tudnivalókkal, mert biztos, hogy nem fogunk tudni minden kérdésre egyesével válaszolni.
A(z új) kiindulópont:
- a Prohardver, Mobilarena, Logout, Hardverapró site-ok motorja egyetlen, egységes adatbázisban van
- ebben az adatbázisban van tehát az összes regisztráció, topik, hozzászólás, privát üzenet, apróhirdetés, értékelés, hír, teszt, logout anyagok, minden
- ez az adatbázis sérült, minden elemében, tehát nincs olyan része, ami nem, és önmagában nem is lenne helyreállítható
- egy április 30-i teljes mentésre alapozva viszont már tudtunk adatokat visszanyerni a szétrombolt fájlrendszerből, típusonként, változó sikerrel (a visszaállítás sikeressége függött a típus méretétől, módosítási gyakoriságától, stb.)
- ezekkel a pluszban kinyert adatokkal bővítettük az április 30-iakat.
Mindebből következik, hogy az április 30-án már meglévő adatok maradéktalanul megvannak, és ehhez jön hozzá még mindaz, amit sikerült low-level adatmentéssel a széthullott fájlokból összeszedni. Az összeomlás utáni állapothoz képest egyébként ez egy kisebb csoda, de sajnos a helyzet akkor is marad az, hogy nagy mennyiségű adat sérült és nem helyreállítható.
Tehát NEM helyreállítható 😢 az összes, április 30-a után:
- feladott apróhirdetés
- felrakott hír, teszt és logout anyag
- indított fórumtopik
- email- és jelszómódosítás (tehát az április 30-a előtti jelszó/email párossal kell belépni)
Ebből a tesztek egy részét később vissza tudjuk tölteni, mert megvannak a szerzőknél is, a bennük lévő képek pedig nem sérültek (azok a webszerveren vannak, amit nem érintett a hiba). Nagyon kevés remény arra is van, hogy indulás után mégis sikerül további adatokat kipréselnünk a fájlerdőből – most nem volt rá végtelen időnk, de utána a háttérben jobban lesz.
A Hardverapró teljes hidegindítással, üresen fog indulni: nem jeleníthetjük meg az április 30-a előtt feladott hirdetéseket sem, hiszen ezek már elkelhettek, aktualitásukat veszthették stb. Viszont a saját hirdetéseinek admin felületén mindenki eléri a saját hirdetéseit: szerkesztheti és újra aktiválhatja is őket!
A Hardveraprón és az előfizetéseknél természetesen kompenzálni fogjuk a kiesett időt, amint tudjuk! Ehhez némi türelmet kérünk, és a részletekkel külön is jelentkezünk majd. 😵💫
Emellett készülünk újraindítási akcióval is!
Változó mértékben, de sikerült helyreállítani az alábbi adatokból (“új” = “április 30-a utáni”):
- meglévő topikok új hozzászólásai
- új privát üzenetek
- új regisztrációk
- új értékelések (ez jórészt menthető volt)
Elveszett apróhirdetéshez tartozó értékelésnél (vagy privát üzenetnél) “Törölt hirdetés” látszik majd. A lapcsalád portáljai funkcionalitást tekintve ugyanúgy működnek majd mint eddig, viszont az adatvesztés egy darabig még szembejön majd. Ha bármi hiányzik vagy nem úgy működik, ahogy kéne, kérünk, hogy először mindig gondold végig az itt leírtakat (és persze jönnek majd még további tájékoztatók, már a portálokon).
Igyekszünk persze a külön kérdésekre is válaszolni, ahogy a csövön kifér, de ne felejtsétek, hogy ti (szerencsére) sokan vagytok, mi pedig kevesebben. 🙂
A lényeg, hogy lehetőségeinkhez mérten minden problémát meg fogunk oldani, ahogy mindig is tettük!
Örülünk, hogy itt vagytok! 🙂