Hirdetés

Miért álltak az oldalak egy hétig, mi történt?

2025.07.22-én adatbázisszerverünk összeomlott, maga alá temetve az egész rendszert egy hétre.

Mi történt?

FONTOS: ha nincs időd végigolvasni, a legfontosabb tudnivalókat itt találod (és ezt olvasd is végig)


Sziasztok!

Rendhagyó cikk ez, 25 év alatt sok nehézségen verekedtük már át magunkat, de a múlt keddi, amikor is adatbázisszerverünk egy meghibásodás miatt összeomlott és a könyvtárstruktúráig sérült, mindent visz. Mivel a helyreállítás még mindig minden energiánk elviszi, ezért ebben a cikkben két dolgot tudtunk csak nagyon gyorsan megtenni:

  1. Belinkeljük a legfontosabb tudnivalók oldalt, hogy azonnal információhoz juthassatok itt és most!
  2. Bemásoljuk a Prohardver Facebook oldalára írt #log jellegű posztokat a következő oldalakon, mint a az elmúlt hét krónikáját

Következzék akkor időrendben haladva a múlt hét, kezdve a teljes tanácstalanságtól, majd a helyzet megismerésén át a keserű realitásokig, végül az egy hétnyi non-stop küzdés után a tegnap esti újraindulásig. A dátumokra figyeljetek, mert az adott pillanatnyi lelkiállapot azért biztosan nem a türelmességet segítette stb.

Hirdetés

Még annyit, hogy lezso a sírból hozta vissza ezt a meccset. Tényleg. Jópár régi kolléga is segített, de amit lezso futott az elmúlt 7 napban, abból filmet kéne csinálni, ha nem lenne dögunalmas. Az üzemeltetéssel kapcsolatban azonnal levontuk a konzekvenciákat, folyamatban van már a teljes váltás, sokkal robusztusabb, profibb, hibatűrőbb rendszerre állunk át. Az egész elmúlt egy hét kellemetlenségekért, az adatvesztésért és a jelenlegi lassú rendszerért is újra, “ZIP”-elve is elnézést kérünk. 🙁

Tudom, hogy senkit sem vigasztal önmagában, inkább csak mint ex-hc assemblys mondom technikai érdekességként, hogy az ilyen mértékű low-level adatmentés egy ilyen komplexitású, 500+ GB méretű SQL adatbázisnál nagyon-nagyon nem triviális.

PROHARDVER!
July 22 at 10:12 PM
·

Update: Az egyik szerverünkön egy komolyabb összeomlás volt, jelenleg úgy látszik, hogy hardveres problémából kifolyólag. Ennek az összeomlásnak a következményeit mérjük fel és próbáljuk helyreállítani (mentés van, de ugye előbb kellene alá a stabil hardver is). Sajnos ez tovább tart annál, mint amit szeretnénk - természetesen számunkra is rendkívül fontos, hogy úrrá legyünk ezen a problémán, szóval ezerrel dolgozunk rajta, viszont bővebb infóval csak holnap tudunk szolgálni 🙁

PROHARDVER!
July 23 at 3:44 PM
·

Sziasztok!

Gyors helyzetjelentés, sajnos semmi igazán lelkesítőt nem tudunk írni:

  • az adatbázisszerveren hardveres hiba lépett fel, ami jelenleg úgy fest, hogy a februárban upgrade-elt processzorhoz köthető
  • ez a hiba magával rántotta a teljes adatbázist, a könyvtárstruktúra is sérült
  • a hardveres rendszert sem tudtuk helyreállítani mostanáig, eleinte jónak tűnt, de aztán a recovery-be is beleborult 🙁
  • visszakerült a régi cpu, és most tűnik először stabilnak a gép
  • telepítődik a rendszer, másolódnak az adatok (egy-egy rész másolása is 4-5 óra)
  • ha minden fent van, utána tudjuk csak elkezdeni megnézni, hogy az elvileg meglévő adatok gyakorlatilag is megvannak-e, tényleg minden el tud indulni stb.

Sajnos ezen a ponton biztosra kizárni az adatvesztést nem tudjuk (de reméljük, hogy elkerüljük), ahogy azt sem, hogy mikor lesz ebből újra működő lapcsalád. Ma nem túl valószínű. 🙁

Nagyon sajnáljuk! 🙁

Update: látjuk a rosszindulatú feltételezéseket, "legyen végetek" jellegű kommenteket, "én otthon fél nap alatt egy Pentium 2-n megoldom" vonalat is. Ezekre nem fogunk reagálni, nem nagyképűségből, hanem mert nincs rá erő és értelme sincs. Cikk az egészről lesz majd, csak tartsunk már ott...

A cikk még nem ért véget, kérlek, lapozz!

Hirdetés