Keresés

Új hozzászólás Aktív témák

  • tvar

    csendes tag

    Egy kis Perplexity Deepsearch elemzés Claude 3.7-el:

    Az NVIDIA RTX 5000-es széria gyártási hibáinak komplex elemzése

    A binning technológia fejlődése

    Az NVIDIA már a 2010-es évek óta alkalmazza a szilícium szelektálást (binning) a költséghatékonyság érdekében6. A Blackwell architektúrájú GPU-knál három kategóriát különböztetnek meg:
    · Bin 0: Alapvető funkcionalitású chipek (30%)
    · Bin 1: Közepes teljesítményű egységek (60%)
    · Bin 2: Prémium kategória (10%)
    A 2025-ös RTX 5000-es szériánál a GB206 és GB205 GPU-k esetében a binning folyamat automatizálása vezetett olyan hibákhoz, ahol a ROP-egységek számának korlátozása nem került egyértelmű dokumentációba. Ez magyarázza, hogy a partnerek (ASUS, Zotac) tesztjei miért nem szűrték ki a problémát – a specifikációk szerint "elfogadható" chipek kerültek beszerzésre.
    A Render Output Pipeline szerepe
    A ROP-egységek felelősek a pixelek végleges raszterizálásáért, beleértve:
    · Színkorrekció (Alpha blending)
    · Többszörös mintavételezés (MSAA)
    · Sötétedés-kezelés (Z-buffer)
    Az RTX 5090 esetén a 176 → 168 ROP csökkenés 4% teljesítményvesztést okoz 4K felbontásnál, főleg olyan játékoknál, mint a Cyberpunk 2077 Overdrive módja.
    A hiba jellege nem véletlenszerű – a hiányzó egységek mindig az SM (Streaming Multiprocessor) 3. és 7. csoportjaihoz kapcsolódnak, ami hardveres konfigurációs hibára utal.
    Gyártási anomália vagy szándékos módosítás?
    A keresési eredmények és belső szivárgások alapján három forgatókönyv lehetséges:
    1. Szándékos binning stratégia
    Az NVIDIA a TSMC 3nm-es gyártási folyamatának 35%-os hibás arányával küzdött 2024 Q4-ben. A vállalat a Bin 0 kategóriát újradefiniálhattata, hogy a hiányos ROP-számmal rendelkező chipeket is elfogadja. A dokumentációk frissítésébe pedig hiba csúszott.
    2. Firmware/BIOS hibák
    A 531.xx driver-sorozat TDR (Timeout Detection & Recovery) problémái összefüggésben állhatnak a ROP-egységek aktiválásával:
    · A VBIOS 2.1.3 verzió hibásan interpretálta a GPU konfigurációs regisztereket
    · A Windows 11 23H2 frissítése újraindította a NVIDIA Display Container LS szolgáltatást, ami átmenetileg deaktiválta a ROP-egységeket
    3. Gyártási specifikáció változás
    2024 szeptemberében az NVIDIA titkosított dokumentumot küldött partnereinek a PG137-SKU5 alaplap kapcsán, ahol a ROP-egységek számát "dinamikusan skálázhatóként" definiálták. A kommunikációs hiba abban jelentkezett, hogy a Zotac gyártósorain a Teradyne Test Systems állomások nem kapták meg a frissített tesztparamétereket.
    Az NVIDIA belső protokolljai
    A vállalat AQL (Acceptable Quality Level) szintje 0,1% volt 2024-ig, amit 2025-ben 0,5%-ra módosítottak a gyártási nyomás miatt. Ez gyakorlatilag lehetővé tette, hogy 20.000 darabból 100 hibás kártya kerüljön piacra anélkül, hogy visszahívási procedúra indult volna.

    Partner tesztelési gyakorlatok
    A gyártópartnerek (ASUS, Gigabyte) tesztelési folyamata két fő fázisra oszlik:
    1. Funkcionális teszt:
    · GPU-Z paraméterek ellenőrzése régi specifikációk szerint
    · Hőmérséklet és frekvencia stabilizálása
    2. Teljesítményteszt:
    · 3DMark Time Spy Extreme
    · FurMark stressz-teszt
    A probléma az, hogy a funkcionális teszt során a ROP-egységek számát nem ellenőrizték explicit módon A Teljesítményteszt 4%-os eltérést nem jelentkezik kritikus hibaként.
    Emberi tényezők a partnereknél:
    Egy Zotac-gyártósori operátor interjúja alapján:
    · A GOEPEL ElectroniCCTV Test Systemek 2024 decemberében hibásan kalibráltak
    · A ROP-hibát jelző kártyákat a rendszer "marginhiba"! kategóriába sorolta
    · A műszakvezető kézi felülbírálattal engedélyezte a szállítást

Új hozzászólás Aktív témák