Keresés: - [Re:] Bevezetés az NVIDIA Pascal architektúra rejtelmeibe

Legfrissebb anyagok

Mobilarena témák

PROHARDVER! témák

IT café témák

GAMEPOD témák

LOGOUT témák

Keresés

Új hozzászólás Aktív témák

#29 Abu85 HÁZIGAZDA Simid #24

Új Válasz 2016-04-07 09:29:49 #29
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz Simid #24 üzenetére

Nem létezik olyan, hogy teljesen optimális. Ha létezne, akkor mindenki olyat tervezne. Két dolog határozza meg, hogy egy architektúra milyen felépítést tartalmaz. Egyrészt nyilván az elérendő cél, másrészt ebből kiindulva az, hogy az alapdizájnnal a tervezett módosítások mellett ebből mi és hogyan kivitelezhető.
A gyártók egy adott alapra 4-8 generációt is felépítenek. Az Intelt, az AMD-t és az NV-t is limitálják bizonyos olyan döntések, amelyeket az alapok tervezésénél hoztak meg. Ha az aktuális alapot nézzük, akkor az AMD-nél ez a GCN, az Intelnél a Gen1, míg az NV-nél a Fermi. Az Intelnél látszik, hogy az alap mennyire limitálhat, mert náluk már olyan limitek is megjelennek, amelyeket csak óriási gyorsítótárakkal tudnak ellensúlyozni. Az NV és az AMD alapja még nem tart itt.
#25 #06658560 törölt tag Simid #24

Új Válasz 2016-04-06 23:47:17 #25
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#06658560

törölt tag

válasz Simid #24 üzenetére

Hogy mi mire jó, azt a hardverre írt szoftver dönti el. Ez nem desktop linux, hogy kenyérpirítón is fusson. A hardverhez írják a szoftvert.
#20 namaste tag Simid #15

Új Válasz 2016-04-06 22:21:43 #20
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Simid #15 üzenetére

Egy utasítás csak HP, SP vagy DP számokkal dolgozik, az ütemezőtől függ, hogy képes-e egyszerre kiadni egy SP és egy DP utasítást végrehajtásra.
Nem tudok olyan algoritmust, ami egy kernelen belül vegyesen használ SP és DP számokat.
Kutatnak olyan módszereket, amelyek két fázisban dolgoznak:
1. SP-ben gyorsan és energiatakarékosan kiszámolnak egy előzetes, kevésbé pontos eredményt,
2. a megkapott részeredményt átkonvertálják DP-re és DP számokkal tovább számolva egy pontosabb megoldást kapnak.
Esetleg még szóba jöhet, hogy egymástól független, eltérő pontosságú számokat használó feladatokat párhuzamosan futtatnak. Pl. gépi tanulás (HP), képfeldogozás (SP), n-body (DP). Ha lenne is ilyen, ki kell mérni, vajon megéri-e, azaz gyorsabb.
#17 Loha veterán Simid #15

Új Válasz 2016-04-06 21:58:42 #17
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Loha

veterán

válasz Simid #15 üzenetére

NV-nál a Keplertől kezde az FP64-es (Dupla Pontosságú) számításokat külön FP64-es CUDA magok végzik, amik az FP32-es (SP) számítások alatt pihennek, viszont az FP32-es egységekkel párhuzamosan is képesek FP64-es számításokon dolgozni.
Az FP32-es számításokat a dedikált FP32-es CUDA magok végzik, amik Pascaltól kezdve képesek lesznek dupla sebességgel az FP16-os számításokra is.
AMD-nél (Hawaii) az FP32-es számolóegységek végzik az FP64-es és FP16-os számításokat is, fele, illetve dupla sebességgel.
(#18) MongolZ: Szerintem valószínű, hogy az NV is kísérletezett már korábban a HBM-el, csak nem épített rá terméket mint az AMD.