Keresés: - [Re:] Szivárgások az AMD FX processzorok paramétereiről

Hirdetés

Legfrissebb anyagok

Mobilarena témák

PROHARDVER! témák

IT café témák

GAMEPOD témák

LOGOUT témák

Keresés

Új hozzászólás Aktív témák

#134 hugo chávez aktív tag P.H. #133

Új Válasz 2011-07-20 23:59:29 #134
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz P.H. #133 üzenetére

"Azzal a két sorral arra utalnak, hogy az Intel-nél 1 FADD- és 1 FMUL-jellegű 128 bites utasítás indítható órajelenként a két specializált végrehajtó egység miatt, X6-nál szintúgy, az AMD 2 FMAC portja viszont általános, a fentiek bármilyen kombinációját kezeli órajelenként."
Rendben, ez így logikusnak tűnik, de akkor az AMD-nek ezt kellett volna odaírnia, nem azt, hogy a Sandy FPU-i nem képesek egy ciklus alatt két 128 bites AVX műveletre, mert ez nem igaz. Azt, hogy leírnak egy kritériumot, a többit meg hozzágondolják (mármint, hogy nem csak 1 FADD és 1 FMUL, hanem vagy 2 FADD, vagy 2 FMUL végrehajtására is képes legyen ciklusonként) és utána a hozzágondolt extra kritériumnak nem megfelelőnek nyilvánítják a konkurencia termékét, inkább nem akarom minősíteni. (Ilyen húzásra inkább az Intel-től számítana az ember... )
#132 hugo chávez aktív tag P.H. #129

Új Válasz 2011-07-20 19:40:36 #132
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz P.H. #129 üzenetére

Még valamit nem értek: azon a slide-on, amit te és Abu mutattatok, az van, hogy a Sandy FPU-ja nem tud 2 128 bites AVX utasítást végrehajtani egy ciklus alatt (miért ne tudna?), de a "FLOPs/cycle (128-bit AVX)" részhez már 32 (ami ugye FPU-nként 2x128 bit) van írva. Akkor ez hogy van? Én néztem volna be valamit, vagy az AMD anyaga még annál is nagyobb bullshit, mint ahogy eddig gondoltam?
#122 hugo chávez aktív tag P.H. #120

Új Válasz 2011-07-18 23:55:48 #122
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz P.H. #120 üzenetére

Igen, így már teljesen egyértelmű, köszi
(#121) Abu85:
"Az AVX GPU-s támogatáson azonban nem éri meg gondolkodni."
Na igen, dedikált GPU-nál nem érné meg, de én nem tartom lehetetlennek, hogy az Intel meg fogja lépni a jövőbeni (Haswell-t követő) APU/HPU-inál, mert, feltételezem, hogy így sokkal jobban együtt tudnának működni a "CPU" és a "GPU" magok.
#119 hugo chávez aktív tag hohoo #111

Új Válasz 2011-07-18 23:13:14 #119
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz hohoo #111 üzenetére

Szerintem attól, hogy egy GPU/IGP SIMD egységei támogatják az AVX-et, még ugyanúgy vagy kell egy OpenCL-hez hasonló API/Framework, vagy, ha nem akarnak használni API-t, akkor valami alacsony szintű, hardverközeli nyelven kell szenvedni, de erről szerintem inkább dezz tudna nyilatkozni, mert a programozás nem az én asztalom. Ráadásul pl. az OpenCL nagy előnye, hogy egy OpenCL-re írt progi gyakorlatilag mindenen képes lehet futni, amihez van OpenCL driver, tehát CPU-n, GPU-n, IGP-n, vagy, heterogén módon, akár ezeken egyszerre is.
(#114) dezz:
"Ez magonként 4db FMUL és 4db FADD művelet ciklusonként."
Nekem nem igazán világos ez, egy 128 bites egységen hogy "megy át" egy ciklus alatt 4x32 bit FMUL és 4x32 bit FADD? Az nem lehet, hogy FADD, vagy FMUL esetén 4, FMAC esetén pedig csak 2 FMUL és 2 FADD művelet van ciklusonként?
#110 hugo chávez aktív tag hohoo #108

Új Válasz 2011-07-18 02:14:00 #110
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz hohoo #108 üzenetére

"Ez akkor lenne jó, ha a gpu-n lehetne futtatni avx-es dolgokat majd a trinity-ben."
Nos, szerintem az Intel pont ezt akarja a jövőben, vagyis AVX utasításkészletet támogató SIMD egységekkel akarja felváltani a jelenlegi IGP-iben lévő vektormagokat.
"Viszont ha azon nem lehet, akkor opencl-re kell alapozni avx helyett később amd-nél, ami meg rizikós, mert ehhez az amd-nek úgy meg kéne venni a fejlesztőket mint ahogy az intel teszi."
Itt úgy érzem, hogy némiképp kevered a dolgokat, mert az AVX egy SIMD utasításkészlet, az OpenCL pedig egy API. Amúgy az OpenCL-nek már van AVX támogatása.
#109 hugo chávez aktív tag hohoo #107

Új Válasz 2011-07-18 01:54:40 #109
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz hohoo #107 üzenetére

Nézd, erre nem tudok mit mondani, a Sandy-nél ugye egy mag két 256 bites műveletet tud egyszerre ciklusonként, egy FADD-et és egy FMUL-t :"Sandy Bridge can sustain a full 16 single precision FLOP/cycle" és "Sandy Bridge can execute a 256-bit FP multiply, a 256-bit FP add and a 256-bit shuffle every cycle" [link], a Bull Flex FP-jéről (amiből modulonként egy van) pedig azt írják, hogy egy 256 bites (feltételezem, hogy vagy FADD, vagy FMUL) műveletet tud ciklusonként: "The beauty of the Flex FP is that it is a single 256-bit FPU that is shared by two integer cores. With each cycle, either core can operate on 256 bits of parallel data via two 128-bit instructions or one 256-bit instruction" [link] szóval ebből az következik, hogy a 64 FLOPs/ciklus a 16 magos (8 modulos és 8 Flex FP-s) Interlagos-ra vonatkozik.
#106 hugo chávez aktív tag hohoo #105

Új Válasz 2011-07-18 01:09:21 #106
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz hohoo #105 üzenetére

Ha nekem nem hiszel, akkor nézd meg itt alaposan a "Standard 128-bit mode" és a "Shared AVX mode" című képeket, vagy kérdezd meg Abut, vagy P.H.-t, hogy mi következik a jelenleg ismert adatokból.
Ja és az nem 64 GFLOPS, hanem 64 "darab" 32 bites, vagy másképpen 8 "darab" 256 bites lebegőpontos művelet/órajel
#103 hugo chávez aktív tag Oliverda #99

Új Válasz 2011-07-18 00:10:57 #103
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz Oliverda #99 üzenetére

Hát, tény, hogy jelenleg nem sok ilyen van, de azért lehet találni egy párat, pl az x264 is támogatja: [link]
(#100) P.H.:
Na igen, kissé "külön úton" járnak, majd meglátjuk, hogy melyik lesz a jobb, de az a baj, hogy a Bull még mindig nincs kint, hogy valós alkalmazásokban össze lehetne mérni a Sandy-kkel és azt sem lehet biztosan tudni, hogy mikor jön.
Azon meg nem csodálkozok, hogy az Intel ráfeküdt az AVX-re, mert nekik ez lehet az igazi belépő a heterogén érába, szerintem a Haswell-ben, vagy az utána jövő generációban a jelenleg a Sandy-ben lévő IGP szerepét át fogják venni az AVX képes, a későbbiekben akár 1024 bites SIMD egységek.
(#101) Zeratul:
Pont ez volt a problémám Abu slide-jával, hogy nem gyengén félrevezető marketinganyag, de segítek neked értelmezni , ott egy 16 magos Interlagos-t hasonlítottak egy 4 magos Sandy-hez, úgy, hogy ezt az "apró" tényt nem írták oda, tehát, ha egy 8 magos asztali Bulldozer-re (Zambezi) vagy kíváncsi, akkor oszd el a Flex FP oszlopban lévő számokat kettővel.
(#102) Kotomicuki:
"De ez várható is volt, ha már "megfelezték" az FPU-kat"
Várható volt, de azért reménykedtem, meg persze arról is szó volt, hogy jóval 4 GHz felett lesz az alapórajele, de most úgy néz ki, hogy ez sem fog összejönni
#98 hugo chávez aktív tag Abu85 #94

Új Válasz 2011-07-17 22:50:59 #98
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz Abu85 #94 üzenetére

Már elkezdtem írni a nem túl pozitív véleményemet a slide-ról, de látom, hogy P.H. megelőzött, mindegy, azért köszi
(#96) P.H.:
Hát akkor ennyi, azonos FPU órajelen, 256 bites AVX kód esetén a 4 magos Sandy dupla akkora peak teljesítményre képes, mint egy 8 magos (4 modulos) Bulldozer
#93 hugo chávez aktív tag Abu85 #91

Új Válasz 2011-07-17 22:04:39 #93
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz Abu85 #91 üzenetére

Neked van valami frissebb, vagy részletesebb anyagod a modulonkénti FLOP/ciklus-ról?
Mert az Oliverda által írt cikkben a slide-okon az van, hogy a 16 magos (2x4 modulos?) Interlagos 64 FLOP/ciklust tud akkor is, ha a két 128 bites FMAC-en két 128 bites utasítás hajtódik végre és akkor is ha egy 256 bites, tehát az a kérdés, hogy itt a FLOP alatt 32 (SP), vagy 64 (DP) bitet értenek-e? Mert, ha 32 bites, akkor azonos FPU órajelen egy 4 magos Sandy ugyanannyi (64) FLOP/ciklust tud, mint egy 16 magos Interlagos, ami nem túl jó előjel a 8 magos Zambezi lebegőpontos teljesítményére nézve. Jó, az FMA valószínűleg valamennyit fog dobni a tényleges sebességen, de ennek mértéke jelenleg nem ismert, szóval akár egészen kicsi is lehet.
#90 hugo chávez aktív tag Abu85 #82

Új Válasz 2011-07-17 19:14:33 #90
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz Abu85 #82 üzenetére

"Maga az AVX utasításkészlet ugyanaz az SB-ben és ugyanaz lesz az IB-ben..."
Lehet, hogy az IB-ben bővítenek az AVX utasításkészleten, mert vannak erre utaló jelek:
"These build upon the instructions coming in Intel® microarchitecture code name Ivy Bridge, including the digital random number generator, half-float (float16) accelerators, and extend the Intel® Advanced Vector extensions (Intel® AVX) that launched in 2011." [link]
és
"Q: Is there a version of Intel Compiler available that supports Intel AVX?
A: Yes, the current Intel Compiler supports the Intel AVX instructions. This version also includes support for SSE4, AES and PCLMULQDQ instructions. To use the post-32nm new instructions for the processor codenamed Ivybridge, it is required that you use Intel(R) Parallel Composer 2011 Update 2 or Intel(R) Composer XE 2011 Update 2. The compiler version is 12.0.2.x." [link]
persze biztosat csak akkor lehet tudni, ha az Intel kiad egy hivatalos közleményt.
"A 256 bites utasítás esetében nem lesz különbség, egy-egy utasítás lehetséges a Bulldozer modulban és az SB/IB magban. Mindezt órajelenként persze."
A Sandy magonként egy 256 bites FADD-ot és egy 256 bites FMUL-t tud egyszerre ciklusonként, mint azt fLeSs, P.H. és David Kanter is írta, a Bull pedig nekem úgy tűnik, hogy modulonként csak vagy egy 256 bites FADD-ot, vagy egy 256 bites FMUL-t tud ciklusonként. Mondjuk, Oliverda azt írta a cikkében, hogy a Bull modulokban lesz két 128 bites SIMD Integer egység is és nekem az jött le, hogy ezek az FMAC-ekhez hasonlóan szintén képesek lesznek "összevonva" 256 bites műveletekre. Ezzel szemben az Intelnél a 256 bites integer műveleteket majd csak a Haswell fogja tudni az AVX2 utasításkészlettel.
#77 hugo chávez aktív tag korcsi #76

Új Válasz 2011-07-16 23:34:37 #77
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz korcsi #76 üzenetére

Így van, sőt a Sandy magonként 2 256 bites műveletet tud egyszerre, de csak AVX-et támogató kód esetén.