[Re:] Új stratégiára vált az Intel a Xeon AP vonalon

Legfrissebb anyagok

Mobilarena témák

PROHARDVER! témák

IT café témák

GAMEPOD témák

LOGOUT témák

Hirdetés

!! SZERVERLEÁLLÁS, ADATVESZTÉS INFORMÁCIÓK !!

Új hozzászólás Aktív témák

#20 Abu85 HÁZIGAZDA thgergo #18

Új Válasz 2021-12-13 11:38:09 #20
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz thgergo #18 üzenetére

Nagyon nem futnak rajta optimálisan a vektorok, ha nem a célzott szélességű hardver van a magban. Rengeteg kézi finomhangolás kellene, amit kb. senki sem akar megcsinálni.
Az SVE abból a szempontból van fényévekkel az AVX előtt, hogy nincs is definiálva a vektormotor hossza. A programozó nem is tudja ezt, és nem is dolgozhat egy bizonyos hosszra. Tehát a hardver oldalán mindegy, hogy 128 bites vagy 2048 bites a vektormotor hossza, mindenféle alacsony szintű finomhangolás nélkül lineárisan skálázódik ugyanannak a kódnak a teljesítménye az egyre szélesedő vektormotorral. Az AVX erre megközelítőleg sem képes. Ilyen formában tök hasztalan vagdalni.
Az alapvető probléma az, hogy az AVX koncepció szintjén nagyon durván el van baszva az alapoknál. Ha valami skálázhatót akarunk, akkor az AVX-et úgy ahogy van ki kell dobni a kukába.
Volt egyébként az x86/AMD64-es magoknál erre megoldás az XOP-vel. Az alapjaiban egy nagyon átgondolt, skálázhatóságra tervezett rendszer volt, csak senki sem támogatta. Most nyilván már erősen visszasírja az ipar, látva azt, hogy az AVX-512-vel nem lehet mit kezdeni.
#19 ddekany veterán thgergo #18

Új Válasz 2021-12-13 09:45:36 #19
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ddekany

veterán

válasz thgergo #18 üzenetére

Gondolom nem lenne olyan szempontból értelme, hogy az AVX2-es megvalósítása egy funkciónak kicsit gyorsabb lenne, mint keskeny feldolgozós AVX-512 megvalósítása. Persze értem, kompromisszum, mert viszont ha nagy magra jut a szál, akkor meg gyorsabb. De ez lehet egy ok, amiért nem voltak erre motiváltak.
A másik, hogy az új és kiszélesített regisztereket megvalósítását nem tudod megúszni azzal, hogy a feldolgozás keskenyebb. De nem tudom mennyi overhead ez egy little CPU-ban, lehet nem sok, de ez is bosszantó. Meg nyilván a fele szélességű AVX-512 megvalósítás többi része is visz extra tranzisztorokat.
Ránéztem SVE-re. Alapvetően kihat az utasítás készletre az, hogy a binárisnak ne kelljen feltételeznie semmilyen feldolgozó szélességet, és mégis minden optimálisan legyen "felszeltelve".
#18 thgergo tag Abu85 #17

Új Válasz 2021-12-12 21:38:25 #18
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

thgergo

tag

válasz Abu85 #17 üzenetére

Ebben azt nem értem, hogy az AVX-512 nél miért nem tehető meg, hogy felbontódik két vagy sokkal több órajelciklusra a művelet 64/128 bites egységeken, már a kezdeti bevezetés óta celeronon, pentiumon is. A cél a bináris kompatibilitás lenne, hogy akár emulálva mehetne a kis magokon is, akár 10-ed sebességgel.
Lehet ez szoftveres is, pl. egy preload script az AVX-et tartalmazó részleteket, SSE és más nem optimális műveletre cseréli a futatás előtt. Ez azért szerintem sokkal egyszerűbben menne mint arm->i386 esetén az Apple Rosetta...
#17 Abu85 HÁZIGAZDA LordX #15

Új Válasz 2021-12-10 21:42:03 #17
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz LordX #15 üzenetére

De. Ennek van a legnagyobb köze hozzá, mert az AVX-512 nem skálázható, míg az SVE az.
#16 ddekany veterán LordX #15

Új Válasz 2021-12-09 09:53:25 #16
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ddekany

veterán

válasz LordX #15 üzenetére

Az SVE2 (ahogy itt halottam) direkt olyan, hogy lehet belőle sebesség rovására kevésbé széles megvalósítást betenni, ami gondolom nem eszik túl sok területet meg egy little magban. Ha ez AVX-512-nél ez nem működik... akkor ennyi volt, nem lehet mindenhol elérhető, mivel most már az Intelnél is fontosak lettek a little magok.
#15 LordX veterán Abu85 #14

Új Válasz 2021-12-09 09:31:46 #15
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz Abu85 #14 üzenetére

Most annak, hogy mennyire szar az AVX-512 (függetlenül, hogy igaz), semmi köze nincs ahhoz, hogy az Intel a termékei töredékébe rakja be az "új" kiterjesztést. Ha nincs processzor, ami futtassa, senki nem fog fejleszteni rá. A Tigris Tó előtt ez még a 13 éves AVX(1)-re is igaz volt, mert Celeron / Pentium.
Meanwhile ARM SVE2 jövőre minden programban benne lesz, mert az A510 is tudja, így egy abszolút trash 4xA510 SOC-vel is megy majd, nem csak a flashy QCOM 8G1 meg MTK D9000-rel.
#14 Abu85 HÁZIGAZDA LordX #13

Új Válasz 2021-12-06 10:52:07 #14
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz LordX #13 üzenetére

Mert az ARM SVE a GPGPU-tól lop ötleteket, és nem olyan hígfos, mint az AVX-512. Konkrétan skálázható a rendszer, így ugyanarra az ISA-ra építhetsz olyan magot, amiben 128 bites SIMD van, és olyat, amiben 2048 bites. Eközben pöcre ugyanazt a kódot eszik meg, sőt, közel lineárisan skálázódó teljesítményt adnak vele. Az AVX-512 nem ilyen rugalmas, így azt baszhatja az Intel.
#13 LordX veterán Abu85 #12

Új Válasz 2021-12-05 21:36:07 #13
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz Abu85 #12 üzenetére

Az ARM-nak valahogy probléma nélkül sikerül ezt a problémát abszolválni..
#12 Abu85 HÁZIGAZDA LordX #11

Új Válasz 2021-12-05 17:53:43 #12
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz LordX #11 üzenetére

De ez a tipikus esete a tyúk-tojás problémának.
#11 LordX veterán Abu85 #9

Új Válasz 2021-12-04 07:54:31 #11
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz Abu85 #9 üzenetére

A nobody cares az valószínűleg nem azért van, mert az utasítás-készletek szarok (ugye az AVX-512 az valójában 12 különböző pakkot jelent), hanem mert:
- This shit (ja, ez 3 éves. Azóta még rosszabb.)
- Nincs a magból consumer proci, csak szerver.
- Még ha a mag tudja is, az ~összes consumer prociban le van tiltva. Kivéve egy i3-as ultramobil chipben.
- Le van tiltva az E core miatt. Az AVX-512-FP16 csakis és kizárólag letiltva létezik az Alder Lake P core-jában. De legalább a VNNI 256bites változatát belerakták az E-core-ba.
Tök mindegy mit tud, ha nem elérhető, nem fog rá programozni senki.
#10 ddekany veterán LordX #8

Új Válasz 2021-12-02 12:00:51 #10
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ddekany

veterán

válasz LordX #8 üzenetére

Sok évtized után nem csoda. Amit ennyi idő után még hozzáadnak, az alighanem erősen réteg igény. Szokványos szerverek java részét tán egyáltalán nem érinti, hogy kihagyták.
#9 Abu85 HÁZIGAZDA LordX #8

Új Válasz 2021-12-02 09:23:07 #9
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz LordX #8 üzenetére

És a piacon "nobody cares" szintet sikerült ennek a munkának megütnie. Tehát lényegében ki is hagyhatják.
#8 LordX veterán ddekany #7

Új Válasz 2021-12-02 06:30:18 #8
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz ddekany #7 üzenetére

Csak? Az AVX-512-ben van az utóbbi ~5 év összes utasításkészlet bővítése..
#7 ddekany veterán Duck663 #1

Új Válasz 2021-11-29 22:02:57 #7
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ddekany

veterán

válasz Duck663 #1 üzenetére

De milyen utasítás marad ki? E-Core-okból csak az AVX-512 marad ki, tudtommal.
#6 wasd.hu tag LordX #4

Új Válasz 2021-11-29 09:30:58 #6
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

wasd.hu

tag

válasz LordX #4 üzenetére

Az intel most tényleg jól benézte, de az "atom" stratégia és hatékonyság azért igencsak okosság volt a maga idején. Hogy örülnénk, ha legalább ekkora dobásra lenne most képes
#5 KROK640 nagyúr Duck663 #1

Új Válasz 2021-11-28 19:11:11 #5
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

KROK640

nagyúr

válasz Duck663 #1 üzenetére

A sok mag jobban eladható mint az ilyen olyan (sok esetben szoftveres oldalról támogatás szükséges) utasításkészletek.
#4 LordX veterán

Új Válasz 2021-11-27 11:19:17 #4
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

A pakoljunk össze marha sok "Atom" processzort az de milyen jól bejött az Intelnek a Larrabee-vel meg a Xeon Phi-vel is.
#3 Abu85 HÁZIGAZDA thgergo #2

Új Válasz 2021-11-26 11:58:34 #3
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz thgergo #2 üzenetére

A Cooper Lake-P-re gondoltam. Az váltotta hivatalosan a Cascade Lake-AP-t. Az más kérdés, hogy mennyire volt életképes.
#2 thgergo tag

Új Válasz 2021-11-26 11:52:23 #2
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

thgergo

tag

Mi köze van a Cooper Lake-P -nek és a Cascade Lake-AP-nek egymáshoz?
Mindkettő a Cascade Lake-SP-nek a fejlesztése de az irány teljesen más:
- Cascade Lake-AP: Valójában egy 4 utas szerver, de egybetokoztak 2 db 28 magos cpu-t, így 2 utasként nevezhető. Azonban nem fogyaszt kevesebbet mint egy valódi 4 utas, sem nem olcsóbb ugyanannyi UPI link kell bele, ráadásul a hűtése is egyedi. Cooper Lake-SP is ugyanez lett volna, de már normál hűtéssel + sockettel, de ez sem mutathatott nagyobb perf/W értékeket. Akkor meg minek az egész ha nem jobb, az ügyfelek továbbra is Cascade Lake-SP-t vesznek, jóval olcsóbban.
- Cooper Lake-P: Duplázott UPI linkek a processzorok közt kevesebb PCIe árán, 4-8 utas szerverekhez, de 2x annyit fogyaszt az interconnect. Eléggé rétegigény, ahol ez számít, és meg is érik az árát mission critical helyeken, pl. HPE Superdome 280... Nem hiszem, hogy bárkinek is eszébe jutott felhőalapú adatközpontokba ilyet tenni Cascade Lake-SP helyett, ahol a sűrűség, hatékonyság és (olcsóság) számít.
Nem hiszem, hogy a Cooper Lake-P helyettesítő terméke lett volna a Cascade Lake-AP-nek valaha... Nem Cooper Lake-SP-re gondolt a cikkszerző Cooper Lake-P helyett?
#1 Duck663 őstag

Új Válasz 2021-11-26 11:51:24 #1
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Duck663

őstag

"Úgy tudjuk, hogy itt a Alder Lake E-Core-jainak jelentősen kigyúrt továbbfejlesztéseit fogja használni az Intel..." akkor se SMT nem lesz, se újabb utasításkészletek. De legalább szép számokat mutat majd magszám tekintetében és vállalható fogyasztása lesz.
Nem igazán értem az Intelt, minek az újabb, hatékonyabb utasításkészletek fejlesztése, ha utána kivágják vagy letiltják a CPU-kban. El kellene már dönteni, hogy most, hogyan akarnak teljesítményt növelni, jobb utasításkészletekkel, vagy több maggal.