- Milyen okostelefont vegyek?
- Xiaomi 13T és 13T Pro - nincs tétlenkedés
- Xiaomi 15 - kicsi telefon nagy energiával
- Az Oppo Find X8 Ultra lett a legvékonyabb kameramobil
- Honor 200 - kétszázért pont jó lenne
- Apple Watch Ultra - első nekifutás
- Magisk
- MIUI / HyperOS topik
- Xiaomi 12T Pro - kétszínű, mint a kétszázas
- iPhone topik
Új hozzászólás Aktív témák
-
hugo chávez
aktív tag
"Azzal a két sorral arra utalnak, hogy az Intel-nél 1 FADD- és 1 FMUL-jellegű 128 bites utasítás indítható órajelenként a két specializált végrehajtó egység miatt, X6-nál szintúgy, az AMD 2 FMAC portja viszont általános, a fentiek bármilyen kombinációját kezeli órajelenként."
Rendben, ez így logikusnak tűnik, de akkor az AMD-nek ezt kellett volna odaírnia, nem azt, hogy a Sandy FPU-i nem képesek egy ciklus alatt két 128 bites AVX műveletre, mert ez nem igaz. Azt, hogy leírnak egy kritériumot, a többit meg hozzágondolják (mármint, hogy nem csak 1 FADD és 1 FMUL, hanem vagy 2 FADD, vagy 2 FMUL végrehajtására is képes legyen ciklusonként) és utána a hozzágondolt extra kritériumnak nem megfelelőnek nyilvánítják a konkurencia termékét, inkább nem akarom minősíteni.
(Ilyen húzásra inkább az Intel-től számítana az ember...
)
-
hugo chávez
aktív tag
Még valamit nem értek: azon a slide-on, amit te és Abu mutattatok, az van, hogy a Sandy FPU-ja nem tud 2 128 bites AVX utasítást végrehajtani egy ciklus alatt (miért ne tudna?), de a "FLOPs/cycle (128-bit AVX)" részhez már 32 (ami ugye FPU-nként 2x128 bit) van írva. Akkor ez hogy van?
Én néztem volna be valamit, vagy az AMD anyaga még annál is nagyobb bullshit, mint ahogy eddig gondoltam?
-
hugo chávez
aktív tag
Igen, így már teljesen egyértelmű, köszi
(#121) Abu85:
"Az AVX GPU-s támogatáson azonban nem éri meg gondolkodni."
Na igen, dedikált GPU-nál nem érné meg, de én nem tartom lehetetlennek, hogy az Intel meg fogja lépni a jövőbeni (Haswell-t követő) APU/HPU-inál, mert, feltételezem, hogy így sokkal jobban együtt tudnának működni a "CPU" és a "GPU" magok.
-
hugo chávez
aktív tag
Szerintem attól, hogy egy GPU/IGP SIMD egységei támogatják az AVX-et, még ugyanúgy vagy kell egy OpenCL-hez hasonló API/Framework, vagy, ha nem akarnak használni API-t, akkor valami alacsony szintű, hardverközeli nyelven kell szenvedni, de erről szerintem inkább dezz tudna nyilatkozni, mert a programozás nem az én asztalom. Ráadásul pl. az OpenCL nagy előnye, hogy egy OpenCL-re írt progi gyakorlatilag mindenen képes lehet futni, amihez van OpenCL driver, tehát CPU-n, GPU-n, IGP-n, vagy, heterogén módon, akár ezeken egyszerre is.
(#114) dezz:
"Ez magonként 4db FMUL és 4db FADD művelet ciklusonként."
Nekem nem igazán világos ez, egy 128 bites egységen hogy "megy át" egy ciklus alatt 4x32 bit FMUL és 4x32 bit FADD? Az nem lehet, hogy FADD, vagy FMUL esetén 4, FMAC esetén pedig csak 2 FMUL és 2 FADD művelet van ciklusonként?
-
hugo chávez
aktív tag
"Ez akkor lenne jó, ha a gpu-n lehetne futtatni avx-es dolgokat majd a trinity-ben."
Nos, szerintem az Intel pont ezt akarja a jövőben, vagyis AVX utasításkészletet támogató SIMD egységekkel akarja felváltani a jelenlegi IGP-iben lévő vektormagokat.
"Viszont ha azon nem lehet, akkor opencl-re kell alapozni avx helyett később amd-nél, ami meg rizikós, mert ehhez az amd-nek úgy meg kéne venni a fejlesztőket mint ahogy az intel teszi."
Itt úgy érzem, hogy némiképp kevered a dolgokat, mert az AVX egy SIMD utasításkészlet, az OpenCL pedig egy API. Amúgy az OpenCL-nek már van AVX támogatása.
-
hugo chávez
aktív tag
Nézd, erre nem tudok mit mondani, a Sandy-nél ugye egy mag két 256 bites műveletet tud egyszerre ciklusonként, egy FADD-et és egy FMUL-t :"Sandy Bridge can sustain a full 16 single precision FLOP/cycle" és "Sandy Bridge can execute a 256-bit FP multiply, a 256-bit FP add and a 256-bit shuffle every cycle" [link], a Bull Flex FP-jéről (amiből modulonként egy van) pedig azt írják, hogy egy 256 bites (feltételezem, hogy vagy FADD, vagy FMUL) műveletet tud ciklusonként: "The beauty of the Flex FP is that it is a single 256-bit FPU that is shared by two integer cores. With each cycle, either core can operate on 256 bits of parallel data via two 128-bit instructions or one 256-bit instruction" [link] szóval ebből az következik, hogy a 64 FLOPs/ciklus a 16 magos (8 modulos és 8 Flex FP-s) Interlagos-ra vonatkozik.
-
hugo chávez
aktív tag
Ha nekem nem hiszel, akkor nézd meg itt alaposan a "Standard 128-bit mode" és a "Shared AVX mode" című képeket, vagy kérdezd meg Abut, vagy P.H.-t, hogy mi következik a jelenleg ismert adatokból.
Ja és az nem 64 GFLOPS, hanem 64 "darab" 32 bites, vagy másképpen 8 "darab" 256 bites lebegőpontos művelet/órajel
-
hugo chávez
aktív tag
Hát, tény, hogy jelenleg nem sok ilyen van, de azért lehet találni egy párat, pl az x264 is támogatja: [link]
(#100) P.H.:
Na igen, kissé "külön úton" járnak, majd meglátjuk, hogy melyik lesz a jobb, de az a baj, hogy a Bull még mindig nincs kint, hogy valós alkalmazásokban össze lehetne mérni a Sandy-kkel és azt sem lehet biztosan tudni, hogy mikor jön.
Azon meg nem csodálkozok, hogy az Intel ráfeküdt az AVX-re, mert nekik ez lehet az igazi belépő a heterogén érába, szerintem a Haswell-ben, vagy az utána jövő generációban a jelenleg a Sandy-ben lévő IGP szerepét át fogják venni az AVX képes, a későbbiekben akár 1024 bites SIMD egységek.(#101) Zeratul:
Pont ez volt a problémám Abu slide-jával, hogy nem gyengén félrevezető marketinganyag, de segítek neked értelmezni
, ott egy 16 magos Interlagos-t hasonlítottak egy 4 magos Sandy-hez, úgy, hogy ezt az "apró" tényt nem írták oda, tehát, ha egy 8 magos asztali Bulldozer-re (Zambezi) vagy kíváncsi, akkor oszd el a Flex FP oszlopban lévő számokat kettővel.
(#102) Kotomicuki:
"De ez várható is volt, ha már "megfelezték" az FPU-kat"
Várható volt, de azért reménykedtem, meg persze arról is szó volt, hogy jóval 4 GHz felett lesz az alapórajele, de most úgy néz ki, hogy ez sem fog összejönni
-
hugo chávez
aktív tag
Már elkezdtem írni a nem túl pozitív
véleményemet a slide-ról, de látom, hogy P.H. megelőzött, mindegy, azért köszi
(#96) P.H.:
Hát akkor ennyi, azonos FPU órajelen, 256 bites AVX kód esetén a 4 magos Sandy dupla akkora peak teljesítményre képes, mint egy 8 magos (4 modulos) Bulldozer
-
hugo chávez
aktív tag
Neked van valami frissebb, vagy részletesebb anyagod a modulonkénti FLOP/ciklus-ról?
Mert az Oliverda által írt cikkben a slide-okon az van, hogy a 16 magos (2x4 modulos?) Interlagos 64 FLOP/ciklust tud akkor is, ha a két 128 bites FMAC-en két 128 bites utasítás hajtódik végre és akkor is ha egy 256 bites, tehát az a kérdés, hogy itt a FLOP alatt 32 (SP), vagy 64 (DP) bitet értenek-e? Mert, ha 32 bites, akkor azonos FPU órajelen egy 4 magos Sandy ugyanannyi (64) FLOP/ciklust tud, mint egy 16 magos Interlagos, ami nem túl jó előjel a 8 magos Zambezi lebegőpontos teljesítményére nézve. Jó, az FMA valószínűleg valamennyit fog dobni a tényleges sebességen, de ennek mértéke jelenleg nem ismert, szóval akár egészen kicsi is lehet. -
hugo chávez
aktív tag
"Maga az AVX utasításkészlet ugyanaz az SB-ben és ugyanaz lesz az IB-ben..."
Lehet, hogy az IB-ben bővítenek az AVX utasításkészleten, mert vannak erre utaló jelek:
"These build upon the instructions coming in Intel® microarchitecture code name Ivy Bridge, including the digital random number generator, half-float (float16) accelerators, and extend the Intel® Advanced Vector extensions (Intel® AVX) that launched in 2011." [link]
és
"Q: Is there a version of Intel Compiler available that supports Intel AVX?
A: Yes, the current Intel Compiler supports the Intel AVX instructions. This version also includes support for SSE4, AES and PCLMULQDQ instructions. To use the post-32nm new instructions for the processor codenamed Ivybridge, it is required that you use Intel(R) Parallel Composer 2011 Update 2 or Intel(R) Composer XE 2011 Update 2. The compiler version is 12.0.2.x." [link]persze biztosat csak akkor lehet tudni, ha az Intel kiad egy hivatalos közleményt.
"A 256 bites utasítás esetében nem lesz különbség, egy-egy utasítás lehetséges a Bulldozer modulban és az SB/IB magban. Mindezt órajelenként persze."
A Sandy magonként egy 256 bites FADD-ot és egy 256 bites FMUL-t tud egyszerre ciklusonként, mint azt fLeSs, P.H. és David Kanter is írta, a Bull pedig nekem úgy tűnik, hogy modulonként csak vagy egy 256 bites FADD-ot, vagy egy 256 bites FMUL-t tud ciklusonként. Mondjuk, Oliverda azt írta a cikkében, hogy a Bull modulokban lesz két 128 bites SIMD Integer egység is és nekem az jött le, hogy ezek az FMAC-ekhez hasonlóan szintén képesek lesznek "összevonva" 256 bites műveletekre. Ezzel szemben az Intelnél a 256 bites integer műveleteket majd csak a Haswell fogja tudni az AVX2 utasításkészlettel.
Új hozzászólás Aktív témák
Hirdetés
- Futás, futópályák
- Milyen okostelefont vegyek?
- Audi, Cupra, Seat, Skoda, Volkswagen topik
- Melyik tápegységet vegyem?
- Kivégzi a Firewire-t az új macOS verzió?
- exHWSW - Értünk mindenhez IS
- sziku69: Fűzzük össze a szavakat :)
- Egyre csak fejlődik az AI, emberek tízezreit rúgja majd ki a BT
- RAM topik
- Elektromos autók - motorok
- További aktív témák...
- BESZÁMÍTÁS! Intel Core i7 4790 4 mag 8 szál processzor garanciával hibátlan működéssel
- Core i7 9700 processzor - 6 hó garival
- BESZÁMÍTÁS! Intel Core i7 8700K 6 mag 12 szál processzor garanciával hibátlan működéssel
- Csere-Beszámítás! AMD Ryzen 7 7700 Processzor!
- Csere-Beszámítás! Intel Core I9 14900KS 24Mag-32Szál processzor!
- Samsung Galaxy A12 64GB, Kártyafüggetlen, 1 Év Garanciával
- Xiaomi Redmi Note 11 64Gb Kártyafüggetlen 1Év Garanciával
- Csere-Beszámítás! Asus Tuf RTX 5070Ti 16GB GDDR7 Videokártya! Bemutató darab!
- AKCIÓ! ASUS ROG Zephyrus GA403UV Gamer notebook - R9 8945HS 16GB RAM 1TB SSD RTX 4060 8GB WIN11
- Lenovo ThinkCentre M720q/ Dell OptiPlex 3060- 3070/ Hp EliteDesk 800 mini, micro PC-Számla/garancia
Állásajánlatok
Cég: CAMERA-PRO Hungary Kft
Város: Budapest
Cég: PC Trade Systems Kft.
Város: Szeged