Új hozzászólás Aktív témák
-
-
lenox
veterán
Nem, valoban nem tudunk, de ez egy felesleges irany, nyilvan azt kifogasolom, ha azzal jon valaki, hogy nem lattam meg gput. Az a resze, hogy milyen speedupot erdemes varni cpu vs gpu viszonylatban, milyen bottleneckek lehetnek, es ott melyik milyen gyors az szerintem kevesbe felesleges.
-
lenox
veterán
Hat ha mar programozo versenyt akarna valaki, akkor en pl. ezt ajanlanam:
http://projecteuler.net/
Sokkal tobb ertelme van, mint egy feladaton szarakodni, legalabbis magam reszerol sokkal ertekesebbnak tartom, ha valaki 3 clock sporolas helyett algoritmikusan tud jot csinalni sokfele problemara.
-
lenox
veterán
válasz
Zoli0726 #248 üzenetére
írni nem írok,
Nyilvan a local mem-be iras soran kerul adat, errol az irasrol beszeltem. Amikor mar benne van es mindenki csak olvassa nem kell szinkronizalni. Amikor eloszor masolod globalbol localba akkor kell.
Egyébként én nagyon úgy érzem, hogy elkanyarodtunk arról, hogy nem csak a cpu/gpu peak a lényeg, hanem az adathozzáférés, ami gpu esetében jobb.
Lehet errol is beszelni. Cpu-nal alapvetoen a regiszterekben levo adatokbol kellene dolgozni, ahol nem kell az adatra varni, tehat ez megy pl. full 4 GHz-cel. Nyilvan van, hogy level1 cache-t kell elerni, akkor van kulonbseg, de azert van 16 xmm register, hogy ne minden egyes utasitasnak kelljen level1 cachet olvasni. Szoval szerintem egy jol megirt kodban altalaban nem fog kijonni ide 2-szeres szorzo. Amugy valoban sp floatokat tekintve nehalemnel 4 byte/clock az olvasasi sebesseg egy feldolgozora vetitve, mig pl. 7750-nel 8 byte/clock. Ebbol azt hihetned, hogy valoban szorozni kell kettovel, csakhogy a valosagban ez nem igy mukodik. Ha valoban ez a sebesseg a bottleneck, akkor a nehalem vs 7750m eseten (figyelembe veve, hogy az i7 3.33 GHz-en a 7750m meg 575 MHz-en megy, 3330/575=5.8) az arany (512feldolgozo * 8 byte )/( 4core * 4feldolgozo * 4byte * 5.8)=11, szoval kb. ugyanaz az arany, mint a peak gflopsnal.
-
lenox
veterán
válasz
Zoli0726 #244 üzenetére
De erre az a bevett szokas, hogy mondjuk van 4096 adatod, 256 threaded, mindegyik thread beolvas 16 adatot, utana szink, es maris elerheto mindenkinek mind a 4096. Szink nelkul nem tudom, hogy lehet ilyet csinalni, illetve olyat nyilvan lehet, hogy minden thread mind a 4096-ot olvassa es irja a local mem-be, csak nem tudom miert lenne jo igy csinalni.
A cpu kód meg természetesen nem akkor optimális mint a gpu, de senkit nem érdekel, mikor optimális az opencl kód cpu-n ha úgyis a gpu-n akarom futtatni.
Ezt csak amiatt irtam, hogy a linkelt eredmenyek ertelmezesenel erdemes figyelembe venni, hogy egy cpu optimalis kod joval gyorsabb az ott mert sebessegnel. Termeszetesen ha van olyan opcio, hogy gpun futtatsz, akkor a cpu kodot felesleges gyurni, amugy is sokkal idoigenyesebb. Csak erdemes tudni, hogy esetleg egy sok alkalommal hasznalt szoftver eseteben (mint pl. egy jatekmotor) azert van valoszinusege, hogy lesz aki megcsinalja.
-
lenox
veterán
válasz
Zoli0726 #242 üzenetére
Tovabbra sem ertem. Az elobb azt irtad, hogy az adatok fuggetlenek, nem osztoznak rajta a work itemek, most meg megis osztoznak? Ha osztoznak, akkor kene szinkronizalni. Ha nem osztoznak, akkor hasznalhatnad a regiszterfilet. Amugy az vilagos, hogy van olyan implementacio, ahol a local memory akar 6-szor lassabb a regisztereknel?
-
lenox
veterán
válasz
Zoli0726 #236 üzenetére
Hogy hasznaltal local memoryt szinkronizacio nelkul? Nyilvan nem ugyanaz a kod optimalis cpun es gpun, szoval azert mert a local memory hasznalata eseten a linkeden sokkal gyorsabb a gpu, az nem jelenti azt, hogy ez a leggyorsabb kod cpun. De amugy a sajat programod eseten is lassabb volt az opencl cpun, mint a c kod, szoval ez nem kellene ujdonsag legyen.
Inkább nekem kellene a te kódjaidat megnéni, ha számodra ezek az, eredmények Ennyire hihetetlenek. Persze nvidia openclben le van maradva mint a borravaló, a cuda meg király, de kevésbé gyors.
Nyilvan lenne mit tanulni belole
. Biztos nehez kikovetkeztetni, de az amd miatt openclezek elsosorban.
#237:
Persze, lehet ilyet csinalni, csak azt nem latom, hogy mennyire eri meg, ugy ertem eleg kis resze lehet a usereknek akik amd apu + amd dvga komboval nyomulnak.
-
lenox
veterán
válasz
Zoli0726 #234 üzenetére
Ez eleg erdekes megkozelites, szoval a savszelesseg es a peak performance-ok hanyadosat ossze kell szorozni? Vagyis ha duplara novelem a memoria savszelesseget es mondjuk megketszerezem a feldolgozok szamat, akkor a varhato teljesitmeny negyszeresere no, jol ertem?
Mint mondtam, ha konkrétan alá tudod,támasztani, hogy amit mondtam kivitelezhetetlen, akkor hallgatlak, addig viszont a trollkodásodra nem figyelek tovább.
Biztos nagyon nehezen erthetoen fogalmaztam, megprobalom mashogy. A cpu kododnal nagy valoszinuseggel lehet gyorsabbat irni. Ha esetleg van kedved privatban elkuldheted, ha lesz ra idom, megnezem.
-
lenox
veterán
válasz
Zoli0726 #229 üzenetére
Sikerült egy jó gpu-s kódot írni, és még én vagyok a béna, biztos elrontottam valamit
,
Ez mar a sokadik ferdites, pont a gpus kododra nem mondtam meg semmit. A peak performance es az altalad linkelt szamok alapjan is nyilvanvalo kene legyen, hogy a cpus kodod hatekonysaga kisebb, mint a gpus. Miert kene erre ramondjam, hogy optimalis, mikor gyanus, hogy nem az?
-
lenox
veterán
válasz
Zoli0726 #227 üzenetére
Llanonal vram? Meg pci busz? Biztos tudod, mi a zero copy?
Nyilván mindenki szar, csak te vagy király, én meg abban lelem örömömet, hogy fórumokon összehazudozzak mindenfélét, meg szar c kódot írok. Nem birom az ilyet.
Hat a fentiek tekinteteben elgondolkoztato, de nem mondtam ilyet. De amugy nem te kezdted ugy, hogy nem lattam meg gpun futo kodot? Azt birtad?
Ugye tudod, hogy opencl-t cpu-n is lehet futtatni, gondolod nem próbáltam ki, de igen, kipróbáltam, és még rosszabb eredményt kaptam cpu-val.
Ez nem tudom mit bizonyitana vagy mit cafolna.
törődj bele, hogy más is lehet sikeres, nem csak te.
Ezt mar vegkepp nem ertem. Nagyon sok nalam sikeresebb ember van. Mondjuk ennek nincs koze ahhoz, hogy gpu-hoz ertenek-e, vagy cpu-ra gyors vagy lassu kodot irnak.
Egyébként meg naná hogy lehet 40+x-es gyorsulás, csak a 7750m helyére egy desktop gpu kerül. 7970-nel jóval több is.
Oke, de vannak akik cpura is eleg jo kodot tudnak irni. Sok feladat van, amikor gpu-ra konnyebb jo kodot irni, ez igaz. Olyan is van, amikor kb. csak peak power szamit. De azert egy atlagos feladatnal nincs ilyen speedup.
-
lenox
veterán
válasz
Zoli0726 #218 üzenetére
Nem biztos, hogy ertem, bemondtal egy 24-szeres gyorsulast i7 extreme vs kis laptop gpu. Melyik linkelt eredmenyben volt a gpu 24-szer gyorsabb? Ja, hogy semmelyikben... Hat errol van szo... Mondjuk olyan szar c kodot nyilvan lehet irni, aminel 24-szer gyorsabb lesz egy 7750m, csak ez nem a cpu hibaja...
-
lenox
veterán
válasz
Zoli0726 #209 üzenetére
Az ezzel a baj, hogy mar a llano is gyorsabb. Es mondj egy peldat olyan algoritmusra, amit hasznalnak jatekban, es zero copyval nem oldhato meg, de majd a kaveri megoldja. Szoval ha akarta volna valaki mar evek ota hasznalhatna. Masreszt tovabbra is tartom, hogy nem fogja magat labonloni az amd azzal, hogy az i7 usereket beszopassa, szerintem nem erdekuk. Amugy is a dgpun is lehet azert sokmindent futtatni, szoval ha gpgpuzni akarnak az is megoldhato, plane egy amd gpuval.
I7 extreme vs kis laptop tema az azert gyanus, ilyen gyorsulas nem szokott lenni, szoval gyanus, hogy algoritmikusan is el volt cseszve valami az i7-en. Es szerintem van valamennyi tapasztalatom, 2003 ota gpguzok, 2007 ota cudazok, 2010 ota openclezek. Iden k6000 es k5000m marketing eventhez is hivott az nv, szoval ok is elhiszik, hogy ertek hozza, persze masnak ettol meg nem kell.#214 Mar reg kinyilt, zero copy, akit erdekelt mar akkor is hasznalta.
-
lenox
veterán
válasz
sad_Vamp #197 üzenetére
De azért ne mond azt, hogy nem különbség az, hogy régi motort pofozzák hozzá a nextgenhez, vagy eleve úgy írják meg a motrot
Nem mondok ilyet. Olyat mondok, hogy csodalkoznek, ha beszopatnak az i7+amd gpu usereket. Foleg ha a celjuk egyelore az, hogy a mantle terjedjen.
-
lenox
veterán
válasz
sad_Vamp #195 üzenetére
ha már most használná
Hamis allitasbol minden kovetkezik. Nyilvan konzolban nincs diszkret vga, tehat ott azert nem hasznaljak ezt a modszert. PC-n meg lehet almodozni, hogy majd lesz ilyen, meg lehet azt hinni, hogy mar a bf4 is apuval sokkal gyorsabb lesz decemberben, mint nem apuval, abba mar nem szolok bele, azt ugy is mindjart meglatja mindenki.
-
lenox
veterán
Azt lenne meg jo tudni, hogy a CU-k szamanak fuggvenyeben hogy skalazodik a sebesseg, nyilvan mivel amugy is legtobb esetben a memory bandwidth a bottleneck, ezert nem linearis lesz.
Új hozzászólás Aktív témák
Hirdetés
- AMD Radeon™ RX 470 / 480 és RX 570 / 580 / 590
- Mibe tegyem a megtakarításaimat?
- Yettel topik
- Autós topik
- One otthoni szolgáltatások (TV, internet, telefon)
- Elemlámpa, zseblámpa
- Delta Force (2024)
- Jövőre az Apple megérkezhet 2019-be
- Egy helyre gyűjti az eltérő áruházak játékait a Microsoft
- sziku69: Fűzzük össze a szavakat :)
- További aktív témák...
- AMD Ryzen 7 5700X processzor eladó /Garanciás/
- Ryzen 9 7900X /// Bontatlan // Üzletből, számlával és Garanciával!
- Ryzen 9 7900 /// Bontatlan // Üzletből, számlával és Garanciával!
- Ryzen 7 5700X3D /// Bontatlan // Üzletből, számlával és Garanciával!
- Ryzen 7 8700G /// Bontatlan // Üzletből, számlával és Garanciával!
- Bomba ár! Dell Latitude E7240 - i7-4GEN I 16GB I 256SSD I 12,5" HD I HDMI I Cam I W10 I Garancia!
- Telefon felvásárlás!! Apple Watch SE/Apple Watch SE 2 (2022)
- Huawei P20 Lite 64GB, Kártyafüggetlen, 1 Év Garanciával
- Csere-Beszámítás! MSI Gaming X RTX 4060Ti 16GB GDRR6 Videokártya!
- Beszámítás! Apple Mac mini 2023 M2 Pro 16GB 512GB SSD számítógép garanciával, hibátlan működéssel
Állásajánlatok
Cég: CAMERA-PRO Hungary Kft
Város: Budapest
Cég: Promenade Publishing House Kft.
Város: Budapest