- iPhone topik
- Milyen okostelefont vegyek?
- Eltűnhet a Dinamikus Sziget
- Motorola Edge 40 neo - színre és formára
- Honor Magic6 Pro - kör közepén számok
- Vivo X200 Pro - a kétszázát!
- Erős specifikáció, kompakt formában
- Galaxy Z Fold6-hoz viszonyítva mutatják, mennyivel lesz vékonyabb a Z Fold7
- Samsung Galaxy A55 - új év, régi stratégia
- One mobilszolgáltatások
Új hozzászólás Aktív témák
-
-
lenox
veterán
válasz
Zoli0726 #248 üzenetére
írni nem írok,
Nyilvan a local mem-be iras soran kerul adat, errol az irasrol beszeltem. Amikor mar benne van es mindenki csak olvassa nem kell szinkronizalni. Amikor eloszor masolod globalbol localba akkor kell.
Egyébként én nagyon úgy érzem, hogy elkanyarodtunk arról, hogy nem csak a cpu/gpu peak a lényeg, hanem az adathozzáférés, ami gpu esetében jobb.
Lehet errol is beszelni. Cpu-nal alapvetoen a regiszterekben levo adatokbol kellene dolgozni, ahol nem kell az adatra varni, tehat ez megy pl. full 4 GHz-cel. Nyilvan van, hogy level1 cache-t kell elerni, akkor van kulonbseg, de azert van 16 xmm register, hogy ne minden egyes utasitasnak kelljen level1 cachet olvasni. Szoval szerintem egy jol megirt kodban altalaban nem fog kijonni ide 2-szeres szorzo. Amugy valoban sp floatokat tekintve nehalemnel 4 byte/clock az olvasasi sebesseg egy feldolgozora vetitve, mig pl. 7750-nel 8 byte/clock. Ebbol azt hihetned, hogy valoban szorozni kell kettovel, csakhogy a valosagban ez nem igy mukodik. Ha valoban ez a sebesseg a bottleneck, akkor a nehalem vs 7750m eseten (figyelembe veve, hogy az i7 3.33 GHz-en a 7750m meg 575 MHz-en megy, 3330/575=5.8) az arany (512feldolgozo * 8 byte )/( 4core * 4feldolgozo * 4byte * 5.8)=11, szoval kb. ugyanaz az arany, mint a peak gflopsnal.
-
lenox
veterán
válasz
Zoli0726 #244 üzenetére
De erre az a bevett szokas, hogy mondjuk van 4096 adatod, 256 threaded, mindegyik thread beolvas 16 adatot, utana szink, es maris elerheto mindenkinek mind a 4096. Szink nelkul nem tudom, hogy lehet ilyet csinalni, illetve olyat nyilvan lehet, hogy minden thread mind a 4096-ot olvassa es irja a local mem-be, csak nem tudom miert lenne jo igy csinalni.
A cpu kód meg természetesen nem akkor optimális mint a gpu, de senkit nem érdekel, mikor optimális az opencl kód cpu-n ha úgyis a gpu-n akarom futtatni.
Ezt csak amiatt irtam, hogy a linkelt eredmenyek ertelmezesenel erdemes figyelembe venni, hogy egy cpu optimalis kod joval gyorsabb az ott mert sebessegnel. Termeszetesen ha van olyan opcio, hogy gpun futtatsz, akkor a cpu kodot felesleges gyurni, amugy is sokkal idoigenyesebb. Csak erdemes tudni, hogy esetleg egy sok alkalommal hasznalt szoftver eseteben (mint pl. egy jatekmotor) azert van valoszinusege, hogy lesz aki megcsinalja.
-
lenox
veterán
válasz
Zoli0726 #242 üzenetére
Tovabbra sem ertem. Az elobb azt irtad, hogy az adatok fuggetlenek, nem osztoznak rajta a work itemek, most meg megis osztoznak? Ha osztoznak, akkor kene szinkronizalni. Ha nem osztoznak, akkor hasznalhatnad a regiszterfilet. Amugy az vilagos, hogy van olyan implementacio, ahol a local memory akar 6-szor lassabb a regisztereknel?
-
lenox
veterán
válasz
Zoli0726 #236 üzenetére
Hogy hasznaltal local memoryt szinkronizacio nelkul? Nyilvan nem ugyanaz a kod optimalis cpun es gpun, szoval azert mert a local memory hasznalata eseten a linkeden sokkal gyorsabb a gpu, az nem jelenti azt, hogy ez a leggyorsabb kod cpun. De amugy a sajat programod eseten is lassabb volt az opencl cpun, mint a c kod, szoval ez nem kellene ujdonsag legyen.
Inkább nekem kellene a te kódjaidat megnéni, ha számodra ezek az, eredmények Ennyire hihetetlenek. Persze nvidia openclben le van maradva mint a borravaló, a cuda meg király, de kevésbé gyors.
Nyilvan lenne mit tanulni belole
. Biztos nehez kikovetkeztetni, de az amd miatt openclezek elsosorban.
#237:
Persze, lehet ilyet csinalni, csak azt nem latom, hogy mennyire eri meg, ugy ertem eleg kis resze lehet a usereknek akik amd apu + amd dvga komboval nyomulnak.
-
lenox
veterán
válasz
Zoli0726 #234 üzenetére
Ez eleg erdekes megkozelites, szoval a savszelesseg es a peak performance-ok hanyadosat ossze kell szorozni? Vagyis ha duplara novelem a memoria savszelesseget es mondjuk megketszerezem a feldolgozok szamat, akkor a varhato teljesitmeny negyszeresere no, jol ertem?
Mint mondtam, ha konkrétan alá tudod,támasztani, hogy amit mondtam kivitelezhetetlen, akkor hallgatlak, addig viszont a trollkodásodra nem figyelek tovább.
Biztos nagyon nehezen erthetoen fogalmaztam, megprobalom mashogy. A cpu kododnal nagy valoszinuseggel lehet gyorsabbat irni. Ha esetleg van kedved privatban elkuldheted, ha lesz ra idom, megnezem.
-
lenox
veterán
válasz
Zoli0726 #229 üzenetére
Sikerült egy jó gpu-s kódot írni, és még én vagyok a béna, biztos elrontottam valamit
,
Ez mar a sokadik ferdites, pont a gpus kododra nem mondtam meg semmit. A peak performance es az altalad linkelt szamok alapjan is nyilvanvalo kene legyen, hogy a cpus kodod hatekonysaga kisebb, mint a gpus. Miert kene erre ramondjam, hogy optimalis, mikor gyanus, hogy nem az?
-
lenox
veterán
válasz
Zoli0726 #227 üzenetére
Llanonal vram? Meg pci busz? Biztos tudod, mi a zero copy?
Nyilván mindenki szar, csak te vagy király, én meg abban lelem örömömet, hogy fórumokon összehazudozzak mindenfélét, meg szar c kódot írok. Nem birom az ilyet.
Hat a fentiek tekinteteben elgondolkoztato, de nem mondtam ilyet. De amugy nem te kezdted ugy, hogy nem lattam meg gpun futo kodot? Azt birtad?
Ugye tudod, hogy opencl-t cpu-n is lehet futtatni, gondolod nem próbáltam ki, de igen, kipróbáltam, és még rosszabb eredményt kaptam cpu-val.
Ez nem tudom mit bizonyitana vagy mit cafolna.
törődj bele, hogy más is lehet sikeres, nem csak te.
Ezt mar vegkepp nem ertem. Nagyon sok nalam sikeresebb ember van. Mondjuk ennek nincs koze ahhoz, hogy gpu-hoz ertenek-e, vagy cpu-ra gyors vagy lassu kodot irnak.
Egyébként meg naná hogy lehet 40+x-es gyorsulás, csak a 7750m helyére egy desktop gpu kerül. 7970-nel jóval több is.
Oke, de vannak akik cpura is eleg jo kodot tudnak irni. Sok feladat van, amikor gpu-ra konnyebb jo kodot irni, ez igaz. Olyan is van, amikor kb. csak peak power szamit. De azert egy atlagos feladatnal nincs ilyen speedup.
-
lenox
veterán
válasz
Zoli0726 #218 üzenetére
Nem biztos, hogy ertem, bemondtal egy 24-szeres gyorsulast i7 extreme vs kis laptop gpu. Melyik linkelt eredmenyben volt a gpu 24-szer gyorsabb? Ja, hogy semmelyikben... Hat errol van szo... Mondjuk olyan szar c kodot nyilvan lehet irni, aminel 24-szer gyorsabb lesz egy 7750m, csak ez nem a cpu hibaja...
-
lenox
veterán
válasz
Zoli0726 #209 üzenetére
Az ezzel a baj, hogy mar a llano is gyorsabb. Es mondj egy peldat olyan algoritmusra, amit hasznalnak jatekban, es zero copyval nem oldhato meg, de majd a kaveri megoldja. Szoval ha akarta volna valaki mar evek ota hasznalhatna. Masreszt tovabbra is tartom, hogy nem fogja magat labonloni az amd azzal, hogy az i7 usereket beszopassa, szerintem nem erdekuk. Amugy is a dgpun is lehet azert sokmindent futtatni, szoval ha gpgpuzni akarnak az is megoldhato, plane egy amd gpuval.
I7 extreme vs kis laptop tema az azert gyanus, ilyen gyorsulas nem szokott lenni, szoval gyanus, hogy algoritmikusan is el volt cseszve valami az i7-en. Es szerintem van valamennyi tapasztalatom, 2003 ota gpguzok, 2007 ota cudazok, 2010 ota openclezek. Iden k6000 es k5000m marketing eventhez is hivott az nv, szoval ok is elhiszik, hogy ertek hozza, persze masnak ettol meg nem kell.#214 Mar reg kinyilt, zero copy, akit erdekelt mar akkor is hasznalta.
-
Loha
veterán
válasz
Zoli0726 #209 üzenetére
Azért az is túlzás, hogy egyedül a bf használ ki négy magot Ott Dirt3 stb, vagy grid2, far cry, cryengine, tomb raider, asassins creed, metro.
Egyáltalán nem túlzás, de 4+ magra gondoltam a BF esetében. Amiket itt felsoroltál játékokat, azok főleg abba a kategóriába tartoznak, amiknél az AI-t, fizikát, hangot, stb. szétdobták külön szálakra, hogy a főszálnak jusson egy teljes CPU mag, de a játék nem képes egyenletesen kihasználni 4+ magot és azonnal CPU limitbe ütközik, amint a proci egyszálas teljesítménye nem elegendő. -
válasz
Zoli0726 #206 üzenetére
"a másik házon belül szeretné használni, a saját érdekei motiválják. tipikusan ilyen szerintem a pénzügy, ahol az elemzések és adatok feldolgozása nem kevés számítással jár, tehát bevett szokás gpgpu-n számítani ezeket, ezekre már rég megszülettek az implementációk."
Ezek mind rendkívül számításigényes feladatok, amikre külön dedikált VGA(kat) használnak.
-
sad_Vamp
őstag
válasz
Zoli0726 #201 üzenetére
az a baj hogy szigorúan technikailag biztos hogy igazad van, hisz ezzel dolgozol. Sőt.
Viszont elfelejted a dolog üzleti oldalát. Sajnos tényleg az a helyzet, hogy a legtöbb progi és játék még a 2 magot sem tudja normálisan kihasználni az ezeréves gyorsitó utasitásokat sem... nem hogy majd ezt a totál új dolgot. Reménykedem én is benne hogy majd a nextgen miatt ez felgyorsul és felfut... de amint irtuk a konkurencia tűzzel vassal ellene lesz a dolognak, amíg nekik nem lesz saját megoldásuk rá.
-
Loha
veterán
válasz
Zoli0726 #201 üzenetére
a mai motorok már simán leterhelnek 4+ magot is, tehát van bennük párhuzamosítás bőven
Ez sajnos nem igaz, AAA játékok közül BF3, BF4, ami képes erre, aztán kb. ennyi, a többi játék csak arra képes, hogy egynél több procimagot használjon. Mióta vannak többmagos procik?A konzolok gpu-ját már most használhatják ilyen feladatokra a grafika számítása mellett
Ezzel az a gond, hogy ha grafika helyett a CPU kiváltása használod a GPU-t, akkor kevesebb jut a grafikára, és az már most is látszik, hogy a nextgen konzoloknál a teljes GPU -ra szükség lesz a natív 1080p-hez.Ahol meg egy átlagfelhasználó vár, ott már régesrég van gpu gyorsítás, lástd winrar, mindenféle videókódolók, photoshop.
Pl. videókódolásnál a GPU-val készült végtermék sokkal rosszabb minőségű mint a CPU-s, ha meg a CPU-sat GPU minőségre butítod nem is lassabb, szóval nagyon kezdetleges még ez a terület. -
petkow
tag
válasz
Zoli0726 #113 üzenetére
Annyit tegyünk hozzá, hogy a játékokra is érvényes lehet az előny csak azt kéne már elfelejteni, hogy az APU GPU részét - bár tudom GPU graphics processing unit - a játék grafikai megjelenítéséhez kötik.
A játékoknál eleve nem a CPU + dVGA-s összetétet kéne az APU only konfiggal összevetni, hanem APU + dVGA, ahol a dVGA felelős a grafikai megjelenítésért, az APU un. GPU-s része pedig a párhuzamosítható feladatokat számítják a játékban, ami nem grafika. (fizika, ai stb.).
Lehet hogy az lenne a helyes, ha a rohadt "G"-betűt letörölnénk, és mondjuk PPU-nak (Paraller Processing Unit)-nak neveznénk el. Akkor lehet egy csomó ember megvilágosodna, és megértené, hogy az APU-nak nem (csak) egy integrált "videókártya" a lényege, és nem is igazán arra való hogy a játékokba versenyezzen a dVGA-kkal grafikus megjelenítésben. -
válasz
Zoli0726 #121 üzenetére
De hol jön a képbe a HSA (nevű UFO - idegen lény...)? Talán az egységes címtérnél...vagy máshol?
Úgy is kérdezhetném:
".................................. - ezaz opencl." idézet vége.
Akkor:
????????????????? - ez a HSAMi kerül a ? helyére
Jaaaa, gondolom én! A HSA nevű valami biztosít egy olyan image-képet, ami fizikailag 2 fajta memóriát (cpu-n és vga-n) szóval egy olyan felületet/nézetet, ahol egybetúrja az ilyen és az olyan memóriák kis egységeit(szektorait pl). Szélsőségesen: az egyes számú címen a memória egy címtere található, a kettes számún a VGA memóriának egy címtere található és így tovább millió címtérrel bezárólag.
-
GeneraL_XTX
veterán
válasz
Zoli0726 #113 üzenetére
És ez az, ami még csak a távoli jövő, mert ehhez bizony szoftverek is kellenek. Szoftver készítőknek meg nagy felhasználóbázis, hogy meg is térüljön a belefektetett munka. És ez az, ami a Kaverinak nem nagyon van, és még egy darabig nem is nagyon lesz. Gondoljunk bele a 64bit is mikor kezdett el igazán elterjedni. Nem az Athlon64-ek korában, hanem amikor az Intel is beletette a belépőszintű procijaiba.
Addig bizony a Kaveri is csak egy olyan APU lesz, amivel dVGA nélkül lehet kompromisszumokkal játszani is.
-
Sinesol
veterán
válasz
Zoli0726 #113 üzenetére
Igy igaz, én is erröl irtam eddig, csakhat levan ragadva jatekok szintjen a kommentelök nagyresze... az a szanalmas hogy nincs is rendes tesztprogram igy jatekokkal kell tesztelni ez is közrejatszik a hibas megitelesben hogy sokak vga alternativanak hiszik...
Lényegében az OpenCl-es teszt az egyetlen amit erdemes nezni a cikkben, ott szep elörelépés van, elég nagy dobasnak igerkezik a kaveri, persze csak ha jönnek rendes programok, gamek alá.. -
#06658560
törölt tag
Csak gyakorlatilag az összes CAD-t. Biztos sufniban lettek összerakva.
#88 pakriksz: kivéve a fogyasztási korlát, pluz mint látjuk a memória sávszél etetni adattal komoly korlát.
#92 Zoli0726: hétköznapi használatban, office, internet, stb. pedig hiába van párhuzamosan több feladat, akkor sme fog tudni a gpu gyorsítani-maximum videodekódolást, más esetre meg marad a CPU.
-
#06658560
törölt tag
-
Bingisz
addikt
Nyílván valami jó dolognak a kezdete, de itt sokan úgy gondolják, hogy jövőre az Intel lehúzhatja a rólót, ledózerolhatják a fejlesztőrészleget, és behinthetik sóval a helyét, mert az AMD a Mantleval megváltja a világot.
Szvsz. mire ez az egész eljut olyan szintre, hogy tényleg kiválthatja a CPU+DVGA kombót a középkategóriás szegmensből, addigra ott lesz az Intel és az Nvidia terméke is. De addig marad a jelenlegi felállás.
(#85) pakriksz : Szerintem nem fáj nekik, csak időre van még szükségük.
(#81) Sinesol: Gondolom Single player teszt. Én pedig azt olvastam mindenhol, hogy a multihoz viszont nagyon kell már az i5...
Új hozzászólás Aktív témák
Hirdetés
- Ryzen 9 7900X /// Bontatlan // Üzletből, számlával és Garanciával!
- Ryzen 9 7900 /// Bontatlan // Üzletből, számlával és Garanciával!
- Ryzen 7 5700X3D /// Bontatlan // Üzletből, számlával és Garanciával!
- Ryzen 7 8700G /// Bontatlan // Üzletből, számlával és Garanciával!
- Ryzen 5 9600X /// Bontatlan // Üzletből, számlával és Garanciával!
- ROBUX ÁRON ALUL - VÁSÁROLJ ROBLOX ROBUXOT MÉG MA, ELKÉPESZTŐ KEDVEZMÉNNYEL (Bármilyen platformra)
- BESZÁMÍTÁS! MSI B450M R7 2700X 32GB DDR4 512GB SSD RTX 3050 8GB Rampage SHIVA Thermaltake 500W
- BESZÁMÍTÁS! MSI Z390 i5 9400F 16GB DDR4 512GB SSD RTX 2060Super 8GB Corsair Carbide Series 200R 600W
- AKCIÓ! Dell Optiplex 5050 SFF asztali számítógép - i5 7500 8GB DDR4 256GB SSD HD630 Win10
- Xiaomi Redmi 10 128GB, Kártyafüggetlen, 1 Év Garanciával
Állásajánlatok
Cég: Promenade Publishing House Kft.
Város: Budapest
Cég: PCMENTOR SZERVIZ KFT.
Város: Budapest