Keresés: - [Re:] Mit tudhat majd vajon a Kaveri GPU-ja?

Legfrissebb anyagok

Mobilarena témák

PROHARDVER! témák

IT café témák

GAMEPOD témák

LOGOUT témák

Keresés

Hirdetés

!! SZERVERLEÁLLÁS, ADATVESZTÉS INFORMÁCIÓK !!

Új hozzászólás Aktív témák

#254 Zoli0726 aktív tag lenox #251

Új Válasz 2013-12-02 14:49:54 #254
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #251 üzenetére

Nem, egyelőre csak ő kritizál engem, egy olyan kódról ami rossz, bár sosem látta
Peak/peak nem jön ki? Kész, mivel minden kód pont ugyanazokat a műveleteket hajtja végre, mint a peak számolás, float összeadást + szorzást, ezért lehetetlen, hogy ennél jobb arányt kapjak.
Tény, hogy az opencl-es kód megkérdőjelezhetően optimális cpu-n, viszont semmiképp sem érzem úgy, hogy irreleváns dolgot mondtam volna, tekintve, hogy a linkelt algoritmusokban is volt 33x-os gyorsulás is.
Egyszerűen azok a feladatok a gpu-nak feküdtek, ha annyira, hát annyria. Ha baki lett volna benne, már rég észrevették volna, mivel amint mondtam, mi nem aknakeresőt írunk. Ezzel együtt nem kicsit nagyképűen azt állítod, hogy az velem együtt az összes munkatársam is béna, és te mennyivel jobb vagy csak azért, mert a gpu egy feladatban, aminek sem az elméletét sem az implementációját nem ismered, el tudott húzni ennyivel. Ezzel együtt leszarozod a computebench dolgozóit is, mert nekik 33x-os teljesítménytöbblet is kijött, amiben ha másfélszeres overhead van, még úgy is kijön amiről beszéltem.
Ezzel én ezt a latolgatást befejeztem, amint az látható úgy sem fogunk megegyezni.
Azt, hogy nem láttál gpu-t egyáltalán nem neked szántam. Nem te írtad, hogy egy corei7-t sosem lehet gyorsabb mint egy kaveri. Az oda volt címezve, de ezt már mondtam egyébként is.
#248 Zoli0726 aktív tag lenox #245

Új Válasz 2013-12-02 12:42:02 #248
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #245 üzenetére

Csak olvasok, írni nem írok, miféle hülyeség lenne már, hogy 2 work-item ugyanarra a helyre írja az eredményét. Természetesen az olvasás is úgy van megoldva, hogy eltoltan olvassák a work-itemek a tömböt, hogy ne legyen adathozzáférési probléma. Az eredmény elfér egy változóban is. Szinkronizálva nincs, de kb 0 az esélye, hogy ugyanabban az időben ugyanazt az adatot próbálná meg olvasni két work-item. Annyira azért nem gyakoriak az olvasások a sok számolás miatt. Ahhoz valakinek a 256 közül nagyon be kellene gyorsítani. Nem vizsgáltam ilyen szempontból a dolgokat, de ha 1-2 fennakadás még lenne memória olvasás miatt, annyit a szink is rontana.
Egyébként én nagyon úgy érzem, hogy elkanyarodtunk arról, hogy nem csak a cpu/gpu peak a lényeg, hanem az adathozzáférés, ami gpu esetében jobb.
#244 Zoli0726 aktív tag lenox #243

Új Válasz 2013-12-02 10:19:29 #244
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #243 üzenetére

Tényleg nem érted, de lehet, hogy én fogalmaztam érthetetlenül.
Vannak adataim, minden work-item-nek végig kell magát zongorázni rajtuk. Egyszerűen, csak annyit csinálok, hogy a globálisból a lokálisba másolom, és ott zongoráztatok, mivel belefér. Bekerülnek lokális tömbökbe. Tehát a teljes tömbön végig kell menni minden work-itemnek. Viszont ahhoz túl nagy, hogy minden work-itemnek odamásoljam a teljes tömböt, egy köztes megoldás az, hogy akkor a lokálisba másolom, bár közösködni kell, de onnan mégiscsak gyorsabb az elérés, mint a globálisból. A cpu kód meg természetesen nem akkor optimális mint a gpu, de senkit nem érdekel, mikor optimális az opencl kód cpu-n ha úgyis a gpu-n akarom futtatni. A feldolgozásnál ettől függetlenül nem befolyásolják egymást a work-itemek, így értem a függetlenséget, tehát nincs szükség szinkronizációra. Remélem így már világos.
#242 Zoli0726 aktív tag lenox #240

Új Válasz 2013-12-02 07:28:07 #242
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #240 üzenetére

Azért nem, mert oda a privát adatok kerülnek, ahhoz viszont túl kicsi, hogy minden work itemnek külön odamásoljam az adatokat. Ha lehetne rajta osztozni, akkor jobb lenne, de nem lehet. Egyszeri változók nyilván oda kerülnek.
#239 Zoli0726 aktív tag lenox #238

Új Válasz 2013-12-01 21:44:48 #239
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #238 üzenetére

Nagyon egyszerűen. Szinkronizációra nincs szükség, az adatok egymástól teljesen függetlenek. Ahogy az eredmények is. Lokális memóriát úgy használok, hogy az adatokat a globálisból a lokálisba másolom, és attól kezdve local id-val idexelek. Illetve a változók is lokális memórában tömbök, így függetlenül elérhetik őket a work itemek. Szerencsére belefértek a keretbe. Ez egy bevett szokás:
http://www.openclblog.com/2011/03/is-your-local-memory-really-local.html?m=1
#236 Zoli0726 aktív tag lenox #235

Új Válasz 2013-12-01 15:05:31 #236
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #235 üzenetére

Nem azt jelenti, hogy így össze kell szorozni, hanem azt, hogy valszeg nálam ennyit jelentett, de igazoltam is, mennyit jelent a lokális memória használata a fenti linkben, amiből az következik, hogy sokat, tehát elérhető Velük az a teljesítmény amiről itt szó van. Tehát nem minden a gpu peak/cpu peak. Azzal a CPU kóddal meg az égvilágon semmi baj nincs, hidd el ülnek még mellettem a munkahelyen olyanok, akik már akkor,programoztak, amikor én még csak a kallofdjutit ismertem a gépen, nem találtak benne kivetnivalót. Nem mentem át assembly-be optimalizálni,de logikailag korrektül volt felépítve, azóta meg ha csak lehet gpu-zunk. Inkább nekem kellene a te kódjaidat megnéni, ha számodra ezek az, eredmények Ennyire hihetetlenek. Persze nvidia openclben le van maradva mint a borravaló, a cuda meg király, de kevésbé gyors.
#234 Zoli0726 aktív tag lenox #233

Új Válasz 2013-12-01 14:11:54 #234
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #233 üzenetére

Csak a te kedvedért:
https://compubench.com/compare.jsp?config_0=13875409&config_1=13503874
Egyébként te mint gpu programozó tudhatnád, hogy nem csak számítási teljesítményben erősek a gpuk, hanem az adat elérésében.
Ez is nagyons sokat jelent. Gpu\cpu 10x +adatelérés 2,5, meg is van, amit a fenti link is,igazol.
Nem is értem miért próbálod azt mondani, hogy csak a gpu számít, és mindegy lenne ha 7970 mellett ddr3 van. A memória sávszélességét és késleltetését vedd figyelembe.
De te egyébként mindent csak megcáfolsz, a saját szabadon kívül meg semmit nem tudsz alátámasztani. Mint mondtam, ha konkrétan alá tudod,támasztani, hogy amit mondtam kivitelezhetetlen, akkor hallgatlak, addig viszont a trollkodásodra nem figyelek tovább.
#232 Zoli0726 aktív tag korcsi #231

Új Válasz 2013-12-01 11:26:53 #232
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz korcsi #231 üzenetére

Pontosan, plusz ehhez még vedd hozzá, hogy a gpu ramja mennyivel gyorsabb, illetve, hogy a lokális mennyivel gyorsabb, mint a vram. Ha számításior abban tárolod az adatokat, az elérés a töredékére csökken.
#229 Zoli0726 aktív tag lenox #228

Új Válasz 2013-12-01 09:03:39 #229
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #228 üzenetére

Azt bizonyítja, hogy az opencl-es megvalósítás nem volt jobb, mint a c, mégis gyorsabban lefutott a gpu-n, igazából a kódrész szinte teljesen megegyezett, valszeg az optimalizáció nem tud olyan jó lenni opencl-ben mint a g++ -Ofast.
Igazad van, apu-nál már majdnem ugyanaz a zero copy, mint az egységes címtér. Ettől függetlenül a bemenő buffert akkor is létre kell hozni, csak mutatókból fog állni.
Miféle normál feladat nem lesz ilyen mértékű gyorsulás? Nem értelek. Mi a csuda az, hogy normál feladat? És ki beszélt itt normál feladatról? Úgy hangzott mintha én egy aknakeresőn próbáltam volna ki? Nem ott. Arról, hogy más környezetben mekkora lesz a gyorsulás egy szót sem mondtam, viszont azt elismertem, hogy feladat válogatja és az függvény szinte gpu-ra lett kitalálva.
Sikerült egy jó gpu-s kódot írni, és még én vagyok a béna, biztos elrontottam valamit , a 975/7750M elméleti teljesítménye, illetve a fentebb linkelt alogritmusok is azt bizonyítják, hogy igenis elérhető ilyen mértékű gyorsulás, ezek után vagy bizonyítsd be, hogy nem, nem érhető el, vagy akkor magadat minősítsd.
#227 Zoli0726 aktív tag lenox #224

Új Válasz 2013-12-01 03:00:02 #227
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #224 üzenetére

Nyilván mindenki szar, csak te vagy király, én meg abban lelem örömömet, hogy fórumokon összehazudozzak mindenfélét, meg szar c kódot írok. Nem birom az ilyet. Mint ahogy szerinted a zero copy = azonos címtér, másolgassad csak a mutatóidat és hivatkozzál a ramba a pci buszon keresztül, mikor még az is drámai gyorsulást hoz, ha nem a vramot, hanem a lokális memóriát használod.
Ugye tudod, hogy opencl-t cpu-n is lehet futtatni, gondolod nem próbáltam ki, de igen, kipróbáltam, és még rosszabb eredményt kaptam cpu-val. Egyébként sem az a proci volt, amit belinkeltem, hanem egy i7 975 extreme, de gondoltam, ha lúd hát legyen kövér. Erre te elosztottad a 72-t 3mal..., törődj bele, hogy más is lehet sikeres, nem csak te.
Egyébként meg naná hogy lehet 40+x-es gyorsulás, csak a 7750m helyére egy desktop gpu kerül. 7970-nel jóval több is.
#222 Zoli0726 aktív tag izee #221

Új Válasz 2013-11-30 22:36:18 #222
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz izee #221 üzenetére

Nem, az egyik c megvalósítás volt openmp-vel, a másik opencl megvalósítás.
A core-i7 processzormagok vs a laptop gpu.
Ahogy azt be is linkeltem fentebb.
#218 Zoli0726 aktív tag lenox #215

Új Válasz 2013-11-30 22:21:39 #218
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #215 üzenetére

[Link]
Aha, melyik algoritumsban is volt gyorsabb a core-i7 a szekvenciális kívül? Ja, hogy semelyikben
Az viszont tény, hogy az egy nagyon jól párhuzamosítható rész volt, 0 szinkronizálás, sok-sok szál.
#216 Már megint ezzel jössz, fogd már fel, hogy nem csak az felhasználó, aki a gépe előtt a facebook-ot nézegeti. Az ilyen felhasználó nem fog belőle profitálni, ők a szuperszámítógépből, meg a cudá-ból meg a 64 bitből sem profitálnak, mégis megszülettek ezek a dolgok, és hasznosak és elterjedtek.
És már azt is leírtam 2 hozzászólással feljebb, hogy miért nem mindig jó a dvga, és lehet hatékonyabb egy huma-s apu
#214 Zoli0726 aktív tag D1Rect #212

Új Válasz 2013-11-30 22:04:51 #214
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz D1Rect #212 üzenetére

A te gépeden Aki gpgpu programozással foglalkozik annak meg egy újabb kapu nyílik ki, amit örömmel fog használni.
Ahhoz meg egyértelmű, hogy idő kell, hogy az első eredmények megszülessenek, emiatt senki sem hibás, így működik a világ. De biztos ezt akarod hallani: megéri kaveri aput venni ma egy mezei usernek? Az egységes címtér miatt biztosan nem, nincs a vagy nem lesz a közeljövőben olyan program, ami ki fogja használni.
Aki meg a maga hasznára fejleszt az meg fogja venni a fejlesztés elkezdéséhez.
#213 Rendben, akkor ne vegyél játékra kaveri aput. Biztosan az összes motort pontosan azon az elven írták meg, amit te itt felvázoltál, és még csak véletlenül sem lehet másképp, nem egyet-kettőt, az összeset.
Az meg, hogy ezek a programok hány szálat használnak ki azt egy cpu skálázódásból jól lehet követni, ha egy 8 szálas fx meg tudja közelíteni a core-i5 ök teljesítményét, amitől szál/szál arányban jócskán lemarad, akkor igenis képes a motor a 8 szálra.
#211 Zoli0726 aktív tag D1Rect #208

Új Válasz 2013-11-30 21:50:01 #211
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz D1Rect #208 üzenetére

Tény, viszon amint azt már említettem, kis feladatot nem éri meg dgpu-ra bízni még akkor sem ha párhuzamosítható, látsd:
ciklus 1000000x{
másolás
kernel hívás
visszamásolás
} ciklus vége
ilyenkor hiába hívod meg sokszor a műveletet mindig ott lesz az a toldalék, ami miatt már nem éri meg a gpu-t bevetni, viszont egy apunál, ahol a címtér egységes, csak a számolás marad. Kicsin kicsit nyersz, de ha sokszor kell megismételni akkor már számítani fog.
#209 Zoli0726 aktív tag lenox #207

Új Válasz 2013-11-30 21:43:55 #209
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz lenox #207 üzenetére

"i7től szerintem a valós használatban sohasem lesz gyorsabb a Kaveri APUk bármelyike."
A személyes stílus erre vonatkozott.
A kaveri apu nagyobb számítási teljesítménnyel rendelkezik mint a leggyorsabb i7, ezt a programozó vagy kihasználja vagy nem, de ez már az ő sara.
Pont ez a hozzáállás ment anno a munkahelyemen. Sokrészecskés szimulációnál egy lépés tette ki a futási idő 95%-át. Futott is vagy 3 napig corei7 extreme-en. Én meg gondoltam egyet, és megírtam a függvényt opencl-ben, és a kis laptopomon elindítottam, láss csodát, 3 óra alatt megcsinálta. Ekkor mondta mindenki azt, hogy hoppá! Mégiscsak megérné kiszakadni a 10 éves programozási módszerek alól és valami újat tanulni.
Ezért érdemes akkor dobálózni az ilyesmivel, ha már kipróbálta valaki.
Nyilván mint minden, ez sem mindig jön be. Egyrészt vannak olyan esetek, amikor nem érdemes vele foglalkozni, pl word, total commander, nagyjából mindegy min fut, nem kell várakozni. Sok számolást igénylő dolgoknál viszont már fontosak ezek a dolgok, persze előfordul, hogy nem lehet párhuzamosításhoz nyúlni, de ilyenkor a készítők ezt már jól átgondolják, illetve a játék, ahol kritikus, hogy a képkocka időben a képernyőre kerüljön. Azért az is túlzás, hogy egyedül a bf használ ki négy magot Ott Dirt3 stb, vagy grid2, far cry, cryengine, tomb raider, asassins creed, metro. Az meg hogy van egy skyrim aminek őskori motorja van felcicomázva, vagy egy cod, ami őskori grafikát vonultat fel crysis3 gépigénnyel már nem az apu hibája.
#206 Zoli0726 aktív tag sad_Vamp #205

Új Válasz 2013-11-30 21:08:12 #206
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz sad_Vamp #205 üzenetére

2 féle program, vagy programozó létezik:
az egyik azért írja a programját, hogy eladhassa, tehát másnak készül, nem cégen belül lesz felhasználva.
a másik házon belül szeretné használni, a saját érdekei motiválják. tipikusan ilyen szerintem a pénzügy, ahol az elemzések és adatok feldolgozása nem kevés számítással jár, tehát bevett szokás gpgpu-n számítani ezeket, ezekre már rég megszülettek az implementációk. nyilván, sem te, sem én nem találkozunk konkrét megvalósítással, mivel egy ilyen elkészült alkalmazást nem eladni szeretnének, hanem használni, mást nem juttatunk előnyhöz a magunk kárára.
Tehát, míg az elsőnek az a lényeg, hogy minél többen megvegyék a programját, addig a másiknak az a lényeg, hogy minél jobb legyen a programja.
Na most, hogy minél többen megvegyék a programját kell marketing, meg a többi bullshit, és egy nagyon fontos dolog, hogy bárki használni tudja. Itt nem merik bekockáztatni azt, hogy olyan alapokon íródjon a program, amit csak kevesen ismernek, és tudnak használni, tehát maradnak a szokványos kódoknál. Ide hozható fel példának a mante vs dirextx. Melyik az a játék, ami csak mantle-re fog megíródni? Van egy sanda gyanúm, hogy kevesen vállalnak be ilyet, sőt, ha lesz mantle-s megvalósítás, az már csak utólag készül el, ha marad rá keret.
Aki viszont saját magának, vagy egy konkrét megrendelőnek készíti a programot, ott a hatékonyság a fő szempont, tehát bátrabban hozzányúlnak ezekhez a dolgokhoz, keresik az eszközöket, amivel jobbá tehető a saját rendszerük.
Ami miatt az emberek ezekkel nem találkoznak így világos, nem közhasznot szolgálnak, a nagy célközönségnek készült programok viszont túl általánosak kell, hogy legyenek.
Igy viszont igazad van, valószínüleg akkor fognak megjelenni az első olyan programok, amelyek bátran kihasználják az apuk számítási kapacitását, amikor már mindenkinek lesz rá megvalósítása, illetve olyan nagy nevek programjainál, akik megengedhetik maguknak, hogy mindkét megvalósítást elkészítsék. Ezektől függetlenül az APU értékéből ez mit sem von le, csak mezei usereknek kevésbé adatik meg a lehetőség, hogy olyan programmal találkozzanak, amelyik ilyen alapokon íródott.
#201 Zoli0726 aktív tag

Új Válasz 2013-11-30 17:57:28 #201
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

Nem értem, honnan szeditek azt, hogy apu = mantle, soha nem mondott ilyen senki.
Én nem hiszem ezt, meg nem hiszem azt, párhuzamosítottál már valaha egy for ciklust? Gondolom nem. Láttál már párhuzamosított kódot funi gpu-n? Gondolom nem. Miért mondom ezt? Mert ha így lenne, akkor tudnád, hogy simán állva hagyhantá a kaveri apu bármelyik corei7-et egy neki szabott feladatattal.
Mégis hogy? Úgy, hogy pl játékokban a gpu számítaná a fizikát, ai-t, a cpu meg a többit, ami nem párhuzamosítható. De a mai motorok már simán leterhelnek 4+ magot is, tehát van bennük párhuzamosítás bőven, tehát a kaveri apunál adja magát, hogy a párhuzamos kódot a gpu-n futtatom, ha már egyszer úgy is ott van.
A konzolok gpu-ját már most használhatják ilyen feladatokra a grafika számítása mellett, és ha majd portolni kell, akkor az apu gpu-jával a legegyszerűbb kiváltani ezt a funkciót.
És ameddig a xone és a ps4 fénykorukat élik, addig ilyen motorok fognak íródni, tehát elég esélytelen, hogy ezeket a módszereket nem viszik át pc-re.
Az egységes címteret előbb vagy utóbb meg fogja lépni az intel is, mivel az intel gpu-k sem rosszak általános számítások terén.
2013-ban úgy gondolni egy gpu csak játékra használható a tudatlanság jele.
Jönnek a kérdések, hogy de az átlagfelhasználó bla bla....
Melyik az az átlagfelhasználó aki elindít egy programot, és perceket vár a befejezésére?
Ettől függetlenül az összes mai modern böngésző gpu-val gyorsított, grafikus felület gpu-val gyorsított.
Ahol meg egy átlagfelhasználó vár, ott már régesrég van gpu gyorsítás, lástd winrar, mindenféle videókódolók, photoshop. Szuperszámítógép se kell, mert az átlagfelhasználónak nem íródott rá program.
#188 Zoli0726 aktív tag korcsi #186

Új Válasz 2013-11-30 11:30:07 #188
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz korcsi #186 üzenetére

Alkalmazások vannak, Adobe, matlab pl.
játékokhoz el kell telnie valamennyi időnek, hogy a kaverit elkezdjék használni, de a,konzolportoknál jól fog jönni a tudása, mivel ott már most is ezt a módszert használják.
Az,egységes,címtér egy nagy löket lesz a gpgpu programozásnak.
Am meg ha az átlagfelhasználó nem találkozik vele, számítási célokra 1000 más helyen használhatják.
#185 Zoli0726 aktív tag bayarena #184

Új Válasz 2013-11-30 10:24:07 #185
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz bayarena #184 üzenetére

#183 ez egy példa arra mennyire nem vagy tisztában azzal, mire is jó az apu gpu-ja, ajánlom figyelmedbe a hozzászólásaimat.
Nem a vganak kell hogy besegítsen, hanem a cpunak, az apukáknak meg az az értelme amit már kb 50x leírtam, hogy ha a gput is befogod számolni, akkor megtöbbszörözhető a CPU(apu) ereje.
#145 Zoli0726 aktív tag Prof #142

Új Válasz 2013-11-28 09:44:42 #145
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz Prof #142 üzenetére

Szerintem meg többen használják mint gondolnád.
Csak ezeket a programokat nem átlagfelhasználóknak célozzák, pláne nem gui-s kattingatható formában, hanem ott, ahol nagyon sokat kell számolni.
Az adobe termékei már rég használnak opencl-t, a matlab is tud számolni gpu-val, és elég erős a gyanúm, hogy a CERN-nek sem sikerült volna megtalálni a higgs-bozont, ha nem néznek valamilyen gpu-s alternatíva után(többszáz gigabájt adat keletkezett másodpercenként). Ilyen még pl. az időjárás előrejelzés is, nagyon sok a számolnivaló.
A főnökökről valszeg igazad van, viszont az enyém pont kivételt képez. Mióta megmutattam mit tud a szutykos laptop gpu-m a core i7-esekhez képest az alkalmazásokban amit készítünk, nem csak gpgpu-s beruházás lett, hanem minden héten tartok órát a munkatársaimnak, közöttük a főnökömnek a párhuzamosításról és a gpgpu programozásról, mert ennyire meggyőzte őket az eredmény.
Olyan esetekben, ahol nem engedheted meg magadnak, hogy várj az eredményre, kénytelen vagy alternatíva után nézni.
#143 Zoli0726 aktív tag petkow #129

Új Válasz 2013-11-28 06:43:40 #143
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz petkow #129 üzenetére

Ugyanezt szajkóztam én is
#127 Zoli0726 aktív tag izee #125

Új Válasz 2013-11-27 18:58:01 #127
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz izee #125 üzenetére

Nem. hsa-t egy olyan rendszer alkot ami heterogén módon programozható. Ez legegyszerűbben egy amd prociból + modern Radeon vga-ból áll pl. Eredetileg intel+amd is,lehetne azonban a futtatási környezetek ezt nem mindig teszik lehetővé, és így ott már nem beszélhetünk heterogénről.
#124 Zoli0726 aktív tag izee #123

Új Válasz 2013-11-27 18:45:29 #124
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz izee #123 üzenetére

A hsa a heterogén architektúra, opencl pedig az az programozási környezet amivel tudsz heterogén módon cpu-ra illetve gpura programot írni.
#121 Zoli0726 aktív tag izee #120

Új Válasz 2013-11-27 18:26:37 #121
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz izee #120 üzenetére

Ma is lehet programozni heterogén módon dgpuval, ez az opencl. A megosztott memória is megoldott, viszont az egységes címtér csak az apukban fog értelmet nyerni. Dgpunál vagy a gpunak kell a ramban turkálni, vagy a cpunak a vramban, pont erre született meg az apuk egységesített címtere
#119 Zoli0726 aktív tag GeneraL_XTX #117

Új Válasz 2013-11-27 18:13:00 #119
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz GeneraL_XTX #117 üzenetére

Nyilván miért ne használhatnád gpu-ként ha úgy tartja kedved, 2 legyet egy csapásra. Nincsenek fejlesztők... Én is az vagyok, 2 éve programozok opencl-ben is, és tapasztalatból tudom hol a gyengéje a cgpus számításoknak. Sajnos ott hogy kis feladatokat nem éri meg rájuk bízni, a plusz műveletek miatt nem tud érvényesülni a gpu. A hsa-val ez egycsapásra megváltozhatna, Számomra egy hatalmas ugrás.
#113 Zoli0726 aktív tag

Új Válasz 2013-11-27 17:03:02 #113
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

Kész vagyok ezeken a hozzászólásokon, szűk látókörűség
Az integráció nem azt jelenti, hogy 1 dolgot kell venned 2 helyett, hogy játszani tudj!
Kár, hogy gpu-nak nevezik, nem a játék miatt van a cpu mellé téve.
Úgy kellene fogalmazni, hogy a cpu kap egy olyan társprocesszort, ami párhuzamos feladatok végrehajtásában nagyon erős. Nem játékok futtatására lett kitalálva, hanem a cpu-nak fog segíteni a számításokban tehát a cél a jobb processzorteljesítmény, nem a játékok, meg nem is az, hogy ne kelljen dgpu-t venned.
Aztán majd jönnek a tesztek, hogy a kaveri gpu-ján hány fps-sel futnak a játékok, szánalom.
Számítási feladatokkal kell tesztelni, szimuláció, render, ray-trace, fizika stb
NEW ERA OF COMPUTING az Amd mottója.
#99 Zoli0726 aktív tag #06658560 #98

Új Válasz 2013-11-27 15:30:06 #99
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz #06658560 #98 üzenetére

Ott használsz intelt, nincs harag, én is azt tenném.
Office, meg böngésző, könyörgöm, oda a jelenlegi teljesítmény is bőven kielégítő, miféle gyorsulást szeretnél még ott?
#94 Zoli0726 aktív tag #06658560 #87

Új Válasz 2013-11-27 15:15:48 #94
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz #06658560 #87 üzenetére

Ha egyáltalán nem párhuzamosítható akkor nem mész vele semmire, ez kerek perec így van.
Viszont elég kicsi az esélye egy nagy bonyolultságú programnál, hogy ne lenne benne párhuzamosítható rész,
egyébként sem mondtam azt, hogy az egész programnak párhuzamosnak kell lennie, lesznek soros és párhuzamos részek, a párhuzamosak gyorsabban futnak majd, a sorosak nem, ettől függetlenül lesz gyorsulás, a feladattól függ majd.
Elég ritkán találni manapság olyan cpu intenzív programot, amit nem sufniban raktak össze, és ne tudna megszólalatatni legalább 4 magot, szóval ez már csak hozzáállás kérdése.
#89 Pont ezt akartam mondani én is, mindenki azt hiszi, hogy az intel meg az amd azért gyárt cpu-t, hogy a játékok gyorsabban fussanak
#92 Zoli0726 aktív tag Bingisz #86

Új Válasz 2013-11-27 15:10:46 #92
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz Bingisz #86 üzenetére

Szerintem ennek az egésznek egyáltalán nem az a célja, hogy kiváltsák a középkategóriás vga-kat.
Ez az egész arról szól, hogy az amd le van maradva cpu fronton, viszont van egy erős compute gpu vonala és nagyon szerették volna, ha ez a jó kis gpu nem csak koloncként lógna a cpu nyakán, hanem ő is effektíven ki tudná venni a részét a sok kicsi feladatból is.
(egy nagyobb feladatra továbbra is megmarad a dgpu, mivel ők fogják majt továbbra is a legerősebb gpu-kat kapni + a dedikált nagyon gyors ramokat és buszt, viszont ott továbbra is másolgatni kell majd az adatokat), viszont a cpu frontnak ez egy üde színfolt.
Ezért nem gondolnék úgy a hsa-ra mint egy cpu amin játszani is lehet, hanem egy olyan cpu, amit ha az adott feladat megenged, akkor olyan teljesítmény hozható ki belőle amit eddig még nem láttunk a dgpu-kon kívül.
Igen, gpu-ra kötelező a párhuzamosítás, de pont erről van szó, hogy ha már egyébként is párhuzamosítani kell egy feladatot sok szálra, akkor attól a ponttól kezdve már ma is megvan az a lehetőség, hogy a kód szinte teljesen ugyanaz, mintha cpu-ra írnám(tehát hülyeség lenne nem a gpu-t használni)
#78 Zoli0726 aktív tag Bingisz #76

Új Válasz 2013-11-27 14:48:45 #78
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

válasz Bingisz #76 üzenetére

Nos, ugye ezt te sem gondoltad komolyan?
Közelítsük meg az egészet a párhuzamosság oldaláról.
Ahhoz, hogy ki tudd használni egy i7 erejét, nyílván párhuzamosítanod kell, különben a játékod, vagy bármi más csak 1 magot használna.
Egy kaveriben/i7 cpu teljesítmény aránya nyílván rossz, viszont mivel egy mag teljesítménye mindenképp kevés, párhuzamosítani kell, ekkor egy i7-nél párhuzamosíthatsz 8 szálra, egy kaveriben jóval többre, sőt ha gpu-t használsz erősen ajánlott, és a gpu számítási kapacitásának a nyomában sincs az i7.
Már csak kell egy olyan keretrendszer, amivel könnyen tudd állítani azt, hogy az adott kódrészt most épp a cpu vagy a gpu futtassa le, de gondolom ezt a hsa megoldja.
Nyílván aki még az életében nem írt egy programot sem(gpu-ra), annak ködösek ezek a dolgok, de szerintem ez valami jónak a kezdete.
#61 Zoli0726 aktív tag

Új Válasz 2013-11-27 14:04:40 #61
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli0726

aktív tag

Szerintem a hsa egyáltalán nem a játékokról szól, szóval szerintem lemérni azt, hogy mit tud a benne rejlő gpu játékok alatt, pláne olyanokban ahol hírből sincs hsa támogatás, nem sok értelme van.
Ennek az egésznek az erőssége a (általános) programozásban lesz, mivel a gpu-kon való számolásokat erősen korlátozza a bemásolás, hívás, visszamásolás folyamata, ahol ha ez a 3 lépés annyi időbe telik, mintha a cpu számolná ki, nem éri meg gpu-t használni. Viszont, ha erre nem lesz szükség, és egy erre a logikára épülő függvényt 1milliószor kell lefuttatni, már bőven ki tud majd jönni a gpu előnye.