- Megjelent a Poco F7, eurós ára is van már
- Apple iPhone 16 Pro - rutinvizsga
- Apple iPhone 15 Pro Max - Attack on Titan
- Huawei Watch Fit 3 - zöldalma
- Samsung Galaxy Watch6 Classic - tekerd!
- iPhone topik
- Google Pixel topik
- Xiaomi 12T Pro - kétszínű, mint a kétszázas
- Redmi Watch 5 - formás, de egyszerű
- Yettel topik
-
Mobilarena
AMD FX processzorok topikja
- AM3+ tokozás
- Nyolc, hat, vagy négy mag
- DDR3-1866 RAM támogatás
- Szorzózármentes modellek
Új hozzászólás Aktív témák
-
atti_2010
nagyúr
Lényegtelen, egy olyan drága alaplapnál nem fordulhat elő ekkora baki, kivéve a Gigát de más lapokon is jelentkezett a probléma amelyek hasonló FET-tel lettek szerelve, akinek van kedve és érdekli keresgélje meg.
Egyszerűen túl sok a probléma velük, ami több fronton is jelentkezik, részemről befejeztem. -
Prof
addikt
Vicces, hogy mindenki multi FPS-t játszik 64 playeres pályákon ebben az országban, na ne kábíts
Szóval tudtok mondani 5 tömeglövölde játékot, amiben a legnagyobb map-en, multiban gyorsabb a 4 magos proci jelentősen, mindez 2-szer olyan drágán.
Ok, de az emberek 99.9%-a nem játszik ilyenekkel multiban. -
kovsol
titán
bf3 nak 64 fős multihoz kell a cpu nem pedig egy scriptelt fostalicska teszthez mint itt ami van a linken ...
BF3 1680x1050 medium és VGA limites egy hd3870 512MB kártyával!! most csináltam egy 64 fős multi szerveren játszok épp, 32% terhelés amit mutat az alt tab miatt van, amúgy 65-70% körül szokta mutatni mikor épp kiváltok a játékból
-
dezz
nagyúr
Az az "x2" és "x4" a szálak számát jelenti? Na, hát akkor azért.
"De, hogy visszatérjünk a fő témára, vajon 8 osztott FPU-n, int et feleslegesen átconvertálva floatra, jobban megy mint 8 teljes értékű, INT magon?
"
Konvertálásról szó sincs! Nos, nem, nem megy jobban, de jóval kisebb helyet foglal és kevesebbet is fogyaszt.
-
dezz
nagyúr
Ha egy picit gondolkodnál, akkor rájönnél, hogy teljesen kézenfekvő és logikus volt így csinálniuk.
(#4749) Jack@l: Számomra is furcsa, tekintve, hogy az összes magot terheli, azaz nem arról van szó, hogy pl. egy 4-szálas valami jobban fut 1 szál/modul módban. Illetve, lehet, hogy az Intel HTT-jére van optimalizálva, és ezért a szálpárok Bulldozeren is jobban futnak, ha ugyanarra a modulra kerülnek...
(#4754) Löncsi: "Jobb szoftverrel sem biztos, hogy elég jó lesz"
Megfelelő (az összes magot jól kihasználó és nem kimondottan Intelre optimalizált) szoftverrel egálban van a 8150 a 2600-zal.
(#4756) Whysperer: Érdekes, én Görögországgal kapcsolatban hallottam ezt. Meg itt van egy ilyen: [link]
-
dezz
nagyúr
Az ilyen ostoba benyögéseiddel csak magadat teszed még nevetségesebbé.
Blokkvázlat szinten valóban 2 FPU, na de fejenként 2x több számolóegységgel. Más kérdés, hogy a mai kódokkal ez bizonyos esetekben nincs jól kihasználva, FlexFP-re (ez a Bulldozer FPU-ja) optimalizált kóddal jelentősen javul a helyzet (mint azt már néhány FX-re optimalizált program bizonyította, pl. x264 encoder). Inkább az integer teljesítmény az, ami némileg alatta van a K10.x-nek (azonos órajelen) és ami adott esetben ezt is vissza tudja fogni.
(#4726) Prof: Neked is jánlanám szíves figyelmedbe a fentieket.
-
synthattik
aktív tag
de ahogy néztem ezt a játékot nem mellékesen elég jól is van optimalizálva ,de ami nincsen jól azzal sajna a 2 mag elég kevéske.Nekem mondjuk gta 4 a nagy favoritom és hát oda 2 mag elég kevéske próbáltam én is és voltak bajok,nem naon ment röccenőmentesen.
Nem mondom azt ,hogy nem lehetséges esetleg ezzel a procival karistolni,de miután a phll x4 em sem hajtott ki normálisan 1 6870 et és abban 4 fizikai mag van.
Nem vagyok meggyőzhetetlen de józan ésszel gondolva ezzel a proccal szntem 1 6950 est már elég nehezen lehetne fullon kihajtani
Na elég volt az off ból mert asszem ez az fx topik,ugyhogy nem 2 magos intel csodákról kell beszélnünk -
Abu85
HÁZIGAZDA
Ez a különbség, ha valós, vagy sematikus értéket adnak meg a cégek. Az Anand írt erről korábban a Sandy Bridge kapcsán: When designing a microprocessor you end up with a schematic of all of the circuits and transistors in the design. With the design schematic done layout is next on the list. However sometimes in the process of moving from the schematic to layout phase, transistor count baloons. The reason is simple. There are some circuits which may be represented by a single transistor at the schematic phase, but for more efficient layout use four transistors in tandem.
Tulajdonképpen az Intel a Sandy Bridge esetében sematikus értéket adott meg az elején, ami 995 millió tranyó miközben a valós érték 1,16 milliárd. Az AMD már a kezdetekben is valós értéket adott meg, ami 2 milliárd, de ez nem helytálló a Sandy Bridge-dzsel való összehasonlításhoz, így most előkerült a sematikus érték, ami 1,2 milliárd.
Valójában a Sandy Bridge esetén nem kerültek elő extra tranzisztorok, a Zambezi esetén pedig nem tűntek el. Egyszerűen ennyire számít, hogy egy számadat sematikus, vagy valós. Nyilván az AMD is a sematikus összehasonlításra törekszik, ha az Intel ezt adja meg. A sematikus érték a valóssal összehasonlíthatatlan. Ezzel pedig a Sandy Bridge 995 milliós sematikus tranyószáma nem hasonlítható a Zambezi valós 2 milliárdjához. Ezért került elő az 1,2 milliárdos sematikus érték, hogy jó legyen az összehasonlítás.
A dolgot persze felesleges ennyire bonyolítani, sokkal inkább a valós adatok megadására kellene törekedni. Valószínűleg a következő körben már ez lesz a jellemző. Az Intel is mondta, hogy az Ivy Bridge-re már valós adatot ad meg, sőt már meg is adták, hogy 1,4 milliárd tranyóból áll. (Úgy tudom, hogy a sematikus adat kicsivel 1 milliárd fölött van.)
-
Oliverda
titán
Dehogy szeretném, isten ments.
Lássuk be, hogy néhány emberen kívül senkit sem érdekel a tranzisztorszám. A vásárlók sem tranzisztorszám alapján vesznek processzort. A döntő többségük még megközelítőleg sem tudja az adott termékben található darabszámot. Vihar egy kanál vízben, amit minő véletlen, de ismét te kezdtél el itt kavargatni, teljesen feleslegesen.
Egyébiránt a tények arról szólnak, hogy az a jobb, ha minél kevesebb tranzisztorral érik el az adott teljesítményt. A többi már a gyártástechnológián múlik. Ezen felül le lett írva, hogy miért olyan magas a fogyasztás. Tudom derogál, ha néha kicsit olvasni is kell, de sajnos ez van.
-
Oliverda
titán
Persze, hogy érdekel mert ismét van amin ugrándozhatsz és trollkodhatsz teljesen feleslegesen.
Sem a teljesítményen, sem a fogyasztáson, de még a termék árán sem változtat, hogy milyen tranzisztorszámot közöl a gyártó. A számítási teljesítmény/tranzisztorszám mutató pedig 1,2 milliárddal már egy jobb képet mutat mint a korábbi adattal. 2 milliárddal ez a mutató elég rossz volt.
-
Oliverda
titán
"Ezután viszont felmerül a kérdés, hogy akkor mitől fogyaszt olyan sokat?"
Erre van válasz. Az hogy mennyi tranzisztor van benne sokkal kevésbé releváns, és nagyjából a vásárlók 0,1%-át érdekli. A gyártók amúgy is olyan számot mondanak amilyet csak akarnak. Ráadásul szerencsésebb a kevesebb tranzisztor, ergo jobb ha csak 1,2 milliárd van benne a 2 helyett.
-
dezz
nagyúr
Nem sürgős és most nincs is rá pénzem. Később meglátjuk, hogy 41xx vagy Trinity.
Egyébként sikerült már eladni az X6-osod?
(#2414) lee56: Magyarul: "Miért vennék egy 275 dolláros Bulldozert [FX8150], amikor a 170 dolláros 1090T ugyanolyan teljesítményűnek tűnik vagy épp jobbnak, minden benchmarkban és játékban, amit csak láttam?" Már hogy ne lenne ez hülyeség?
(#2415) Med1on: 5%!? Tesztek alapján játékoknál akár 10%, más programoknál, amik 2-4 szálasak, akár 18%!
-
-
P.H.
senior tag
Nem volt minden eddigi procinál az, inkább csak az inkrementális fejlesztéseknél, amik ugyanazt az alapgondolatot vitték tovább.
De nem volt az a Pentium1 -> Pentium Pro váltáskor: akkoriban pl. a PC World főcikkben hozta, hogy a Pentium Pro (idézem) "kisiklás a Pentium-vonalon", annyival lassabb volt azonos órajeleken az akkor megszokott 16 bites programokban. Az egyenesági P2-P3 leszármazottai pedig hoztak majdnem 1 nagyságrendnyi órajelnövekedést. Aztán nagyon nagy vonalakban arra épül még még ma a Sandy Bridge is.
És nem volt az a Pentium 3 -> Pentium 4 váltáskor sem: azonos órajelen bűn lassú volt a Willamette a P3-hoz képest, ezt a Northwood nagyjából helyretette 2x-es órajelen. Csak aztán a Prescott túl korán ugyanezt eljátszotta a Northwood-dal (azonos órajelen nem volt gyorsabb), és ennek az órajelnövelése már nem kapott esélyt a Core2 miatt.
De a Power5 -> Power6 váltáskor se volt ez igény, bár aztán mégiscsak visszatértek alacsonyabb órajelekre a Power7-tel. -
stratova
veterán
-
-
dezz
nagyúr
Már többször leírtam, hogy bizonyos dolgokra jó, más dolgokra meg nem ez a legjobb választás. Hogy ennek ellenére mégis egész mást próbálsz a számba adni, az egy újabb nagy egyes a bizonyítványodban. (Miközben te minden igyekezeteddel úgy próbálod beállítani, hogy semmire sem jó.)
Nos, a kérdésem kicsit beugratós volt. Elsősorban nem az FMA-n múlik ugyanis, hogy bizonyos esetekben jó a BD, más esetekben meg nem. Ennek okát meg tudnád fogalmazni?
Hát persze, a Crayos dolognak bizonyára semmi köze ehhez, és hogy az Intel Haswellében szintén ott lesz az FMA, majd 2013-ban.
Ha esetleg nem tudnál róla, a Titan a Jaguar upgrade-elésével születik meg. Nos, igen, bizonyára csak reklámcélból cserélik le annak 37300 6-magos Opteronját (ami lényegében ugyanaz a chip, mint az X6) Bulldozer alapú Interlagosra...
ps. meddig dől még itt belőled a hülyeség?
-
dezz
nagyúr
"mindig ezzel az egy kiszemelt agyonverem a 2600-at de még a 980-as procit is ábrával jössz, ami ráadásul gyanus hogy meg is van hekkelve"
Mindig csak ezzel jövök? És ezek mik? Ezek is mind meg vannak hekkelve? Azért odáig ne süllyedjél már, hogy hazudozol is. Ja, bocs, már lesüllyedél.
Kampányt itt te és még 2-3 ember folytat itt: lejáratókampányt, úgy beállítva a dolgokat, hogy a BD mindenre rossz, holott közel sem ez a helyzet.
"Elhiszem hogy jó a bull, de azé maradjunk már a földön..."
A fenti eredmények a Marsról származnak, vagy mi? Azokban az alkalmazásokban FMA nélkül is egálban van a 2600K-val. Akkor szerinted mi lesz FMA-s kóddal, amire ki van hegyezve? Szerined miért ezt választotta a Cray az új világelső szuperszámítógépéhez?
"FMA-t meg már kitárgyaltuk mért jó és mért szutyok ahol nincs nagyrészt fma instrukció.(vagyis nagyjából a programok 98%-nál)"
Na, ha annyira képben vagy, amennyire hiszed, akkor magyarázd csak el... Kíváncsian várom.
(#1292) leonel: "Tudtommal ez egy fórum..."
...aminek az az egyik íratlan(?) szabálya, hogy mielőtt kérdezünk, olvasunk, mert egyrészt így elkerülhetjük, hogy újrageneráljuk a vitát, másrészt tiszteletlenség semmibe venni a többiek által befektetett időt és energiát. A "kérem" és a "köszönömöt" nagyon kedves gesztus, de semmiből sem áll beírni...
Maximalista játékra valóban nem a 41xx a legjobb választás.
(#1295) Jester01: És mi van, ha 5%-ra van felkerekítve? Örvendetes, hogy találtál egy apróságot, amibe beleköthetsz, miközben egyrészt a gyakorlat is azt mutatja, hogy lehetséges a dolog (lásd fenti tesztek), másrészt elvi szinten is helytállóak a számok... Ugyanis, képzeld csak el, peak FLOPS-ban C2C 1,5x erősebb a BD, mint az X6, és ebből architektúrális okokból többet tud kihasználni a BD, mint a K10, így nem lehetetlenség a 2x szorzó, megfelelő kóddal.
-
Oliverda
titán
Látom neked lételemed a folyamatos kötekedés és értetlenkedés.
Te linkeltél 3ds Max eredményeket Profnak itt. Én azon a linken 3ds Maxon kívül mást nem látok.
A Llanoval illetve a magad által konstruktívnak titulált kommentjeiddel pedig ne izzadj tovább, mert ahogy látom, abban is kb. annyi gyakorlati tapasztalatod van mint a legtöbb dologban amiről nyomod a fals rizsát, egész konkrétan zéró.
-
Abu85
HÁZIGAZDA
Az Onion busz a CPU és a GPU közötti adatátadás a memóriavezérlő igénybe vétele nélkül. A GPU a memóriavezérlőt nem az Onion buszon keresztül kezeli, mert nincs szükség rá. Ugyanarról a HUB-ról éri el, amelyikről a procimagok.
A lapkaszintű kommunikáció sokszor gyorsabb a külső busznál. Ezen nincs mit gondolkodni. A fizikai távolságból adódik. A lapkán belül a CPU és az IGP közötti távolság 30-40x kisebb, mint a CPU és a VGa közötti.
Nem csoda kell csak technika.(#1213) Jack@l: A PCI Express 2-nek jobban örültem volna, mert ott nőtt a késleltetés, de biztos nem sokat. A távolság viszont továbbra sincs meg. De lényegtelen, mert a lényeg látszik a 350 ns-mal számolva még mindig 35x nagyobb az időbünti. Ez sok. Egy külső busz nem képes felvenni a versenyt a lapkán belüli kommunikációval.
A Llano esetében az extra a Zero Copy funkció, ami az Onion buszból adódik. Nagyságrendekkel gyorsabb az adatátvitel késleltetése, így a CPU és a GPU szinte büntetés nélkül kommunikálhat. Itt nagyon kis adatokról van szó, de mire elér az egyik egységből a másikba az számít. Ezért vannak cache-ek is, mert a memóriához nyúlni is drága, hiszen ~40-60 ns-os késleltetés. A cache-ből pár ns csak. Már a 40-60 ns nem engedhető meg. Többel ez egyszerűen felesleges szempont. Azért akarja az AMD ezt a don't move the data koncepciót erőltetni, mert számukra is rossz, ha a VGA-kat kivégzik.-----------
(#1217) Jack@l: A memóriavezérlő képes nagyjából 30 GB/s-ra. A memóriavezérlőt a CPU és a GPU ugyanarról a HUB-ról éri el. Együtt dolgozva ez a 30 GB/s megoszlik, mert egymás mellett szerzik az adatot ugyanarról a memóriavezérlőről, de egyenként nyilván ki tudják sajátítani az IMC képességeit.
Átolvastam számomra a tesztrendszer hiányzik, de mindegy. A 350 ns már önmagában is megengedhetetlenül sok a lapkán belüli buszok késleltetéséhez képest. -
Abu85
HÁZIGAZDA
A Llano esetében GPU és a CPU ugyanazon a HUB-on keresztül éri el a memóriát. Ugyanaz a memóriavezérlő.
Ha jobb lenne, akkor több adatot is átküldenének, de sajnos nem. A memóriamodul felé 50 ns a késleltetés. És mennyivel közelebb van a CPU-hoz. A PCI Express eléggé messze van fizikailag. ~10 ms körüli a késeltetés a CPU->VGA adatátadásnál, függően a port procitól való fizikai távolságától, és a esetlegesen a köztes lapkáktól. Köztes lapka nélkül, szimplán a prociban a vezérlővel, és a porthoz közel helyezett foglalattal hozható úgy 2-3 ms. De ehhez nagyon sokat kell dolgozni a NYÁK-on. De még ez is nagyon sok az 10 ns-os belső buszhoz képest. Egyszerűen 1 ms-ra lenyomod, akkor is nagyon sok. Esélytelen egy külső busszal versenyezni egy lapkaszintű kommunikációs csatornával.Csak addig ütős, amíg egyirányú CPU->GPU feldolgozás valósul meg. Amint jön a CPU<->GPU, már rögtön óriási a hátrány. Ez lesz az új konzolokban sajnos, és ehhez kell igazodni, egységes memóriával.
Pont most jött meg a Rage, ami olyan eljárásokat használ, ami a jövőben kerülnek bevezetésre. Csak az Xbox 360-on jó a streaming, és azért mert a CPU és a GPU egységes memóriával dolgozik. Ezt fogják továbbvinni az új konzolokra. Ha ez nem lenne akkora probléma, akkor az NV sosem fogott volna bele egy olyan kockázatos fejlesztésbe, mint a Project Denver, vagy az Intel a Larrabee-be, vagy az AMD sem vette volna meg az ATI-t, de muszáj az integráció. Mára eléggé világossá volt, hogy elkerülhetetlen.
Az a post-process, és a mai grafikai számításoknál a legnagyobb terhelést fejtik ki, mert van egy olyan sajátossága az egésznek, hogy előre nem tudod, hogy melyik pixel fog változni, vagyis az algoritmust az összes pixelre fixen le kell futtatni. Lehet, hogy a végén nem változik semmit sem a képkocka, de ez azután derül ki, miután lefutott az effekt, vagyis megkaptad a büntit. A post process esetében persze vannak különböző erőforrás-igényű feladatok. Például az NV-féle Diffuse DoF a Metro 2033-ban, ami egy szimpla post-process. -60-70% kapásból, ha bekapcsolod, holott lehet, hogy semmit sem változtat a képkockán, de az algoritmus lefut mindegyik pixelre. Az AMD-nek van erre egy alternatív megoldása, ami nem ad olyan minőséget, mint az NV-s, de csak -15-25%-ba kerül. Vannak persze kevésbé erőforrás-igényes post-process effektek is, attól függ, hogy mennyit számolnak.
A Larrabee az egy nagyobb projekt része, ami most lesz belőle bővítőkártya gyakorlatilag nem olyan lényeges. A Knights Corner szereplése sem fontos, csak ki kell adni, de ennyi. Ha nem lesz sikeres, akkor nem lesz az. A Skylake a fontos, amiben lesz pár főmag a prociban és rengeteg Larrabee mag. Ez az Intel koncepciója a heterogén érára. Gyakorlatilag az elvek szempontjából megegyezik az AMD, az NV, az ARM, és még tucatnyi vállalat elképzelésével. -
Abu85
HÁZIGAZDA
Rosszul számolsz nagyon. A Llano már most képes 29 GB/s-ra. A Trinity 30+-ra képes. A Llanóban CPU és a GPU közötti onion busz 16 GB/s, és ns-os késleltetéssel működik, szemben a PCI Express több tíz ms-okban mérhető paraméterével.
Egyébként a PCI Express 2.0 x16 egy irányban 8 GB/s. A 3.0 egy irányban 16 GB/s. De itt a fő szempont az a késleltetés, amire az adat elér a célba. Ez radikálisan több, mint a lapkán belüli kommunikáció. Ezért hozhatsz TB/s-os értékeket is, ha a több tíz ms-okban mérhető a késleltetés. Nanoszekundum szintű paraméterekre van szükség. Ezt egy külső busz sosem fogja tudni. Ezért akarja az AMD ezt a ne mozgasd az adatot dolgot, mert minél több a kommunikáció a CPU és a VGA között annál nagyobb a hátrány a késleltetésből. Amit még szintén meg kell oldani az az egységes memória, ami a VGA-val zűrös lesz. Erre is jó az AMD "don't move the data" elképzelése, csak ha nem válik be, akkor a VGA-knak meszeltek, ahogy fentebb írtam max. post-process amire felhasználhatók. Ez a játékoknál biztos para lesz, mert a nextgen konzolokra APU-k vannak tervben egyetlen közös memóriával.
Annyira nem lehet bukó az elképzelés, ha mindenki erre megy. Ha az lenne, akkor senki sem követné ezt az utat. Pláne nem az Intel. Ők ugyan nagyobb kitérőt tesznek, mert a Larrabee, vagy most már MIC nem áll készen, de végül ugyanoda lyukadnak majd ki. -
subaruwrc
félisten
nemtudom mit művelnek de én amióta ebben a pc cuccban bennevagyok és úgyahogy ismerem az amd procikat, egyiknek se volt ütős memvezérlője ha csak most az órajeleket nézem. én valahol a phenom 1 nél kezdtem el bekapcsolódni szóval a régi megoldásokat nem tudom, de vagy elfelejtettek tervezni vagy ők nem érzik gáznak már leírni is a 2200mhz-et amikor lassan a standard RAM órajel magasabb .. arról már nem is álmodom hogy egyszer core órajelen járó memvezérlője lesz..
-
#95904256
törölt tag
ABC@Home egy tisztán számelméleti alkalmazás. Semmi köze a biológiához és a földönkívüliekhez.
Az overhead dolgot nem értem. Az ütemezés a BOINC dolga.
szerk.: A BOINC meg úgy ütemez, hogy ha lefutott egy munkacsomag, akkor indítja a másikat. Szóval nincs semmiféle ide-oda pakolom móka...
-
#95904256
törölt tag
Ha jól sejtem, akkor a BOINC ismerős a számodra.
A BOINC alkalmazások is megfelelnének neked?Ezek ugyan nem többszálú programok, de a BOINC több munkacsomaggal képes egyszerre az összes magon/szálon elindítani egy-egy feldolgozást.
Pl. az előbb néztem a forráskódját és hotspotjait az ABC@Home projekt ABC sieving finder 2.10 alkalmazásnak. Csak integer utasításokat találtam...
-
dezz
nagyúr
Ne keverd a "szálakat"...
Ami az INT teljesítményt illeti, külön kell választani a "nem számolós" és a "számolós" esetet, mert az első az INT clustereket használja, a másik pedig az FPU-ban lévő SIMD INT egységeket!
Az első esetre egy példa pl. a DhryStone CPU test, amiben szinte pontosan a 2500K és a 2600K között van.
A másodikra meg pl. a videokonvertálás, amiben több esetben még a 2600K-t is megelőzi: [link] (És akkor még nincs is XOP/FMA4-re optimalizálva.)
(#845) Jester01: Később előkerítem. Vagy keress "cache invalidation modul bulldozer"-re, vagy ilyesmi.
-
Ribi
nagyúr
Attól még mindig nem a tom-ról szól a dolog.
Azért mert pont azt hozta fel példának nem a tom esetleges részrehajlásán kellene lovagolnod. Próbálj meg elvonatkoztatni attól, hogy azt az oldalt hozták fel példának és olvasd el újra.Fiery: Igen mint ezt le is írták nagyjából. De az eredmény nagyon más. Másik lappal. Ami tényleg furi.
-
#95904256
törölt tag
(#791) Jack@l: "Akkor4 már csak egy kérdésem van, ki lehet kerülni szimpla összeadáskor az fma áramkört bullban?"
Nem. A Bulldozerben az összeadás úgy néz ki, hogy X = A * 1 + B.
szerk.: Megjegyzem, ezt nem lehet kimérni. Csak itt-ott fellelhető hírmorzsák és a FADD és FMUL esetén is 6 órajeles késleltetés árulkodik erről...
-
Abu85
HÁZIGAZDA
Leírta már akosf:
"Hátrányok:
- nagyobb fogyasztás
- sima összeadás / szorzás esetén nagyobb késleltetés
- nem futhat párhuzamosan egy független FADD és egy független FMUL"Ezért mondom, hogy ha kell a pontosság, akkor nincs mit csinálni kell az FMA, ha viszont nem fontos, akkor nem kell.
-
Abu85
HÁZIGAZDA
Miért is van oda az AMD-s támogatás? C++-ban nem használható?
Az OpenCL az csak egy programnyelv. A HPC-s környezetben eléggé elterjedt is ... az, hogy ebben összehasonlítanak két terméket nem egzakt dolog, mert a gyakorlatban is építenek rá. Nem nagyon, de építenek, és egyre jobban fognak építeni, hiszen egyre elterjedtebbek a hibrid pengeszerverek.
Igazából nem egyszer történt így. Erről szól a piac. Az FMA-ra régóta van igény, és most megjött az implementáció. Amúgy a saját bench nagyon mindegy. Az FMA-t emulálni kell, ha nincs meg a hardveres támogatás. Soha nem lesz olyan gyors egy emuláció, mint egy hardveres megvalósítás.
Az FMA-nak a pontosság az előnye, nem a számítás mértéke. Ha nem érdekes a pontosság, akkor nem fogják használni az FMA-t, mivel vannak hátrányok is. Itt az a kérdés, hogy mennyire fontos a lehető legpontosabb eredmény. Ha kritikus fontosságú, akkor kell az FMA, akár emulálva. Most már hardveresen is megy. -
Abu85
HÁZIGAZDA
Na de mi van, ha programot nem OpenCL-ben írod? Ha az lenne, amit mondasz, akkor a szerverekbe raknának egy szutyok procit, és a GPU-val mindent megoldanának. Idővel így lesz, de az az idő még nem jött el. Pontosan ezért dolgozik az Intel is az FMA implementálásán a proci oldalról, mert ma (holnap és még holnap után is) igény van (lesz) rá. Ha nem lenne igény, akkor az AMD nem építette volna be.
-
Abu85
HÁZIGAZDA
Nem csak OpenCL-ben használhatsz FMA-t, hanem C++-ban is. Az OpenCL csak egy egyszerű módja a mai hibrid HPC szerverek kihasználásának.
Az FMA-s kód nem érhető el csak a fejlesztőknek. Talán később belekerül az új APP SDK-ba.
Az hogy az Intel OpenCL drivere trutyi, csak akkor számít, ha azt használod (egyébként az 1.5 egész jó szvsz). Az AMD OpenCL drivere is megy Intel procin, szóval a választás lehetősége a tied. -
Abu85
HÁZIGAZDA
Ha szimplán átrakják a régebbi Coret logikai szintű változtatás nélkül, akkor asztalon biztos jobb eredmények jöttek volna. A probléma, hogy a szerver szinten, ahova ezt a rendszert tervezték nem ez lett volna a helyzet. [link] - Itt az előny a Bulldozer fellépésből fakad. Az első két bench csak négy szálig skálázódik, de látható, hogy a régi architektúra el van maradva. A HPC-knél a hardveres fma a lényeg, amit így már nem kell emulálni.
Aztán a régi rendszer megtartása a Fusion projektnek sem tett volna jót. A Bulldozer modul sokban egyszerűsödött. Az AMD jövőképében a GPU végzi a komoly lebegőpontos számításokat, így nem erőltették túl ezt a részt az architektúrában. Clock-2-clock szinten egyetlen egy GCN-es CU, annyit tud GFLOPS-ban, mint egy Interlagos (2xZambezi/Orichi). Érhető, hogy az AMD miért megy erre. Nem egy CU-t rakhatnak az APU-ba, hanem, minimum 4-et, vagy 8-at. -
->Raizen<-
veterán
Világos a phenom 2 x4 is jó. De tegyük hozzá hogy ez még nem a végleges frostbite 2 engine ami a béta alatt dohog! Felrántom az x6-ot 3,7-re azt többet hozna míg az i7 2600k 5,2 ghz-n már lassabb lesz... Várjuk meg a végleges kész állapotú játékot a sok magos procik fognak még skálázódni rendesen!
-
->Raizen<-
veterán
-
->Raizen<-
veterán
"Csak úgy mellesleg nézd meg mit visz egy i5-i7 4,5-5 ghz-en) A ramsebességek meg már megint más téma, az is igen sokat nyom a latba feldolgozásnál."
Megmutatom játékokba milyen sokat dob a latba a gyorsabb feldolgozás ram sebességnél: [link]
Ez erősen több szálra optimalizált játék itt nem számít hogy 8 gb\s vagy 20 gb\s a memória adatátvitel.Thubant mutattam most igaz példaként de az most ne érdekeljen.
Új hozzászólás Aktív témák
Hirdetés
A nem témába vágó beszélgetésekhez keressétek fel a (nemcsak) FX-tulajdonosok bazi nagy OFFolós topicját, vagy az AMD offtopikot!
- Megjelent a Poco F7, eurós ára is van már
- Autós topik
- Videó stream letöltése
- Apple iPhone 16 Pro - rutinvizsga
- Debrecen és környéke adok-veszek-beszélgetek
- Apple iPhone 15 Pro Max - Attack on Titan
- Filmvilág
- Milyen billentyűzetet vegyek?
- Kerékpárosok, bringások ide!
- AMD Ryzen 9 / 7 / 5 / 3 5***(X) "Zen 3" (AM4)
- További aktív témák...
- Samsung Galaxy A54 5G , 8/128 GB , Kártyafüggetlen
- Felújított számítógépek/merevlemezek Számlával, garanciával! Ingyen Foxpost!
- ÁRGARANCIA!Épített KomPhone Ryzen 5 4500 16/32/64GB RAM RTX 3060 12GB GAMER PC termékbeszámítással
- Tablet felvásárlás!! Apple iPad, iPad Mini, iPad Air, iPad Pro
- Samsung Galaxy A23 5G 128GB, Kártyafüggetlen, 1 Év Garanciával
Állásajánlatok
Cég: Promenade Publishing House Kft.
Város: Budapest
Cég: PC Trade Systems Kft.
Város: Szeged