Keresés: - AMD-s mélyvíz: Raphael, Rembrandt, Zen4

Legfrissebb anyagok

Mobilarena témák

PROHARDVER! témák

IT café témák

GAMEPOD témák

LOGOUT témák

Keresés

Téma összefoglaló

Utoljára frissítve: 2023-12-13 04:53

Mobilarena

OLVASD VÉGIG ALAPOSAN MIELŐTT ÚJ HOZZÁSZÓLÁST ÍRNÁL!!!

Új hozzászólás Aktív témák

#14195 Abu85 HÁZIGAZDA P.H. #14192

Új Válasz 2014-05-17 22:28:21 #14195
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz P.H. #14192 üzenetére

Nem erre gondoltam. A gyártástechnológia továbbra is lényeges még ha a generációváltás egyre kisebb előnyt jelent és ehhez képest egyre költségesebb. Ami az én szememet csípi, hogy a nanométer elé odaírunk egy számot, de az valójában nem jelent semmit. Csak azért nem kódnév alapján utalunk a gyártástechnológiára, mert marketingeszköz az egész és a vásárlók nem értenek meg a több oldalas leírást, amivel pontosan jellemezhető az adott gyártástechnológia.
Ha pontosan akarjuk ezt elemezni, akkor még az egyes lapkákhoz is szükséges lenne egy teljes leírás a fizikai dizájnról, és az alkalmazott dens library-ről. Ezek nélkül az a szám a nanométer előtt nem jelent semmit.
#14193 lezso6 HÁZIGAZDA P.H. #14192

Új Válasz 2014-05-17 17:12:47 #14193
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

lezso6

HÁZIGAZDA

LOGOUT blog

válasz P.H. #14192 üzenetére

Na pont erre gondoltam, hogy ha a gyártástechnológia fejlesztése egyre kevésbé éri meg, akkor a microarchitektúra megtervezésére kell jobban odafigyelni. Viszont mikor már ez utóbbinak fejlesztése is korlátokba ütközik a teljesítménynél (lásd haswell, ahol minimális volt a növekedés), új architektúrára van szükség. Ez utóbbinál viszont korlátozó az eltérő ISA, így az Intel az AVX kiterjesztéssel próbálkozik (ahogy eddig is ment az MMX, SSE), ami úgymond egy köztes út, megtartva a kompatibilitást, míg az AMD radikálisabb megoldásban keresi a jövőt, és GPU-val házasítja a "fix" CPU-t.
#11837 lee56 őstag P.H. #11831

Új Válasz 2013-04-12 20:57:54 #11837
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

lee56

őstag

válasz P.H. #11831 üzenetére

Az indokok nyilvánvalóak, rajtuk kívül nincs nagyon más aki képes lenne tartani a tempót. A kisebbeknek meg létkérdés hogy a nem olcsó dizájnjaikat addig finomítsák amég lehet, adott technológiai szinten.
#11376 dezz nagyúr P.H. #11374

Új Válasz 2012-09-23 15:01:33 #11376
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #11374 üzenetére

Nos, erre gondolok:
És ezekre (koherens memória + egyesített címtér + compute context switch + pre-emption). Ha a scheduling hw-es is lesz, előbb-utóbb kell, hogy legyen valami beleszólása az OS-nek (erőforrások prioritizálása az alkalmazások között, valamiféle visszajelzés a user felé, mi is történik, stb.).
Mindenesetre, itt maguk az applikációk indítgatnak majd compute-szálakat... Célszerűen úgy, hogy 1-1 szoftverszál 1-1 hw-es compute-szálat kezel. Így végtére is az OS kezeli ezeket a sw+hw compute-szálakat. (Bár nem kötelező ez a felállás.)
(Egyébként nem árt majd tudni, hogy egyszerre mennyit is érdemes.)
FPU: szerintem 1db GCN CU is potensebb, mint a meglévő FPU: 256-way vs. 512-way + külön scalar egység. Persze más utasítás-kódokat használ, de nyilván módosításra kerülne.
(#11375) lee56: Az igazán teljesítményigényes szoftvereket folyamatosan frissítik (kevés kivétellel)... A sok CPU mag támogatása régóta alap pl. a 3D renderereknél. Már a GPGPU-sítás is beindult.
APU vs. 8-magos CPU: lehet választani, attól függően, hogy az adott program, amit mindenképpen használni akarunk (melóra), mit támogat.
#10907 dezz nagyúr P.H. #10905

Új Válasz 2012-05-21 00:12:50 #10907
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #10905 üzenetére

Nos a 11. oldalon egy meglehetősen elnyújtott görbét láthatunk, főleg frekiben felfelé. A 3,3 GHz-nél lévő csúcshoz képest, 4 GHz-en még csak minimális csökkenést szenved el a hatékonyság.
Amúgy az még mindig nem derült ki, hogy ez az összfogyasztás mekkora részét teszi ki.
#10906 vadcoca tag P.H. #10905

Új Válasz 2012-05-20 21:50:02 #10906
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

vadcoca

tag

válasz P.H. #10905 üzenetére

Teljesen igaz, kösz a linket . Akkor mégiscsak tekercsekből van egy szívlapátnyi és ezeket kapcsolgatja.
#10424 Abu85 HÁZIGAZDA P.H. #10423

Új Válasz 2011-10-19 21:43:09 #10424
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz P.H. #10423 üzenetére

Nem tudom mekkora. Egyelőre az van, amit a média leírt az IDF-ről, aszerint ez egy dedikált cache, és nem az LLC része. Aztán lehet, hogy az Intel előadásán hangzott el ez rosszul. Az Intel nem fogalmaz pontosan a diákon sem, szóval itt tartunk.
Meg kell várni a részletesebb logikai rajzot a felmerült kérdések megválaszolására. Esetleg ha lesz nem photoshoppolt die kép, akkor abból sok dolog kiderülhet. Ami van az bevallottan át van formálva, hogy ne lehessen belőle "olvasni".
Nekem egyelőre ez van:
#10422 Abu85 HÁZIGAZDA P.H. #10420

Új Válasz 2011-10-19 21:08:07 #10422
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz P.H. #10420 üzenetére

Az Intel LLC-nek hívja hivatalosan a nagy közös cache-t. Erre megy a CPU-magokban az L2 és fölött ez L1. Az IGP-nél L3 ami a ROP mellett van, L2 papíron nem létezik, de lényegében a texture cache, míg az L1 az LDS, de ezt az Intel Shared Local Memory-nak hívja, persze Local Dara Share-ról van szó.
Úgy tudom, hogy az IGP-n belüli L3 késleltetése meglehetősen magas, de ez egy GPU-ban nyilván nem számít. Úgyis elfedik ezt a shaderek.
Semmi gond ezzel az Ivy-ben, nem lépnek vissza. Az IGP az L3 cache-en keresztül van összeköttetésben az LLC-vel. Tulajdonképpen az történt, hogy az SB IGP-jében a ROP mellett nem volt gyorsítótár, így a legközelebbi az LLC volt. Most elvileg kapott egy dedikált L3-at, amibe a shaderek is írhatnak, de az LLC-t továbbra is képes úgy kezelni az Ivy, ahogy a Sandy. Carmack-nek nem kell aggódnia ebből a szempontból. Az egész szimpla kényszer, de ettől csak jobb lesz a rendszer. Ha letiltottad az LLC írási jogát az IGP-nek, akkor az nem tett jót az SB teljesítményének. Nem omlott össze, de érezhetően visszaesett a sebesség. Most ez nem lesz annyira érezhető, esetenként semmit sem fog számítani.
#9808 dezz nagyúr P.H. #9806

Új Válasz 2011-09-24 04:54:55 #9808
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #9806 üzenetére

Azzal a 80%-os szabállyal kapcsolatban. Igen, a front-end nem erősebb, csakhogy más eset egy 2-way front-end 2-way végrehajtással (pl. Bobcat), mint a BD esete, azaz 4-way, komoly front-end 2x2-way végrehajtással...
Amúgy érdekes lenne K10.5 (leginkább Athlon II) vs. Bobcat összehasonlítást végezni a tekintetben, hogy különféle programok milyen IPC-vel futnak.
Gondolom, erre gondolsz. Nos, azt eddig észre sem vettem. Szerintem érdemes lenne áttenni a Logoutra. (A főbb dolgokat napi blogbejegyzésként, a többit azokhoz kommentként, ilyesmi.)
Mindenesetre, ha nem csak a saját kódjaidat nézegeted, láthatod, amiről szó volt.
Nem mondtam én semmi rosszat a HT-ről (félretéve most az ismert korlátait), csak azt, hogy ott tud hatékonyan működni, ahol nem túl jó a kihasználtság, azaz nem "túlzottan" optimális a kód. Ebben ugye nincs semmi meglepő.
"Az IPC szigorúan véve az órajelenként végrehajtott, befejezett utasítások száma, ami egyszerű esetben vagy 0 vagy a felépítés szélessége."

"the average number of instructions executed for each clock cycle.", "The number of instructions executed per clock is not a constant for a given processor; it depends on how the particular software being run interacts with the processor" [link]
Ezen kívül beszélhetünk még a peak IPC-ről egy adott proci esetén.
"Nem szigorúan véve pedig az órajelenként befejezett utasítások számának átlaga egy időszakban (pl. 50 ms)"
Látod, tudod te. Csak a "nem szigorúan" nem stimmel.
Na szóval, nem úgy értettem, hogy pl. nagyon kevés kódban van ilyen egyátalán, vagy hogy a proci naponta csak párszor találkozik vele. De nem is minden 2. vagy 3. ciklusban, miközben a többiben nem csinál semmit, és így jönne ki mondjuk egy 1.0-ás átlag. Szerintem átlagos kódnál keveset számít bele az átlagba, így a 2-way végrehajtás révén nem fog sokat zuhanni a BD átlag IPC-je.
#9805 dezz nagyúr P.H. #9802

Új Válasz 2011-09-24 02:46:10 #9805
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #9802 üzenetére

Nem tudom, ez miért lenne így... Talán gyenge frontendű procikra igaz.
(#9803): Természetesen reordering után értettem, és nem szám szerűen, hanem átlagban.
Tesztelj csak le pár programot (egyszálasan futtatva, ha lehet) a PerfMonitorral... Pl. CineBenchek 0,8-as átlaggal futnak. Nem számolós programok 1,0. És ez nem mp-es átlag, hanem 1/50 mp.
Az Intel mostanában nagyon nem erőlteti a "túlzott" optimalizációt, mert az HT-val nem hogy gyorsabban, hanem lassabban fut, ami nem olyan jó színben tünteti fel az i7-eseket az olcsóbb i5-ösökkel szemben, és úgy általában a HyperThreadinget.
Hakuoro: Lehet, hogy amúgy jobb lesz, csak FP-ben nem annyira. (Legalábbis újrafordítás nélkül.)
#9796 Oliverda titán P.H. #9794

Új Válasz 2011-09-23 13:21:22 #9796
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #9794 üzenetére

Van olyan marha aki még "kézzel optimalizál"?
#9795 Zeratul addikt P.H. #9794

Új Válasz 2011-09-23 13:20:47 #9795
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zeratul

addikt

válasz P.H. #9794 üzenetére

Programozók hány százaléka fog kézzel optimalizálni, a kézzel optimalizált rész a teljes programfutási időnek mekkora részét fogja kitenni?
#9792 Zeratul addikt P.H. #9789

Új Válasz 2011-09-23 12:56:59 #9792
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zeratul

addikt

válasz P.H. #9789 üzenetére

Kézzel optimalizált Benchmarkon kívül hol áll elő ilyen helyzet?
#8736 #95904256 törölt tag P.H. #8735

Új Válasz 2011-08-08 21:26:46 #8736
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #8735 üzenetére

Az Intel-nél "csak" FMA3 kompatibilitásról beszélnek.
#8596 Abu85 HÁZIGAZDA P.H. #8595

Új Válasz 2011-07-17 22:35:29 #8596
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz P.H. #8595 üzenetére

Ja így már ok. Szelektíven olvastam.
#8594 Abu85 HÁZIGAZDA P.H. #8591

Új Válasz 2011-07-17 22:11:34 #8594
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz P.H. #8591 üzenetére

Attól függ, hogy mit hívünk csúcsnak. Ha az eladások alapján ítélünk, akkor az Intel a szerver- és a GPU-piac vezetője. A GPU oldalról persze minőségben még mindig úgy 4-5 év a lemaradás az AMD és az NV-hez képest.
#7699 Oliverda titán P.H. #7698

Új Válasz 2011-04-24 16:52:34 #7699
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #7698 üzenetére

Én egyikre vonatkozóan sem látok ott konkrét adatot. Pusztán a feszültségből nem lehet következtetni a fogyasztásra, a méretről pedig önmagában nem lehet következtetni a gyárthatóságra.
#7697 Oliverda titán P.H. #7696

Új Válasz 2011-04-24 16:41:47 #7697
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #7696 üzenetére

Melyik ábra?
#7695 Oliverda titán P.H. #7694

Új Válasz 2011-04-24 16:20:13 #7695
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #7694 üzenetére

Gyártástechnológiai sajátosság.
Még a memória intenzívebb cuccoknál is keveset hoz AMD-nél az 50%-kal magasabb órajelű L3, ezért szerintem nem is erőltetik az órajelének egekbe emelését. Nyilván annak is vannak előnyei (egyszerűbben gyártható, alacsonyabb fogyasztás), hogy elég egy olyan L3, aminek nem kell túl magas órajeleket tudnia.
#7693 atti_2010 nagyúr P.H. #7691

Új Válasz 2011-04-24 15:58:42 #7693
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

atti_2010

nagyúr

válasz P.H. #7691 üzenetére

Ha csökken a csíkszelesség az áramfelvétel is csökken + meg lehetnek javítások a szivárgás mérséklésére is.
#7692 Oliverda titán P.H. #7691

Új Válasz 2011-04-24 15:56:19 #7692
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #7691 üzenetére

Igen.
#7690 Oliverda titán P.H. #7688

Új Válasz 2011-04-24 15:37:15 #7690
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #7688 üzenetére

Bár még általános iskolában lehetett, de azóta sem változott meg a képlet:
TRitON: A fenti képlet neked is szól. A többit passzolom, de a TDP biztosan nem változik. 125 és 95 wattosak lesznek ezek a processzorok is.
hibavissza: 18ért már van 4 gigás 2000MHz-es kit, 28-ért pedig már 8 gigás 1866os.
#7654 dezz nagyúr P.H. #7651

Új Válasz 2011-04-13 01:22:51 #7654
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #7651 üzenetére

Dehogy nem, kérdéses. Főleg, hogy korábban azt írták egy hivatalos blogbejegyzésben, hogy egyszálas végrehajtásban is jobb lesz, mint a K10. Ez még lehetne az órajel jelentős emelkedése által, de állítólag IPC-ben is jobb lesz... Csak hát így nem tudom, hogyan.
Tudnak, ha akarnak, de manapság nem nagyon foglalkoznak vele. Amit a C fordító kinyom...
#7653 Oliverda titán P.H. #7651

Új Válasz 2011-04-12 23:46:44 #7653
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #7651 üzenetére

PerfMonitor
Hardware supported
Intel processors
Netburst based CPUs : Pentium™ 4, Celeron™, Xeon™ ;
Pentium™ M ;
Core™ Solo & Duo ;
Core™ 2 Duo, Core™ 2 Quad, Core™ 2 Extreme.
[link]
#7650 dezz nagyúr P.H. #7648

Új Válasz 2011-04-12 18:53:58 #7650
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #7648 üzenetére

Erre írtam, hogy a manual szerint 1-1 INT mag max. 4 micro-op-ot fogad, így a 4.0 IPC csak egyszerűbb, 1 micro-op-os utasítások sorából jöhet ki, a többinél 1 szál esetén is max. 2.0 lesz a IPC.
Valószínűleg nem úgy oldották meg, hogy modulonként 2 szál számottevően, az inteles HT-nál jobban zavarja egymást... (Már ami az INT kódol illeti, mert ugye a 256-bites SIMD kódok esetén ez szükségszerűen bekövetkezik.)
Amúgy van olyan hétköznapi kód, ahol a futási idő jelentős részében megközelítődik a 3.0-ás, ill. az SB-nél 4.0-ás IPC? Korábban nézegettem programokat ilyen real-time teljesítményváltozókijelző monitorral, de alig-alig ment 1.0 fölé. (Bár ez egy átlag, nem tudom, mi a két szélső érték.)
#7635 P.H. senior tag P.H. #7634

Új Válasz 2011-04-09 03:18:21 #7635
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz P.H. #7634 üzenetére

Sok helyen homályos vagy ellentmondásos, úgy tűnik, direkt, pl.:
- többször hivatkozik a 32. oldalon látható processzor-ábrára, amin igazából jelenleg semmi sem látszik
- az új integer utasítások típusa mindig FastPath Double, latency-értéke mindig NA
- There are four integer execution units per core. Two units which handle all arithmetic, logical and shift operations (EX). And two which handle address generation and simple ALU operations (AGLU). Ehhez képest az utasítástáblázatban csak a call és a lea mellett említik az AGLU-t mint végrehajtó egységet.
- "In addition, a particular integer pipe can execute two micro-ops from different macro-ops (one in the ALU and one in the AGLU) at the same time." Akkor 2 vagy 4 független execution unit van
A fentiek miatt fentartásokkal kezelve bármilyen kijelentést, a következő mondat azt jelezheti, hogy a 256 bites AVX-utasítások két 128 bites felének hatékony egyszerre indulnia/futnia, de nem kötelező: "Only 1 256-bit operation can issue per cycle, however an extra cycle can be incurred as in the case of a FastPath Double if both micro ops cannot issue together."
#7634 P.H. senior tag P.H. #7632

Új Válasz 2011-04-09 01:31:45 #7634
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz P.H. #7632 üzenetére

Úgy tűnik, a legtöbb integer-utasítás végrehajtási ideje marad 1 órajel, az L1-latency viszont nő, 3-ról 4 órajelre.
Új integer utasítások: T1MSCK, TZCNT, TZMSK, LSWPCB, LWPVAL.
Move elimination, azaz FP-oldalon a 0 órajelű (register-file által lekezelt) register-to-register copy megvan, nem szükséges hozzá execution unit.
B.5 Amended Latency for Selected FMA Instructions
The following table shows amended latency time for selected FMA instructions, where special cases are applied in which additional latency is accumulated.
Ez a rész nem tiszta.
#7632 P.H. senior tag P.H. #7631

Új Válasz 2011-04-08 23:51:49 #7632
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz P.H. #7631 üzenetére

"AMD Family 15 processors introduce a new feature where, in some cases, a comparison or test
instruction and its associated branch instruction can be "fused" into a single micro-operation."
A Sandy Bridge az ADD / SUB + Jcc utasításokat is tudja egyesíteni, bizonyos megkötésekkel ("The first instruction can have an immediate operand or a memory source operand, but not both"), nem csak a CMP / TEST + Jcc eseteket. Vajon Bulldozer-nél is lesznek korlátok?
Uop-cache úgy tűnik, nem lesz a Bulldozerben.
#6295 Oliverda titán P.H. #6294

Új Válasz 2009-12-10 10:53:50 #6295
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #6294 üzenetére

Az úgy nem lesz jó mert akkor a nem túl tájékozott júzer tuti a 8 core + 8 thread CPU-t fogja megvenni. Tehát szerintem a "thread" megjelölés marketing szempontból nem lenne túl szerencsés. Vagy ha véletlenül mindkét gyártó áttérne erre a formára akkor megint 16 thread vs. 8 thread lenne a felállás. Így szerintem marad a "core". Nem rosszabb mint a 3200+ ami valójában csak 2000MHz-en üzemelt.
#5882 Oliverda titán P.H. #5881

Új Válasz 2008-11-26 19:07:22 #5882
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #5881 üzenetére

Érdekes... Az pedig különösen hogy a legutolsó E0 stepping-es Penryn mitől lett bugosabb mint a korábbiak.
#5667 Oliverda titán P.H. #5665

Új Válasz 2008-11-05 19:53:08 #5667
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz P.H. #5665 üzenetére

Na de ki tudja hogy az a die shot hanyadik rev.? Valószínűleg C0 és C2 lesz az ami piacra kerül majd végül AM2+ és Socket F foglalattal. Az AM3 lehet hogy már egy újabb stepping lesz.
32-ről 48 utasra növelték az L3 asszociativitását, ez már egy változás a K10-hez képest. Nem tudom hogy ennek például mennyire kellene látszódjon egy die shot-on.
Bluegene: 140W-ig mehetnek el max. a fogyasztással. Ez az első C2 steppinggel szvsz max. olyan 3.2GHz-ig lehet még jó. Persze később jönnek majd újabb steppingek is és arról is szó volt hogy idővel bevezetik a High-k/metal Gates techonlógiát is.
#4941 Rive veterán P.H. #4938

Új Válasz 2008-04-30 23:21:10 #4941
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Rive

veterán

válasz P.H. #4938 üzenetére

Az Anandtech ennyire slampos lenne? Úgy érzem, többet sejtet ebben a jövőre nézve.
Szerintem a code morphing gyereke előbb-utóbb befigyel, csak nem vliw-en, vagy esetleg még nem most. SZVSZ ez van benne.
#4939 #95904256 törölt tag P.H. #4938

Új Válasz 2008-04-30 22:37:42 #4939
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #4938 üzenetére

Ennek kivédése azért még nem radikális áttervezés: a jelenlegi AMD-microarchitecture-ban is elfér egy macroop-okat tartalmazó loop stream detector
Ezért is mondtam hogy: #4927
#4936 #95904256 törölt tag P.H. #4934

Új Válasz 2008-04-30 22:17:47 #4936
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #4934 üzenetére

A ugrások találati arányát ( nekem 95% feletti átlagok rémlenek ) nem is firtatom. De azért bosszant hogy AMD-nél minden egyes ugrásnál +1 órajellel számolhatok. Ez egy átlagos kód esetén több százalékkal (~ 0-10%) lassabb futást is eredményezhet.
#4932 Rive veterán P.H. #4924

Új Válasz 2008-04-30 21:42:33 #4932
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Rive

veterán

válasz P.H. #4924 üzenetére

...miért volt fontos kiemelni azt, hogy "- Not VLIW, still OoO superscalar architecture"
Mert nemrég felvásárolták a Transmeta dolgait
#4931 #95904256 törölt tag P.H. #4930

Új Válasz 2008-04-30 21:28:33 #4931
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #4930 üzenetére

- branch-prediction eljárások (és amekkora megbízhatósággal rendelkeznek) nem hiszem, hogy manapság fontosabbak lennének a megfelelő prefetch-algoritmusoknál.
Itt nem csak a találati arányra gondoltam. Pl. ha az AMD processzor (K7-K8-K10) belefut egy ugró utasításba az minimum +1 órajel végrehajtási időt jelent, ha ténylegesen ugrani is kell akkor még több is lehet. A Core2-nél ez legtöbbször 0(!) órajel ( Jcc near ).
- OoO hatékonysága: ezen a téren SZVSZ az AMD teljesen jó úton jár, lásd pl. a VIA Isaiah-t, ahol ugyancsak egy-egy port-hoz külön ütemező (RS) járul. (Te írtad anno, hogy az Intel érzékenyebb az utasítássorrendre, mint az AMD.) De az AMD-féle egyszerű pack-stages átrendezésnek sincs tovább jövője, látszik, hogy a többiek kifinomultabb algorimusokat alkalmaznak.
Itt sem csak pusztán sorba/átrendezésre gondoltam, hanem pl. a ICU bővítésére. Abban meg nem vagyok biztos hogy a külön-külön ütemező "gyorsabb" feldolgozást jelent. Szerintem Inkább csak tranzisztor spórolás. Pl. a címzésből adódó függőségek ( ADD ESI,ECX + FADD Q[ESI] ) így is lekezelendőek. A kétszer nagyobb, de közös puffer a több tranzisztorért cserébe integer illetve float-point intenzív kódnál hatékonyabb lehet. Már pedig az a ritkább eset hogy egyszerre mindkét reorder unit töltve van...
- lebegőpontos végrehajtás: persze, minél gyorsabb, annál jobb. Jó kérdés, hogy min múlnak a tervezési szempontok: a VIA össze tudott hozni 2 clock-os összeadást, az Intel 3 clock-ost, az AMD 4-est. Abszolút nem tükrözik a számok az erőviszonyokat, a szükségleteket és az anyagi hátteret.
Az csúcsteljesítményű processzoroknál természetesen a sebesség a lényeg. Egyébként a VIA Isaiah leírását olvasgatva van egy-két érdekes dolog a lebegőpontos részben. Pl. duplapontos szorzással 3 órajel alatt végez, viszont csak 2 órajelenként indítható. Az osztás viszont az első órajeltől kezdve átlapolt! Ilyet sem az AMD sem az Intel nem tud...
szerk.: A VIA Isaiah-ra már nagyon kíváncsi vagyok. Érdekelne hogy mennyi részt kell majd a doksiból másképp értelmezni.
#4899 #95904256 törölt tag P.H. #4898

Új Válasz 2008-04-20 19:34:09 #4899
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #4898 üzenetére

A Kentsfield-nél ( 4MB / 16 utas ) 14 órajel a késleltetés.
A Penryn-nél ( 6MB / 24 utas ) 15 órajel.
Ebből akár az is kisülhet hogy azonos órajelen egy E1xxx Celeron a 11(?) órajeles késleltetésével 35%-kal gyorsabban is futtathat bizonyos alkalmazásokat mint a Penryn.
Persze ritka az efféle alkalmazás ( pl. különböző feladvány megoldó programok ( sakk, sudoku, maze solverek ) ), inkább a cache mérete a domináns.
#4897 #95904256 törölt tag P.H. #4896

Új Válasz 2008-04-20 18:40:29 #4897
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #4896 üzenetére

Utánanéztem az inteles dolognak. Nem kicsit meglepett a dolog.
L2 cache méret / asszociativítás Core2 magos processzoroknál:
Celeron E1xxx: 512kB / 2 utas
Pentium Dual-Core E2xxx: 1MB / 4 utas
Core2Duo E4xxx: 2MB / 8 utas
Core2Duo E6xxx: 4MB / 16 utas
#4663 Raymond titán P.H. #4662

Új Válasz 2008-03-09 19:29:47 #4663
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #4662 üzenetére

Semmi. Halott silicon ami a kicsinyitesnel keletkezett. Itt megnezheted: [link]
#4657 #95904256 törölt tag P.H. #4655

Új Válasz 2008-03-09 07:21:44 #4657
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #4655 üzenetére

Most hogy egy jó ideje már nézegetem a fotókat, tényleg egyre egyformábbnak tűnik.
Már csak abban reménykedem hogy megtalálom a TLB-bug fix nyomait.
#4047 fLeSs nagyúr P.H. #4045

Új Válasz 2008-01-14 00:33:28 #4047
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

fLeSs

nagyúr

válasz P.H. #4045 üzenetére

köszi.
jó kis prezentáció, teccik az FSB-t bemutató oldal...
#4045 P.H. senior tag P.H. #4043

Új Válasz 2008-01-13 22:40:14 #4045
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz P.H. #4043 üzenetére

Mindhárom lehetőség forrása ez a 2006-os prezentáció lehet (a 22. teljes oldal). A HT Retry a BKDG szerint már támogatott, a memory mirroring lehetősége adott az unganged mode miatt/mellett (bár nem látom nyomát sem a BKDG-ben, pedig ott kellene lennie), a data poisoning meg lehetséges, hogy nem is oda, a BIOS-hoz tartozik.
#4021 Raymond titán P.H. #4011

Új Válasz 2008-01-11 22:57:01 #4021
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #4011 üzenetére

Azt az Arstechnica-s szosszenetet nem kell olyan komolyan venni. A szerzo elegge keveri a dolgokat CPU ugyben ugy altalaban. Peldaul itt is: [link]
#3907 fLeSs nagyúr P.H. #3906

Új Válasz 2008-01-06 19:15:52 #3907
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

fLeSs

nagyúr

válasz P.H. #3906 üzenetére

Sztem a felvevőpiacnak most két baja lehet, az egyik, hogy hibás a proci, és várják az új steppinget. A másik az, hogy még új a proci, és ezért aránytalan áron adják az Intel Quadhoz képest. Az elsőre nem számíthatott az AMD sem, a második viszont csak rajtuk múlik.
#3906 szerkre: adtak ki BIOS-patchet, amivel elég komolyan csökken a teljesítmény, így a proci ár/teljesítmény hányadosa tovább romlik...
izé, ezt az MS javítást még nem is láttam, ergo fel sem raktam a gépemre...
#3905 fLeSs nagyúr P.H. #3903

Új Válasz 2008-01-06 19:00:24 #3905
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

fLeSs

nagyúr

válasz P.H. #3903 üzenetére

"#3897: Ha le is lehetett szűrni régóta, hogy a elsősorban a szerver-piacra tervezik a K10 első verzióit, amellett azért nem tudok elmenni szó nélkül, hogy mindezt egy 'béta-terv' (~ mainstream megoldás) nélkül tették, és úgy néz ki, ilyen egészen a közelmúltig nem volt náluk (hozzátéve, hogy egy quad->dual megoldás tervezése sokkal könnyebb, mint egy single->dual-é. Főleg, hogy single megoldás a K8 tervezése óta nincs is igazán az AMD fegyvertárában.)"
Nyilván arra apelláltak, hogy a hibás K10-eket fogják eladni letiltott magokkal.
De ehhez az kell, hogy termeljék a négymagosokat, ami még csak most kezdődött el, szóval nincs miből kétmagost csinálni, majd 1-2 Q múlva.
Ha arra gondolsz, hogy a K10 mellett párhuzamos folynia kellett volna egy kétmagos K10 fejlesztésnek is, akkor igen, így lett volna az igazi, de ha belegondolsz, hogy a K10 milyen kínszenvedés közepette látta meg a napvilágot, akkor gondolhatod, hogy miért nem így történt. A kétmagos K10 tervezésének (ha volt is) a négymagos tervezésével együtt kellett haladnia, tehát csakis a négymagos után készülhettek el a terveivel. Tehát ha van kétmagos K10, akkor annak a gyártása a négymagos után kezdődhetett volna meg, elvégre a K10 lényege a natív négy mag, amivel nem késhettek tovább, prioritást élvezett mindenek felett. Szóval ha van natív kétmagos K10, akkor annak a közeljövőben kell bemutatkoznia, mintha láttam volna már olyan roadmapet, amin szerepelt ilyen, persze az lehetett négymagos K10 is rossz magokkal és letiltott L3-mal.
#3899 Raymond titán P.H. #3894

Új Válasz 2008-01-06 18:33:18 #3899
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #3894 üzenetére

Azt hiszem azert mert nem szamitottak a felbukkano problemakra. Egy uj chip most eleg sok penzbe/idobe/forrasokba kerulne. De azert tenyleg csinalhattak volna egy ketmagos verzion L3 nelkul es 1MB/mag cache-el
Olyan drasztikus layout valtoztatasokat nem hozna magaval. Nem meregettem Photoshop-al, de durva becsles szerint az NB elferne komolyabb (mint a K8 Brisbane-nel) valtozasok nekul ha a 4 HT linkbol harmat kivesznek. Persze ez nem segit azon hogy meg mindig penzbe es idobe kerul a maszkok legyartasa, a tape-ot es a teszteles.
#3897 fLeSs nagyúr P.H. #3894

Új Válasz 2008-01-06 18:28:45 #3897
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

fLeSs

nagyúr

válasz P.H. #3894 üzenetére

Az AMD elkúrta, nem kicsit, nagyon.
Szóval, a K10 mint tudjuk egy önnálló fejlesztés, és ahogy tudjuk, nem futott mellette semmilyen második fejlesztés, aminek mostanában már látszatja lehetne.
Amit akarok mondani az az, hogy most csak két architektúrájuk van, a K8 és a K10, ezekkel kell variálniuk.
Szerintem ezt te is tudod, de azért leírom, hogy egy új, K10 alapú, de natívan csak kétmagos procinak a piacra dobása nem úgy müxik, hogy hopp, most akkor félbevágjuk a K10-et, aztán ott a kétmagos proci, gyártsuk ezerrel. Az egy teljesen új design, az első tranzisztotról az utolsóig újra kell tervezni a tervezőasztalon, aminek a megtervezésére ha el is kezdték vmikor a közelmúltban, kell 1-2-3-4 év, aztán meg kell tervezni hozzá a maszkokat, stb, aztán tape-out, próbagyártás, gyártás beindítása, gyártás felfuttatása és ekkor léphetnek vele piacra. Nyilván a tervezés gyorsabban halad, ha az alapjául szolgáló architektúrát már egyszer megtervezték és ismerik, de a maradék lépések még így is sokáig tartanak ahhoz, hogy hipp-hopp megjelenjenek egy ilyen procival.
Erről ennyit.
A gyártástechnológiai váltások sem úgy működnek, hogy egy meglévő pl. 90 nm-en gyártott architektúrát lekicsinyítenek 65 nm-re. mindent újra kell tervezni, ezért az alacsonyabb csíkszélességű termék fejlesztésének bőven együtt kell haladnia az első verzióval.
Gondolom hallottál róla, hogy az Intel Penrynes csapata USA és Izrael (Core fejlesztése) között állandóan ide-oda ingázott, pont emiatt.
4 GHz: ez sem így müxik, de sztem te tudod ezeket, ne írj sületlenségeket.
esetleg ha az új "elméleti" kétmagos K10 futószalagját meghisszabbítanák, akkor fel lehetne tornázni 4 GHz-re, de a futószalag meghosszabbítása miatt már komplett újratervezésre van szükség (nagyobb regiszterkészlet, pontosabb elágazásbecslés, hatékonyabb RS és ROB),
#3895 #95904256 törölt tag P.H. #3894

Új Válasz 2008-01-06 18:08:46 #3895
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #3894 üzenetére

Szerintem is rég piacon kellene lenniük egy működőképes, 128 bites (SSE), kétmagos megoldással. Ha jól sejtem ez az a terület ami miatt a leginkább lemaradtak az Inteltől.
Mikor ezt hónapokkal ezelőtt feszegettem, olyasmi kép állt össze hogy amennyi energiát csak lehet, a natív négymagos megoldásba ölnek. Gondolom a kétmagos verziót még nehezebb összehozniuk mint pl. a B3 steppinget. De csak idő kérdése és meglesz...
#3416 Raymond titán P.H. #3415

Új Válasz 2007-12-04 22:22:38 #3416
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #3415 üzenetére

Nagy a kavaras. Kivancsi leszek az unnepek elott tisztazodnak-e a dolgok vagy varni kell januarig. A masik meg hogy a mostani nyilatkozatok szerint a januar vegere bejelentett uj Phenom-okbol szinten nem lesz semmi mert ott mar ezekre "later Q108"-at mondanak.
#3408 Raymond titán P.H. #3406

Új Válasz 2007-12-04 10:54:34 #3408
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #3406 üzenetére

Ugy latszik megis egy mas problemarol van szo mint a 254-ben:
Erratum degrades Phenom 9500, 9600 performance
AMD spokesman Phil Hughes told us the TLB issue has been designated errata number 298. When questioned about when AMD would update its technical documentation to include the erratum, Saucier said the person responsible for the updates is "on vacation," although he expects an update "by the end of the year."
Van ott a cikkben meg par erdekes info. Peldaul ez:
"We don't yet have a BIOS with the workaround to test, but we've already discovered that our Phenom review overstates the performance of the 2.3GHz Phenom. We tested at a 2.3GHz core clock with a 2.0GHz north bridge clock, because AMD told us those speeds were representative of the Phenom 9600. Our production samples of the Phenom 9500 and 9600, however, have north bridge clocks of 1.8GHz. Because the L3 cache runs at the speed of the north bridge, this clock plays a noteworthy role in overall Phenom performance. We've already confirmed lower scores in some benchmarks."
#3407 Raymond titán P.H. #3406

Új Válasz 2007-12-03 22:28:07 #3407
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #3406 üzenetére

Igen, de szinjateknak jo volt. Az a Marylin-es foto jut rola eszembe ahol az arcat fogja es szeme szaja tatva
#3405 Raymond titán P.H. #3403

Új Válasz 2007-12-03 21:52:54 #3405
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #3403 üzenetére

Lehet valami ujabb is (a doksi septemberi), de nem valoszinu. Ezert kicsit nevetseges kicsit az a szinjatek amit ezzel a TLB hibaval is eljatszottak. Hogy teljesen varatlanul erte oket es epp a Phenom launch elott egy nappal derult ra feny. Majd meg jonnek reszletek kesobb amikor mar ugyis mindegy lesz
#2984 dezz nagyúr P.H. #2981

Új Válasz 2007-11-17 00:40:09 #2984
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #2981 üzenetére

Az újabb verziós Family 0Fh CPU driverekben van Family 10h támogatás is, ha erre gondolsz.
Raymond: Fura, hogy az összes AMD procit támogató alaplap BIOS-ának UI-ja, és úgy látszik a BIOS-ok leprogramozását segítő doksi is úgy készül, mintha a külső órajel 200 MHz-től eltérő beállítása általi tuning nem létezne. Az UI-val kapcsolatban gondolok itt a 200 MHz-es alapon megadott ram-órajelekre, szorzó/osztó helyett (ami mellé kiírná az aktuális külső clock frekiből számolt órajelet). Csoda, hogy a HT-nél szorzó van megadva, nem órajel szintén.
#2983 Raymond titán P.H. #2981

Új Válasz 2007-11-17 00:07:03 #2983
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #2981 üzenetére

Hiaba olvasom nem talalok semmit. Hova tovabb annal jobban arra hajlok hogy tulbonyolitottuk. A BIOS guide szerint az NB minden power plane-t tartalmaz es minden kulon-kulon alligathato. Tehat azert nem talalni semmi bovebb infot a guideban mert nincs mit talalni. A mem frekvencia egyszeruen a F2x[1, 0]94 MemClkFreq beallitassal tortenik, a lehetseges ertekek pedig a 185. oldalon vannak leirva. DDR2 max 1066 (533) Mhz, DDR3 pedig max 1600 (800) Mhz. Mindenhol ahol a MemClkFreq beallitasa vagy valtoztatasa szerepel csak annyi van hogy beallitja es kesz. Vagy az SPD adatok szerint vagy egy custom ertekre. Sehol egy szamolasi formula vagy mas egyeb.
#2961 Raymond titán P.H. #2958

Új Válasz 2007-11-14 22:29:44 #2961
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #2958 üzenetére

A registereket es az initializationt vegigkovettem en is, de sajnos a DRAM training-nel leall a dolog. Ott max annyi az informacio hogy 400Mhz a ref amivel dolgozik es a visszajelzesek szerint allitja be a vegso frekvenciat. De tobb reszlet nincs.
A "2.5.1 ACPI Power State Transitions" sajnalatos hianyaig is eljutottam, pedig az volna az igazi Valami oknal fogva hianyzik.
NB orajelek:
Ez eleg erdekes tema. Mostansag felbukkant par tablazat ahol dupla orajelet jelolnek meg az NB-nek. Peldaul a 2Ghz-es Phenomnal azt irjak 3.6Ghz. Az viszont gyanus hogy ez az ertek pont a duplaja a 2Ghz-es Barcelona-ban talalhato 1.8Ghz NB-nek. Inkabb arra hajlok hogy a 3.6Ghz egy marketing szam es a 1.8-as HT link-re hasznaljak "aggregalt" jelzo kenyelmes kihagyasaval de kesobb ha kell bemagyarazhatosagaval. Mondjuk a teszt eredmenyekbol itelve mindegy hogy az 1.8 vagy 3.6 a valos NB orajel
#2942 dokar addikt P.H. #2941

Új Válasz 2007-11-14 14:35:44 #2942
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dokar

addikt

válasz P.H. #2941 üzenetére

mivel 55W APC = 68W TDP -> ez is nagyon jó egy 4 magos procinak
de miért is sok? az intel 45nm-es négymagosai többet fogyasztanak. arról nem is beszélve, hogy AMD's ACP = Intel's TDP.
továbbá ha a régebbi AMD procikhoz hasonlítod, akkor számolhatsz 68W-al, de ez se sok 4 mag miatt.
#2870 dezz nagyúr P.H. #2844

Új Válasz 2007-11-12 02:35:18 #2870
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #2844 üzenetére

"(POPCNT lesz Intel-nél is, SSE4.2-ben)."
Az AMD marketingesei nagyon nincsenek a toppon, hogy ezt nem soroltatták az SSE4A-ba... Úgy mégiscsak 25%-kal több utasítást tartalmazna, másrészt olyasmit, ami Intelnél csak az SSE4.2-ben lesz (Nehalemben?).
(#2852) akosf: "Szerencsére az AMD féle SSE5 már tartalmazni fog 5 utasítást az Intel féle SSE4-ből, ami valójában csak kétféle utasítás. ;)"
Tudtommal jóval többet, beleértve az SSSE3-at is:

szerk: hm, .png nem jelenik meg?
cikk
(#2854) fLeSs: Valószínűleg ennek, és az SSSE3 át nem vételének - egyéb hiányzó "alkatrészek" hiánya mellett - az az oka, hogy a K10-ben nem 1-1 128 bites FADD/FMUL/FMISC egység van, hanem 2-2 64 bites párosítva. Így fel tudnak dolgozni 2x64 bitet (pl. 1-1 double-prec., vagy 2-2 single-prec. FP adatot) egy időben, de 128 bitet egyben kezelni nem: pl. operandusokat cserélni az alsó és felső 64 bit között, mit amit pl. a shuffle utasítások csinálnak, vagy dot productot képezni, stb.
(#2855) Oliverda: Hát én nem értek egyet azzal a hsz-szel, legalábbis nagy részével. (Talán olvasd el a reagálásomat is.) Pl. Larrabee és TeraScale ide v. oda, CPU vonalon is halad tovább az Intel, és valószínű létrehoz valami hasonlót, mint az SSE5, csak azért se kompatibiliset. Az átvétel meg meg sem fordul a fejükben. Lásd x64 esete... (Vagy a HT, miről még szó volt ott.) Csak most az MS sem igazán tudja kikényszeríteni, mert egy OS nem nagyon használja ezt. (Bár talán 1-2 dolgot mégis.)
(#2859) Raymond: Mit készít elő az Intel az SSE4-gyel, amikor az nagyrészt integer műveleteket tartalmaz? Minden bizonnyal a Larrabeenek ugyancsak egy teljesen új, több operandusos FP SIMD kiterjeszése lesz.
#2868 #95904256 törölt tag P.H. #2863

Új Válasz 2007-11-11 22:09:49 #2868
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #2863 üzenetére

Azért bízom benne hogy előbb-utóbb új regiszterek is jelennek meg az új utasításkészletekkel. Emlékszem arra mikor Win98 alatt két taszk is megpróbált SSE kódot futtatni és OS támogatás hiányában összekeveredtek az adataik.
#2866 ftc nagyúr P.H. #2863

Új Válasz 2007-11-11 21:58:19 #2866
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ftc

nagyúr

válasz P.H. #2863 üzenetére

igen lehetne egységes a kódrendszer, utasitások...megnehezitik a programozok dolgát
#2865 Rolcsi20 senior tag P.H. #2863

Új Válasz 2007-11-11 21:56:46 #2865
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

Rolcsi20

senior tag

válasz P.H. #2863 üzenetére

hagyjuk má ezt a kínai beszédet
#2852 #95904256 törölt tag P.H. #2846

Új Válasz 2007-11-11 21:27:22 #2852
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #2846 üzenetére

Való igaz, az AMD féle SSE4a és az SSE4 utasításhalmazok metszete nulla elemet számlál. Szerencsére az AMD féle SSE5 már tartalmazni fog 5 utasítást az Intel féle SSE4-ből, ami valójában csak kétféle utasítás. ;)
[ 66 0F 38 17 .. ] PTEST
[ 66 0F 3A 08/09/0A/0B .. ] ROUNDxx
Mókás lesz ez így...
szerk.: El is felejtettem megemlíteni hogy míg a POPCNT az Intelnél az SSE4 része, addig az AMD-nél nem része az SSE4a-nak, viszont tartalmazni fogja a K10-es...
#2851 fLeSs nagyúr P.H. #2846

Új Válasz 2007-11-11 21:22:15 #2851
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

fLeSs

nagyúr

válasz P.H. #2846 üzenetére

Az előzőleg linkelt két doksi alapján semmi köze nincs a kettőnek egymáshoz. Legalábbis nem nagyon találtam olyan utasítást, ami szerepelne mind2ben.
Javíts ki ha tévedek. Jó lenne tudni, hogy mit írjak a cikkbe.
#2848 P.H. senior tag P.H. #2846

Új Válasz 2007-11-11 21:13:23 #2848
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz P.H. #2846 üzenetére

Nagyon kell vigyázni mostanság az ilyen suta kijelentésekkel ( ), tehát kiegészítve:
[...]opcode-okat, az AMD CPU-k pedig nem ismerik az összes Intel-féle SSE4(.x) opcode-ot.
#2845 fLeSs nagyúr P.H. #2844

Új Válasz 2007-11-11 20:28:31 #2845
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

fLeSs

nagyúr

válasz P.H. #2844 üzenetére

Na erről beszélek, hogy már egy csomó variációt hallottam.
#2752 Raymond titán P.H. #2747

Új Válasz 2007-11-09 22:49:47 #2752
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #2747 üzenetére

Eleg nehez lekovetni pontosan mi tortenik. De azert meg megprobalom Csak hogy bizonyitsam az NB fuggoseget
#2743 FireGL aktív tag P.H. #2732

Új Válasz 2007-11-09 21:14:19 #2743
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

FireGL

aktív tag

válasz P.H. #2732 üzenetére

"Azt nem találom sehol, hogy eddig C'n'Q által levett magórajel mellett K8 esetében a memória órajele is leesett-e"
K8 esetén változik a memória órajele is a C'n'Q miatt.
Saját konfigom:
X2 4000+ alap 2100MHz mag / 700MHz ram - dual ch.
C'n'Q 1000MHz / 400MHz - single ch.
#2737 Raymond titán P.H. #2732

Új Válasz 2007-11-09 21:00:56 #2737
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #2732 üzenetére

Ezert (a Guide miatt) irtam a multkor hogy nem a proci orajelebol szamolodik szerintem. Az NB orajelebol szamolodik megha elismerem hogy a guide nem kinal valami szajbaragos leirast.
#2572 #95904256 törölt tag P.H. #2559

Új Válasz 2007-11-05 22:34:35 #2572
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #2559 üzenetére

Ez tényleg szomorú. Bizakodtam hogy az Einsein@Home-ot egy dual Phenom-mal fogod támogatni...
#2563 Raymond titán P.H. #2559

Új Válasz 2007-11-05 22:11:32 #2563
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #2559 üzenetére

Ez mondjuk sajnalatos de varhato volt. Az ugrade kerdese messze nem technikai alapokon lesz megvalaszolva hanem inkabb gazdasagi.
#1505 robyeger addikt P.H. #1499

Új Válasz 2007-08-28 08:46:59 #1505
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz P.H. #1499 üzenetére

Csak találtál valamit 2001-es ábrák 2002-es szövegkörnyezetben, és ki tudja utólag módosítottak-e a szövegen. Furcsállom, hogy annak idején a laborok hogy nem figyeltek fel egy ''több magos architektúrára'', persze a kezdetekkor szerintem szó sem volt ''System Request Interface''(SRI)-ről, de ha az AMD 2004-ben azt állítja, hogy mindig is ott volt, [link] legyen, biztos csak én vagyok ilyen szkeptikus, bocs
Azaz érzésem ezekkel a felületes prezentációkkal sokra nem fogunk jutni, hogy pontosabban megértsük, mi is az a processzor szorzó a K8-ban, miért nem képes az 1magos AM2 proci kiaknázni egy dupla csatornás DDR2-800Mhz ramokat?
MOESI: Valahogy az SG-nél se értették: ''Különösebben mélyreható részleteket egyelőre nem árult el erről az AMD, tehát egyelőre az sem tiszta például, hogy szükség esetén hogyan jut el az adat az egyik mag gyorsítótárából a másikéba.''
Szóval csak 2verzió lehetséges vagy hardveres vagy szoftveres a hiányosság. Ha abból indulunk ki, hogy az SRI-n keresztül össze vannak kötve közvetlenül a gyorsítótárak, akkor kizárásos alapon csak szoftveres bibi lehet.
Másodsorban ha pedig azt vesszük hogy alapórajelen közlekednek az adatok az SRQ és az L2 cache között, akkor nem adódik nagy sebesség különbség, hogy átnyulik-e a másik mag gyorsítótárába vagy lemegy inkább a memóriához. A gyakorlati tapasztalatok nem változnak olyanok, amilyenek , 1x csak megtudjuk a részleteket.
#1503 dezz nagyúr P.H. #1492

Új Válasz 2007-08-28 02:20:42 #1503
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #1492 üzenetére

Bocs, hogy csak most reagálok.

''A processzorok összes HyperTransport linkje szinkron módban működik, a HyperTransport I/O Link Specification-ban leírt módon (ez feltételezi, hogy aszinkron módot is tudnak, bár nem ismerem az adott specifikációt).''
Nem feltételezi. Ne zavarjon meg a ''mode'', nem ide vonatkozik, hanem általánosságban a lehetséges működési módokra. Az ilyen megfogalmazás azt szokta jelenteni, hogy ez ezt tudja.

''Ezen leírt szinkron mód elengedhetetlen feltétele, hogy az összes link esetén mind az adó, mind a vevő vonalak azonos óraegységeken alapuljanak.''
Szerintem hasznosabb lenne itt egy szó szerinti fordítás, tehát vonalak órajelei, és azonos időalapból létrehozott.

''(Mivel a korábbiak - pl. ''Processors can be configured with link frequencies from up to two link frequency groups.'' - alapján feltételezhetően a koherens és a nemkoherens linkek eltérő frekvencián működhetnek egy CPU-n belül).''
Nem vagyok benne biztos, hogy a fenti mondattal erre utaltak, mivel az teljesen nyilvánvaló, hogy egyforma frekvencián kell működniük - ennél sokkal fontosabb itt, hogy egyforma fázisban is legyenek, amit egy közös alap-órajel tud biztosítani.

''Ha egy link két végén lévő eszközöknél két különböző órajelgenerátor állítja elő a közös frekvenciát, akkor a következő követelményeknek kell eleget tenniük:''
Nem frekvenciát, hanem órajelet! Nem mindegy. Továbbá nincs helye itt a közös szónak, csak közel áll egymáshoz a kettő.

''1. Mindkét órajelgenerátor azonos forráson alapul -> azonos frekvencia feltétel? (Ez itt a sejtésem szerint a fenti bináris értékekre utal, amelyek szabványosak, bármilyen alapból legyenek előállítva. Vagy emellett egyben az egyetlen közös alapórajelre meglétére is utal, mely mindkét eszköznek egyik adott bemeneti jele kell legyen? Utóbbi léte leegyszerűsíti a helyzetet.)''
Itt ugyanaz a helyzet, mint feljebb. Nem szabad az órajel és a frekvencia szavakat szabadon keverni. A frekvencia-beli egyezés nyilvánvalóság, itt az azonos fázis a lényeg, azaz az azonos referencia-órajel. (Tehát az utóbbi eset.)

''2. Spread spectrum (erre mi a helyes magyar kifejezés? Kiszélesített? Vagy nem szigorú határú?)''
Szórt spektrumú. A frekvencia átlaga egyforma, de kis eltéréssel folyamatosan váltakozó. (Így nem egy adott frekvencián ad le nagy energiát elektromágnesesen, hanem szétszórva kicsit.)

''órajelezés már csak akkor engedélyezhető, miután (ha egyáltalán) a két órajelgenerátor esetleges eltérő üteme már összehangolttá válik.''
Nem egészen erről van szó. A szórt spektrumú órajelezés alapfrekvenciától való eltérései szinkronizáltak, vagy hogy kevésbé legyen zavaró a megfogalmazás: egyeztetettek.

'' -> azonos fázis feltétel?''
Természetesen.

(#1495) robyeger: A #1499-esben kiderült az igazság, de azért megkérdezném: szerinted mégis mi a csuda lett volna ott az a CPU0 és CPU1? Honnan/hová vezettek volna azok a vonalak?

hunnylander: ''A K8 leszerepel a Conroe ellen, még magasabb órajelen is.''
Én ott csak azt látom, hogy azonos órajelen (3GHz) a C2D kb. 30%-kal jobb. Az meg nem csoda, hogy 2x-4x annyi ''CPU''-val (maggal) jóval gyorsabb valami.

[Szerkesztve]
#1501 Zeratul addikt P.H. #1499

Új Válasz 2007-08-27 19:55:16 #1501
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zeratul

addikt

válasz P.H. #1499 üzenetére

P.H. szvsz feleslegesen téped a szád Robigyerek mindeáron be akarja bizonyítani hogy az intel buszrendszere fejlettebb mint az AMD még ha féligazságokal is.
#1495 robyeger addikt P.H. #1476

Új Válasz 2007-08-27 08:28:49 #1495
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz P.H. #1476 üzenetére

-Az hogy a processzor milyen mikrokódokra bontja szét a komplex x86 utasításokat lényegében szoftveres, ezt szokták hiba esetén patch-elni alaplapi BIOS frissítésekben és esetenként változtatni egy új stepping megalkotásakor. Ha az AMD azóta nem volt képes megoldani, az X2 magok közvetlen kommunikációját, akkor nagy valószínűséggel nem szoftveres problémáról van szó.
[link]
Hova jutottunk, több magot képzelni a Hammer-be Biztos a hypertransport is 3maghoz kapcsolódik azért számozták be 0,1,2-vel Vagy a CPU 0 ugyan fizikálisan nincs ott, de be van tervezve, ezért kapott 0 sorszámot Ez még a kopasznak is hajmeresztő! Az általad említett prezentációban érdekes módon az osztott memóriavezérlőt se ábrázolják/említik, talán azért mert akkor még azt se tudták mi fán terem. Számos cikk született a Hammer megalkotásának idején, mutassál már egy hivatalosat is, amiben a hammer és a multicore szó szerepel! Az igaz, hogy több processzoros rendszerről van szó és annak is tervezték, de több magról akkoriban szó sem volt. Még1x a fenti ábrából szeretnék X2-st látni!
Ha valakinek sikerül magáról levetnie márkarajongását, egyszerű logikával rájöhetne, hogy pl. 2Ghz K8-esetén, ha SRQ felől is 16GB/sec sávszéllel lehetne elérni az L2 cache-t, akkor nem lenne szükség L3 cache-re és dupla buszszélességre.

[Szerkesztve]
#1490 P.H. senior tag P.H. #1483

Új Válasz 2007-08-26 07:02:29 #1490
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz P.H. #1483 üzenetére

Most vettem észre, hogy nekem lementve a linkelt .PDF 2005 októberi verziója (rev. 3.28) van, viszont a link egy 2003-asra mutat, amiben még nincs benne az említett záró megjegyzés:

''Note: The processor’s HyperTransport links operate in Synchronous (Sync) mode as described in the HyperTransport I/O Link Specification. Sync mode operation requires the transmit and receive clocks for all links to be derived from the same time base. If different clock generators are used to drive the reference clock to the devices on both sides of the link, then the following requirements must be satisfied to ensure proper link operation:
1. All clock generators must use the same reference clock source.
2. Spread spectrum clocking must not be enabled in any of the clock generators unless the frequency deviations are synchronized between the outputs of all clock generators.''

És nincs benne a 12.4 szakasz sem:

''The BIOS should determine the set of frequencies that a processor is capable of for every HyperTransport™ link connected to the processor. Each frequency in the set must be defined by the corresponding link frequency capability bit in the LnkFreqCap field, Function 0, Offsets 88h, A8h, C8h, and it must be equal to or less than the maximum frequency values specified in the processor data sheets.

If a HyperTransport™ link is non-coherent, then the BIOS should initialize the HyperTransport™ link frequency (Link field, Function 0, Offsets 88h, A8h, C8h) with the highest value from the set of frequencies of which the processor is capable and which is less than or equal to the maximum frequency values specified in the chipset data sheets, and the maximum frequency supported by the platform.

If a HyperTransport™ link is coherent, then the BIOS should initialize the HyperTransport™ link frequencies (Link field, Function 0, Offsets 88h, A8h, C8h) of both processors with the highest common frequency value from the sets of frequencies of which each processor is capable that is less than or equal to the maximum frequency supported by the platform.''
#1467 robyeger addikt P.H. #1450

Új Válasz 2007-08-25 01:09:06 #1467
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz P.H. #1450 üzenetére

Abba úgy látom egyet értünk, hogy a kutya az SRQ és L2 cache környékén van elásva. Én nem hiszem, hogy csak szoftveres akadálya lenne, hogy a magok gyorsítótárai közvetlenül kommunikáljanak, mondjuk a MOESI protokoll lenne a hibás. Szerintem egyszerűen ugyan az motiválta az AMDt, mint az Intelt, akkortájt ''hogy lehet minél gyorsabban összeilleszteni két magot''. Ennek legegyszerűbb módja, ha magok közvetlenül kommunikációját kizárjuk. pedig régen azt hittem az L1 cachek képesek gyors adatcserére a magok között, ha már az L2 lassucska , hiszen az AMD a magok között magórajeles kommunikációval reklámozza X2 procijait. Viszont a memória sávszél benchmárkokban szó nincs magok közötti kommunikációról, egyszerűen a két mag függetlenül egymástól hoz fel adatokat a memóriából, itt kibukik, hogy maga az L2<->mem átvitel lassabb, mint 6.4GB/sec. Én nem akarom átrajzolni a K8-as ''metszeti'' ábrákat, de ha nem az SRQ-nál van a processzor szorzó, akkor mond meg te hogy hol van??
#1464 dezz nagyúr P.H. #1450

Új Válasz 2007-08-24 23:53:17 #1464
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #1450 üzenetére

Látom, nem vagy a tömör fogalmazás híve. ;) De én nem szeretném ezt most hozzád hasonlóan a legapróbb részletekre kiterjedően kifejteni. Viszont nem egészen értem, melyik rész nem egyértelmű a számodra. Na mindegy, majd valahogy összejön.
Arra gondolok, hogy pl. az aritmetikai művelet+memória(/cache)-művelet típusú utasítások K8/K10 esetén jó esetben egy makro-op-ot eredményeznek, miközben Core2-n ez általában 2 különálló mikro-op lesz.
Nos, korábban volt ugye szó a két architektúra szélességéről, és a kiindulóul szolgáló cikkben 3 vs. 4 ''egységnyi'' szélesség szerepelt. Csak - mint ugyancsak szó volt róla - a cikkíró mindkettőnél egyformának tekintette ezt az ''egységet'', mikro-op-nak írva mindkét helyen. Pedig AMD-nél valójában makro-op-ról van szó, ami 2 mikro-op-ot tartalmazhat, pl. magában foglalhatja a fenti műveletekhez szükséges 2 mikro-op-ot. Ezáltal, mikro-op-ban mérve 6 vs. 5-ös szélességről beszélhetünk, az AMD javára. És ez valódi effektív érték, mivel fenti típusú utasítások jó esetben tényleg ''megvannak'' 1 makro-op-ból.

#1450: Hmm, ha jól értem, ha módosítva volt az adat, legalább akkor valamilyen közvetlenebb úton olvassák ki a procik egymástól, nem? Nos, milyen úton?

Raymond+Rive: Erm, igen, legalább nekem utána kellett volna jobban nézni, ha nem vagyok benne biztos. Csak túl egyértelműnek tűnt, mivel valahogy összekevertem a szót a kauzalitással.

AMD Power: Nézd csak meg most a kommenteket, van ott a végén 1-2 érdekes. ;)

[Szerkesztve]
#1463 #95904256 törölt tag P.H. #1462

Új Válasz 2007-08-24 20:07:50 #1463
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1462 üzenetére

Köszönöm az információkat. Ma is tanultam valamit.
#1461 #95904256 törölt tag P.H. #1460

Új Válasz 2007-08-24 18:51:06 #1461
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1460 üzenetére

Igazából olyasmire gondoltam pl. hogy fut egy modulo képző program (több százezer bit hosszú adatokkal) és egy bizonyos tartományban ( pl. ami 4Gbiten (512MB-on) ábrázolható ) a modulo eredményeket 1-1 bit bebillentésével jelzi illetve érzékeli hogy már volt ilyen eredmény ( pl. BTS utasítás ). Ilyenkor párhuzamosan futhatna több modulo-képzés egy közös bittáblával, ami OS szinten osztott memóriaterület...

Viszont ez a cache-vonalért történű küzdelem is érdekes. Honnan tudja egyik-másik CPU hogy a másik CPU mely memóriacímeket birtokolja? Minden egyes memóriaírásnál lekérdezi pl. a HyperTransport-ton keresztül hogy az adott vonal foglalt-e már egy másik CPU által? Ez egy 8 CPU-s rendszerben erősen visszafoghatja a memória írási sebességet...
Vagy van ennél jobb megoldás?
#1442 robyeger addikt P.H. #1439

Új Válasz 2007-08-23 08:59:04 #1442
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz P.H. #1439 üzenetére

Tényleg pedig olvastam a cikket. Majd megpróbálok levelezni orosz barátunkkal, de talán van más is akit érdekel a mondandóm, ezért megosztanám
Szeretem a K8-at, mindig tud új meglepetéssel szolgálni , ezért kezdem a:
2. Akár hogy akarom fordítani tényleg azt jelenti hogy a magok a memória ''buszon'' keresztül kommunikálnak. Eddig azt hittem, hogy az AMD-nél a két K8-as magot az SRQ-nál illesztették(kapcsolták) össze és csak azért csináltak osztott memória vezérlőt, mert a K8 csak 1db 128bites memória csatornát tud használni, és megosztva a vezérlőt a magok függetlenül tudnak egymástól kommunikálni a memó felé, amúgy nem lenne lehetséges, egymásra kellene várniuk. Utána olvastam a MOESI protokollnak és úgy néz ki igaza lesz orosz barátunknak. Amit kihámoztam, hogy a valóságban a két magot kizárólag a memóriavezérlőnél(IMC) illesztették össze, akkor pedig nem lehet egy időben 1magnak, a memóriával és a másik maggal is kommunikálni. Szerintem ez csak késleltetésben jobb a PentiumD megvalósításhoz képest integrált volta miatt, módszerében viszont ugyan olyan primitív. K10-nél már 2x64bitet fognak használni, így 2db független kommunikáció lesz lehetséges.
1. X-bit labs már a Hammer-nél se nagyon ecsetelte a processzor szorzót, sajnos most se tette meg. Hiszen a IMC magórajelen működik és az XBAR-on is olyan sebességgel szaladgálnak az adatok, pont ezért lassúnak nem lehetne nevezni, csak ha útközben ott van az SRQ - L2 cache páros, ahol a szorzó miatt szenvedi el a nagyobb késleltetést.

[Szerkesztve]
#1440 FireGL aktív tag P.H. #1439

Új Válasz 2007-08-22 20:35:27 #1440
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

FireGL

aktív tag

válasz P.H. #1439 üzenetére

''(mert ebben a cikkben szó nincs arról, hogy változott volna a kettő közti busz órajele)''

Több helyen szó volt róla, hogy a K10 a DDR2 1066MHz memóriákat is szabványosan fogja kezelni. Ezt pedig 200MHz-es órajel miatt nem stimmel. Mivel írták, hogy az AM2-vel is visszafelé kompatibilis lesz, lehet itt fog 200-on menni. Ha az 1066MHz-es memória sebességből következtetek akkor az AM2+ az órajelben is lehet hogy hoz változást.
#1438 robyeger addikt P.H. #1436

Új Válasz 2007-08-22 13:06:57 #1438
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz P.H. #1436 üzenetére

Hali! Csinos összefoglaló, grat De két dolgot kritizálnék, amiről már régebben eszme cserét is folytattunk:
1. ''Az L2 cache exkluzív szervezésű: nem található meg ugyanaz az adat az L1-ben és az L2-ben egyidőben. A két szint 2 db egyirányú buszon cserél adatot, az egyiken fogad, a másikon küld. K8 esetén mindkét adatút 64 bites, így 8 órajel szükséges egy 64 byte-os egység cseréjéhez '',
-szóval ide nyugodtan oda lehet írni, hogy ez alapórajel, hátha valaki azt hiszi, hogy magórajel, ezért is látszódnak magas késleltetések.
2. ''Látható, hogy az L3-cache jelentős hatással van a magok közti kommunikáció sebességére. Amint korábban kiderült, a korábbi Athlon64 processzorok magjai a memóriabuszon keresztül cserélnek adatokat, nagyban lassítva a közösen módosított adatok cseréjé'',
-nem tudom te mit nevezel memóriabusznak?, de itt nem megy le az adat a memóriavezérlőhöz, sőt még az XBAR-on se halad át, a magok az SRQ keresztül kommunikálnak, maga a szorzás (processzor szorzó) is ezen egységben történik.

[Szerkesztve]
#1355 dezz nagyúr P.H. #1352

Új Válasz 2007-08-13 00:31:25 #1355
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #1352 üzenetére

Kösz a kimerítő leírást. De még nem derültek ki a következők:
1. Pl. az ADDPD xmmreg1, xmmreg2 (mem) utasításban mi a ''(mem)''?
- Ha ez memória-hozzáférést takar (ami persze jobb esetben valamelyik cache-ben végződik), akkor AGU-s indítás ide vagy oda, az LSU is meg van dolgoztatva, tehát egy macro-op-ból megvan az egész! (Így tehát egy Inteles micro-op inkább egy AMD-s micro-opra hajaz, semmint egy egész AMD-s macro-opra - tehát a ''3 vs. 4 szélesség'' helytelen, és ez inkább 6 vs. 5 szélesség!)
2. Ha az FPU-s memória-műveletet is az AGU és az LSU végzi el, mit csinál az FSTORE? (Nyilván mást, mert láthatóan nem utasítható egy macro-op load/store/load-store micro-opjával, külön macro-opot igényel, ha más FPU-beli alegységgel is van ''dolgunk'' egy utasításban.)

Andre1234: Milyen dátumról van szó? A japán demózásról? Az előző sem volt túl informatív, csak egy screenshot jött ki, ami igazolta a 3 GHz-t, meg hogy szépen futott pár játék, fps nélkül.

[Szerkesztve]
#1353 #95904256 törölt tag P.H. #1352

Új Válasz 2007-08-11 20:53:38 #1353
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1352 üzenetére

Épp ma kezdtem el irogatni egy kis programocskát amivel letesztelhető pár utasítás latency értéke. Ugyanis készülök a K10/Penryn megjelenésre.

Na, de visszatérve az FPU esetében említett +6 órajeles késleltetésre, azt kell mondjam hogy az meglehetősen jól el van rejtve, ugyanis a cím az integer regiszterekből generálódik, a CPU meg elég jól képes előre látni. Ezért a tényleges futásidő szempontjából ez már nevezhető ideális esetnek. Egyébként van valami információd arra vonatkozóan hogy kb.milyen gyakran fordulnak elő a nem idális esetek? Ráadásul ezen eseteknél sem mindig a +6 órajel késleltetés érzékelhető.
#1321 dezz nagyúr P.H. #1317

Új Válasz 2007-08-04 23:55:22 #1321
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #1317 üzenetére

''#1316: így értendő (L1-hozzáférés +2 cycle latency, az FMISC/FSTORE az egyoperandusú nem-integer műveleteket - konvertálás, ilyesmi - hajtja végre):
ADDPD xmmreg1, xmmreg2 DirectPath Single FADD 4 1/1
ADDPD xmmreg1, mem DirectPath Single FADD 6 1/1
ADDPS xmmreg1, xmmreg2 DirectPath Single FADD 4 1/1
ADDPS xmmreg1, mem DirectPath Single FADD 6 1/1''
Ezt most nem egészen értem.

''A memóriahozzáférést természetesen az AGU-k végzik, kiteszik a result bus-ra az eredményt. 3 result bus van összesen, az operation micro-op ott kapja el az eredményt, ahova ment (integer vagy FPU egység)''
Ahamm. Eddig azt hittem, az AGU-k, azaz az Address Generation Unitok a nevüknek megfelelően memóriacímeket számolnak (pl. indexelésnél), és magát a műveletet egy LSU hajtja végre.

ps. előnyösebb lenne nem keverni egy válaszban jelzés nélkül mások szövegeit a címzettével.

#1320: Hát, ebből most nem igazán tudom kibogózni, hogy a válasz igen vagy nem. Vagy néha igen, néha nem?

7600GT: Fusion = a CPU és egy GPU közelebbi viszonyba hozása. Korábban úgy volt, hogy eleve egy chipre lesznek integrálva, de mivel ez egyelőre technikailag problémás (az AMD CPU-i SOI technológiához tervezettek, az ATI féle GPU-k meg nem, és az aktuális vonalszélesség is eltér), első körben a Torrenza platform keretében egy 2-foglalatos lapon az egyik foglalatba megy majd egy GPU, PCIe busz helyett a közvetlenebb HT buszon kommunikálva. A következő verzió meg az lesz, hogy egy tokba teszik őket, de 2 külön lapkán lesznek azon belül. Aztán majd úgy 2 év múlva jön az egy lapkára integrált változat.

A Fusionnek kétféle célja van:
- A feltörekvőben lévő GPGPU (General-Purpose computation on GPUs) alkalmazások gyorsítása - desktop/munkaállomás/szerver frontokon. Ekkor nem mint videovezérlő lesz kihasználva, hanem mint nagy mennyiségű számítást multiparallel elvégző egység. A GPGPU módszerről bővebben itt: [link]
- Költségcsökkentés - entry level desktop/laptop/egyéb mobil eszközök terén, mint integrált videovezérlő. (Igazából nem tudom, ez így miért jobb, mint ha a szokásos módon a chipsetbe lenne integrálva.)
#1318 #95904256 törölt tag P.H. #1317

Új Válasz 2007-08-04 19:16:25 #1318
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1317 üzenetére

Hali P.H.!

P.H.:ADDPS xmmreg1, mem DirectPath Single FADD 6 1/1

Hogy lehet itt kimutatni az L1 késleltetését?
Érdekelne hogy hol fog ''meglátszani'' ez a 6-os késleltetési érték...

[Szerkesztve]
#1316 dezz nagyúr P.H. #1314

Új Válasz 2007-08-04 18:25:11 #1316
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #1314 üzenetére

Hmm, én csak azt figyeltem, hogy az ''FPU Pipes'' oszlopban mely egységek szerepeltek. Az x86/stb. asm-et nem ismerem. Tehát, az xmmreg2 (mem) egy regiszter-tartalommal indexelt memóriahozzáférés, vagy ilyesmi? Ahamm! Most már kezd a helyére kerülni a dolog. Már csak azt nem értem, hogy ilyenkor mi végzi el a memóriahozzáférést? Azt hittem, ahhoz az LSU is kell.

[Szerkesztve]
#1315 dezz nagyúr P.H. #1312

Új Válasz 2007-08-04 18:14:22 #1315
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #1312 üzenetére

Így már talán érthető. Az nem számít bele a latencybe, hogy egy-egy dekóder kimenete - a doksi Figure 8-a szerint legalábbis - 1 macro-op széles, így egy Double-nek 2 órajel alatt kellene elhagynia?

Jól értem, te azt mondod, hogy egy macro-op load/store/load-store micro-op-ja nem az LSU-nak szól, hanem csak egy AGU-nak? És tehát egy külön macro-op utasítja az LSU-t? Hát, ezzel kicsit ellentmond a Table 1-ben olvasható definíció:
''A single macro-op may specify—at most—one integer or floating-point operation and''
(Nem beszélve a folytatásról:
''one of the following operations:
• Load
• Store
• Load and store to the same address'')
Szal, egy Load-Store Unitos műveletet nem neveznék integer vagy floating-point operationnak, hanem sokkal inkább egy load/store/load-store operationnak.

A másik dolog, hogy az FPU-ban nincs külön AGU, így nem tudom, itt kinek szólna a load/store/load-store micro-op, ha nem az FSTORE egységnek... De az ciklusszámokból úgy tűnik, mégsem így van a dolog. Talán az FPU is az integer pipeline AGU-it használja, így az fp-s célzatú macro-op-ok load/store/load-store micro-op-jai az integer pipeline-on mennek keresztül?

szerk: ja, közben még írtál, azokat most olvasom.

[Szerkesztve]
#1291 #95904256 törölt tag P.H. #1288

Új Válasz 2007-08-03 21:50:40 #1291
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1288 üzenetére

Az 5-ös IPC a Core2 maximuma. Ez az Intel dokumentációból látszik.
Mikor 6-os IPC-ről beszéltem, az egyértelműen téves információ volt.

Kezdesz összezavarni. Nem értem hogy mire vonatkozik a ''De mondtam...''.
A linkelt hozzászólás most mire vonatkozik?
#1287 #95904256 törölt tag P.H. #1286

Új Válasz 2007-08-03 21:38:40 #1287
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1286 üzenetére

Miért is?
#1284 #95904256 törölt tag P.H. #1283

Új Válasz 2007-08-03 21:19:12 #1284
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1283 üzenetére

Jó, akkor most mutasd meg te hogy hogy lehet elérni az IPC=5,0 értéket.
Na és persze csináljon valami hasznosat is, ha már tőlem elvárnád.
#1283 P.H. senior tag P.H. #1282

Új Válasz 2007-08-03 21:12:55 #1283
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz P.H. #1282 üzenetére

Arra, hogy ilyen összecsapott lett a kódértelmezés, egyetlen mentségem, hogy már a [MOD] után született
XOR(/PS/PD)-t meg tényleg hagyjuk ki belőle, P2 óta tudja, hogy nem függ az előző értéktől.

És ez nem tárol eredményt, mindig ugyanonnan olvas (= nem függ a ciklusváltozótól sem a forrás-, sem a céladat címe)

[Szerkesztve]
#1279 #95904256 törölt tag P.H. #1277

Új Válasz 2007-08-03 19:27:19 #1279
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1277 üzenetére

Hali P.H.!

Ez engem is érdekel. Ugyanis többször próbáltam már különféle kódokat optimalizálni a különféle manual-ok alapján, mégis irgalmatlanul nehéz az IPC = 1,5-ös értéket megközelíteni. Sőt, sokszor 0,8-0,9 környéki értékek jönnek ki, a vTune-nal is.

Mondjuk az rendben van hogy ezek nem milliószor ciklusban végrehajtott kódok, meg nem is férnek be a ROB-ba ( ICU-ba ). De akkor is... kíváncsi vagyok a K10 féle retirement keresztmetszet növekedésre.
#1227 #95904256 törölt tag P.H. #1226

Új Válasz 2007-07-27 18:33:41 #1227
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1226 üzenetére

Hm... ha a retirement-en bukott el egy kód sebessége a K8-on, akkor tényleg érdekes lesz a helyzet a K10-nél.

Egyébként a keresztmetszeti bővülésnél nem összeadással hanem szorszással jött ki a négyszeres elméleti érték. ( Ha nem változik semmi akkor is kétszeres gyorsulás jönne ki (1+1=2), egyszeres érték helyett (1*1=1). )

A memory access reordering pedig valóban egy olyan elem ami elősegíti a nagyobb teljesítmény elérését, azonban ezzel nem lehet úgy számolni hogy pusztán rátevődik a gyorsulásra. Egyes esetekben ez összejön, de valahol szükséges is ennek az eljárásnak a megléte hogy ne a memória címzés sorrendje fogja vissza a gyorsabb végrehajtást.

[Szerkesztve]
#1224 #95904256 törölt tag P.H. #1221

Új Válasz 2007-07-27 17:51:14 #1224
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1221 üzenetére

Igen, elméletileg lehetséges. Ezért írtam hogy talán kimutatható lesz a dolog.

Azonban itt vannak az általad is említett szűk keresztmetszetek. Ha minden ilyen ponton duplájára vagy háromszorosára növeljük a szélességet, akkor ez maximálisan épp két-háromszorosára növelheti a teljesítmény. Ezért csak úgy érhető el a három feletti érték ha az utasítások végrehajtási és lappangási idejeit is csökkentik illetve átlapolják. A K8-hoz képest a végrehajtási idők alig csökkentek. Ilyen téren jelentős változást csak a 128 bites SSE feldolgozás tud felmutatni.

Pl. ha azt veszem hogy a decode-sávszélesség a duplájára nőt és az SSE végrehajtás is kétszer gyorsabb, akkor elméletileg négyszeresére nő a teljesítmény. Azonban a decode-sávszélesség mint szűk keresztmetszet ritkán jelentkezett a K8 esetében, így nehéz lesz kiaknázni a dupla kapacitásban rejlő lehetőséget. Ebből következik hogy nehéz lesz megközelíteni az elméleti négyszeres teljesítményt, a decode-sávszélesség oldalról nézve a dolgot.

szerk.: Itt a decode-sávszélességet épp nem mint szűk keresztmetszeti problémaként hoztam fel, de talán érzékelteti hogy ha valamit duplázok az nem jelenti automatikusan a kétszeres növekményt.

[Szerkesztve]
#1200 Raymond titán P.H. #1197

Új Válasz 2007-07-26 20:31:56 #1200
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #1197 üzenetére

A ket adat (orajel es TDP) egyutt lehangolo. Nem arrol van szo hogy mennyit fogyaszt magaban vagy hogy mennyit fogyaszt az Intel-hez kepest hanem hogy mit lehet kiolvasni a lekozolt modellek parametereibol.

1) A launch modelleknel max 2Ghz-es jon ki az is kis mennyisegben.
2) A 2.5Ghz-s aminel az adatok szerint nem is lesz gyorsabb mostantol szamolva majd egy evig (Q2 2008) csak a fesz emelessel erheto el. Sot mar a 2.4Ghz-nek is kell a fesz emeles. Ezert az ugras a 2.3->2.4 TDP-je kozt
3) A kilatasok Q2 2008-ra sem tanuskodnak valami vilagrengeto gyartasi ujitastol. A 2.4-es lemegy a 95W kategoriaba, de a 2.6-os meg mindig a 120W marad. Egy komolyabb tweak-nel nem 100Mhz kene hogy legyen a gyorsulas.

Mar regebben kitargyaltuk itt hogy az altalanos alkalmazasokban az IPC javulas nem lesz szamottevo az SSE2 128bit fogja hozni a leglatvanyosabb gyorsulast. Meg ha a K8-hoz kepest javitanak is az altalanos sebessegen a piac ma mar mashol tart. Ezert szomoruak a szamok.
#1199 VaniliásRönk nagyúr P.H. #1198

Új Válasz 2007-07-26 19:36:43 #1199
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

VaniliásRönk

nagyúr

válasz P.H. #1198 üzenetére

A NetBurstnek tényleg kellett volna a 10GHz...
#1158 Raymond titán P.H. #1154

Új Válasz 2007-07-15 22:36:48 #1158
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz P.H. #1154 üzenetére

PD930 (3Ghz) WXP32bit:

Fast_SSE2__:___690 409 545 = 219 ms
Fast_SSE___:___934 399 785 = 312 ms
Fast_x87___:_1 247 955 570 = 406 ms
Slow_SSE2__:___591 240 315 = 187 ms
Slow_SSE___:_1 295 072 460 = 412 ms
Slow_x87___:_1 506 025 343 = 500 ms

Sajnos a K7-es gepemben bedoglott a trafo (leglabbis remelem hogy csak az)
#1157 dezz nagyúr P.H. #1154

Új Válasz 2007-07-15 18:24:38 #1157
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #1154 üzenetére

1. Nahh, a K10 nem menekülhet majd a teszjeink elől!
2. Hát ez jó, hogy a K8 x87-ben gyorsabb, mint SSE/SSE2-ben.

Nem egészen értem a következőket:
3. Ha x87, akkor miért ''MMX''?
4. Mi van, ha semmi sincs bejelölve?
5. Miért kell az elsőnek bejelölve lennie az SSE-khez?
6. Bug, hogy ki lehet kapcsolni úgy az MMX-et, hogy az SSE2 bejelölve marad?

7. Úgy látom, ezek a ''Fast'' és ''Slow'' elnevezések nem a legszerencsésebb. Tekintve, hogy ''Slow'' SSE2 nagyrészt ugyanaz, mint a ''Fast'' SSE2, csak ugye még ki is marad 1-2 dolog. (Miért ''Slow'', ha kevesebb eleve művelet?) A Fast és Slow SSE meg két eléggé különböző rutinok.

Szóval, ha nem haragszol, ezeket a jelöléseket és elnevezéseket lehetne intuitívebbre is venni. Persze ez a program nem egy tesztprogramnak készült, így nem ez volt az elsődleges szempont. Ha ha van kedved, átalakíthatnád esetleg egy kicsit a GUI-t. Pl. lehetne 6db radiobutton, melyek közül csak egyet lehet választani, majd benyomni a ''Run'' gombot, vagy ilyesmi. A radiobuttonok mellett meg ott lenne egy rövid felsorolás, hogy milyen utasításokat használ. Na, mit szólsz?
#1155 #95904256 törölt tag P.H. #1154

Új Válasz 2007-07-15 02:38:04 #1155
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz P.H. #1154 üzenetére

Egyelőre a mérési eredmények:

E4300 ( Core2Duo ) 9x255=2295 MHz, DDR RAM 204 MHz-en

slow MMX: 939.479.670 ; 406 ms
fast MMX: 890.069.670 ; 375 ms
slow SSE: 869.471.010 ; 375 ms
fast SSE2: 527.742.153 ; 218 ms
fast SSE: 508.244.211 ; 218 ms
slow SSE2: 404.421.048 ; 171 ms
#1152 dezz nagyúr P.H. #1145

Új Válasz 2007-07-12 23:55:46 #1152
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz P.H. #1145 üzenetére

+ (#1146) akosf

Nos, a #1143-as tekintetében igazam volt, mert 4 -> 3 az tényleg csak 20%-os csökkenés, és a 3 -> 2 az meg 33%-os. A 2 -> 1 meg 50%-os.

Abban viszont tényleg tévedtem, hogy csökkenés != gyorsulás.

Tehát, 4 -> 3, ez valóban 25%-os gyorsulást hoz.