Keresés: - AMD-s mélyvíz: Raphael, Rembrandt, Zen4

Legfrissebb anyagok

Mobilarena témák

PROHARDVER! témák

IT café témák

GAMEPOD témák

LOGOUT témák

Keresés

Téma összefoglaló

Utoljára frissítve: 2023-12-13 04:53

Mobilarena

OLVASD VÉGIG ALAPOSAN MIELŐTT ÚJ HOZZÁSZÓLÁST ÍRNÁL!!!

Új hozzászólás Aktív témák

#2002 Gorneck legenda #95904256 #2000

Új Válasz 2007-09-14 13:44:16 #2002
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Gorneck

legenda

válasz #95904256 #2000 üzenetére

Nálunk (cégnél) még biztos nincs...
#2001 ftc nagyúr #95904256 #2000

Új Válasz 2007-09-14 10:47:26 #2001
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ftc

nagyúr

válasz #95904256 #2000 üzenetére

Szervergyártók már felvásárolták az öszeset oktoberre talán elkezdik árusitani.
Én megvárom a hozzákészített chipseteket és új déli hidat SB700-t
#1980 Rive veterán #95904256 #1976

Új Válasz 2007-09-13 11:59:50 #1980
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Rive

veterán

válasz #95904256 #1976 üzenetére

Amennyire tudom, ez elég jó tipp az 1-2 proccos kaliberben. A saját vonatkozó tipp 30-40% volt.

A dolog erősen proccszám-függő, mondjuk 4 proccnál egy olyan 50-65%-os maximumot még elképzelhetőnek tartok.

[Szerkesztve]
#1978 dokar addikt #95904256 #1976

Új Válasz 2007-09-13 11:47:06 #1978
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dokar

addikt

válasz #95904256 #1976 üzenetére

Tipp: 30-35%

ennek a fele de ez is tipp
#1967 Michell tag #95904256 #1950

Új Válasz 2007-09-13 08:34:51 #1967
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Michell

tag

válasz #95904256 #1950 üzenetére

Üdv! Piaci siker és tuningpotenciál.

''Tuti hogy nem''
Én egy kicsit másként látom. Az ugyan igaz, hogy az emberek nagy része nem tuningol, viszont annak a rétegnek a véleményét aki ért, vagy érteni vél a számítógépekhez, jelentősen befolyásolja a tuningpotenciál - főleg az utóbbiakét.

Ha pedig XY megkérdezi a szomszédot, a szervizest, az akárkit, hogy milyen gépet vegyen, máris megvan a piaci hatás.

Nézd meg az általános véleményt a hasonló fórumokon. Az AMD fanokon kívül - és tisztelet a valóban tárgyilagos kivételeknek - a többség a Core2 a király szinten nyilatkozott már akkor amikor az éppen hogy csak megjelent, és a fő érv a tuningolhatóság volt. Hiszen alapórajeleken azért messze nem volt akkora az AMD X2-k lemaradása mint amekkora vacakként leírták rögtön.
#1943 ftc nagyúr #95904256 #1941

Új Válasz 2007-09-12 11:33:12 #1943
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ftc

nagyúr

válasz #95904256 #1941 üzenetére

L3 nélküli csak Phenomban lesz viszont az 2 magosnál....

Nekem a K10 úgy néz ki mint egy foltozott K9(nem AM2-re s X2-re gondolok) amit a fiók méllyére dobtak. K10 nek 1 éve a aicon kellene lennie csak ugye a mem vezérlőt ők nem DDR2 s DDR3-ra tervezték hanem FBD-re vagy XDR-e már nem tudom pontosan s ahoz újrakeleltt tervezni lényegében a magot is
Lehet hülyén fog hangozni amit írok, de
elkéne szakadni a K7,K8 vonalátül AMD-nek...valami újjat alkotni
Gondolok itt egy oylan speciális dolgokra, hogy

lenne egy központi elosztó(ala router) és lennének kisebb magok bizonyos műveletekre..igaz akkor az már nem x86-s architektúra lenne.Mert 4 mag natívan elég komoly kihívás és még nem beszéltünk a 8 magos CPU-ról ha majd valamelyik őrült arra vetemedig, hogy nativan.

Sztem kezd kimúlni az x86-s architektúra .Kellene egy kis inováció ebbe a piacba.Az nem megoldás, hogy duplázunk mindenből...
#1937 ftc nagyúr #95904256 #1933

Új Válasz 2007-09-12 09:57:16 #1937
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ftc

nagyúr

válasz #95904256 #1933 üzenetére

Megoldhatták volna ez tény. DE mi az egyszerübb elektronikai szempontból? Megtervezni egy belső átvitelt vagy egy osztott cache-t ? Sztem a 2. lehetőség sokkalta nehezebb a mag belsejében.
IMC egy kényes kérdés... ugye elméletileg benne van DDR3 támogatása is ha jól emlékszem.Kitudja mire gyúrtak rá illetve mennyit sikerült javítaniuk A64 X2-k IMC-hez képest.
Mondjuk én AMD helyében hagytam volna L3-t(ez majd kiderül mennyit is jelent majd jönnek L3 nélküli változatok is). Inkább azzal keleltt volna kezdeni valamit, hogy a CPU és a ram közötti átvitel méggyorsabb legyen.
#1934 VaniliásRönk nagyúr #95904256 #1933

Új Válasz 2007-09-12 07:34:31 #1934
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

VaniliásRönk

nagyúr

válasz #95904256 #1933 üzenetére

Meg kiveszik a magból az IMC-t és C2Q-nak cimkézik őket.
#1930 ftc nagyúr #95904256 #1929

Új Válasz 2007-09-11 23:24:47 #1930
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ftc

nagyúr

válasz #95904256 #1929 üzenetére

Mi késztette az AMD-t hogy beáldozzák a gyors memóriahozzáférést a gyors magközi kommunikációért?

Mivel ugye AMD nem az asztali frontra gyúrt rá...
Van egy 4 vagy több magra írt alaklmazásod. Legyen az egy szimulációs program. Mindegyik mag számol. Ha az egyik egy oylan részhez ér aminél már szüksége van a másik maghoz akkor sokkal célszerübb amgon belül egoldani az átvitelt mint időt veszteni ki/beirásal. Szervereknél virtualizációnál még elmegy. Asztali CPU-nál hááát kitudja.

Szétkelleen választani a szerver paicot az asztalitól AMD-nél
#1921 Raymond titán #95904256 #1916

Új Válasz 2007-09-11 15:37:54 #1921
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz #95904256 #1916 üzenetére

Ja, 20-23ns ami gyakrolatilag negalja a most letezo elonyt. Mostaniakban van 4MB/2mag nem osztott vagy 8MB/4mag fele-fele osztott. Ez 6 es 12 lesz a 45nm verziok eljovetelevel.
#1914 Raymond titán #95904256 #1913

Új Válasz 2007-09-11 14:42:01 #1914
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz #95904256 #1913 üzenetére

Pedig oda van egyelore, majd a Phenom talan valtoztat rajta kicsit (nem hinnem hogy sokat): [link]

L3 nelkuli valtozat talan jovo tavasszal jon.
#1908 Raymond titán #95904256 #1901

Új Válasz 2007-09-11 13:52:34 #1908
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz #95904256 #1901 üzenetére

Hat nekem ugy tunik az IMC-s elony nagyon el fog tunni par het mulva. Ha nezted a teszteket mit vegez az uj cache hierarchia a kesleltetessel akkor ott latszik annak az elonynek lottek. Masik hogy az uj Intel chipszetben dual 1600Mhz FSB lesz igy az is csak akkor lesz elony az AMD-nel ha az IMC-t feltornazzak normalis sebessegre a mostani 1600-1800Mhz-rol.

Ami marad az a HT kapcsolat a tobbutas rendszerekbe, de az is inkabb a 4S-nel fog elojonni.
#1904 Rive veterán #95904256 #1901

Új Válasz 2007-09-11 13:41:49 #1904
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Rive

veterán

válasz #95904256 #1901 üzenetére

Én az AMD processzorok Intel-lel szembeni legnagyobb előnyéről beszéltem.
Én viszont az efféle fokozást nem igazán érzem fontosnak. No mindegy.
#1886 Rive veterán #95904256 #1870

Új Válasz 2007-09-11 09:36:39 #1886
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Rive

veterán

válasz #95904256 #1870 üzenetére

Szerintem nem az IMC a legnagyobb előnye az AMD-nek az Intel-lel szemben, hanem a szuper gyors HT busz.
Mindkettő. Az IMC biztosítja az alacsony memóriakésleltetést (kevesebb munkával magasabb IPC). A HT biztosítja a jól skálázódó többprocesszoros interconnectet. Együtt pedig prociszámmal arányos szumma memóriasávszélességet adnak.
#1873 Dare2Live félisten #95904256 #1863

Új Válasz 2007-09-10 22:16:00 #1873
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Dare2Live

félisten

válasz #95904256 #1863 üzenetére

elég szemléletes?

szerk: inkább igy rios5még nemtökéletes
[link]

[Szerkesztve]
#1806 siriq őstag #95904256 #1805

Új Válasz 2007-09-05 13:41:35 #1806
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

siriq

őstag

válasz #95904256 #1805 üzenetére

Ajandekba kerhetek toled egy procit?
#1799 robyeger addikt #95904256 #1794

Új Válasz 2007-09-05 13:01:04 #1799
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz #95904256 #1794 üzenetére

-Azt hogy pl. egy SSE utasítás miként terheli a magokat (milyen mikroutasítások sorozataként hajtja végre a proci) nem tudod befolyásolni, hiába DOS alatt futatod az x86-os utasításaid.
-A magasabb órajel azért kell, hogy a különböző alapórajel és szorzó beállítások között markánsabb transzfer teljesítmény különbség képződjön. Látványos különbségek kellenének, hogy a ''vakok'' számára is tagadhatatlan legyen
#1790 robyeger addikt #95904256 #1789

Új Válasz 2007-09-05 11:53:34 #1790
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz #95904256 #1789 üzenetére

Hali! Őszintén szólva majdnem a lehető legrosszabb választás ez a proci a teszt szempontjából, először is 2magos és mi 1magra, tehát 1db L2 cache-re szeretnénk vizsgálódni, hiába az affinitás álíthatósága a win alkalmazásokra, sok összetett utasításnál a proci szuverén joga meghatározni a feladatok kiosztását, pl. ezért BIOS szinten se tiltható le a másik mag, másodsorban a 2Ghz elég kevés. A teszt szemponjából az a legjobb, ha minél magasabb az órajel, ezért AM2-nél az Orleans magos 2.4Ghz-es Athlon64 3800+ tünik jó választásnak.
De hangsúlyozom miattam nem kell 1magos procit venned
Mindenkinek: Egyenlőre úgy néz ki nem lesz időm a topic-okat olvasni, ezért ha valaki nyilvános hsz-t intéz hozzám, kérem, hogy a hsz link-jét privát üzenetben is küldje el részemre, előre is köszönöm!
#1763 Zé_Mester őstag #95904256 #1762

Új Válasz 2007-09-04 08:07:55 #1763
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zé_Mester

őstag

válasz #95904256 #1762 üzenetére

hali
bocsa hogy idefirkálok, csak egy röpke kérdés
próbáltam végigolvasni az összes hozzászólást, de nekem olyan némelyik mintha héberül lenne. ennyire nem értek a procikhoz, úgyhogy ebbe a részébe nem is akarok belerondítani.
kérsésem : eldöntöttem hogy eladom a nemrég megbett Core2Duo-s gépemet és összegyúrok egy ilyen K10-es rendszerre.
azt szeretném megtudni hogy ebből mikorra lehet egy gépet összerakni? az OK hogy szept.10-én debütál a Barcelona, de alaplap mikorra lesz hozzá?
kérdésem még hogy az első procik 4 magosak lesznek??? és árba kb mennyi lenne majd? (tudom hogy most még minden homályos, meg tényleg nincs semmi infó,de úgy kb mégis)
és ugye amik most fognak megjelenni procik azok ugye nem a szerver oldalra jelennek meg??? mert valahol olvastam ilyet , hogy először azok fognak

válaszodat előre is köszönöm
(ha esetleg más is tud ezzel kapcs. valamit, az is érdekel !!!

[Szerkesztve]
#1760 dezz nagyúr #95904256 #1757

Új Válasz 2007-09-03 23:16:35 #1760
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1757 üzenetére

''Na, ne bosszants...''
Ezt én is szeretném kérni tőled.

''A SIMD utasításoknak csak egy része lebegőpontos, amelyeket ugyanaz az FPU hajt végre mint amelyik az x87 utasításokat. A másik része meg nem lebegőpontos és ezeket nem az FPU hajtja végre. Pl. ez utóbbiak közé tartozik az SSSE3 és az SSE4 utasítások.''
Úgy tűnik, te Intelben gondolkodsz, én meg AMD-ben... AMD-nél ezeket is az FPU (= a közösen ''FPU''-nak címkézet részek) csinálja. Nos én meg ezeket ajánlom a figyelmedbe: [link], [link]
Amúgy, oké, az SSSE3 full integer, azonban az SSE4-ben van pár utasítás, ami alapvetően FP-s kódban is felhasználható.

''Ezt a hozzászólást olvastad? : [link]''
Ez a kérdés ''nem volt szép'' - hát persze, hogy olvastam. Miért nem inkább azt írod, hogy pl. ''nyilván valamilyen oknál fogva túlnyomórészt azokat a dolgokat használta a teszt, amit a K10 csinál jobban, és tartózkodott azoktól, amit a Core uarch.''? Bár ez nem valószínű, mivel nyilván valami ipari tesztet futtattak, másra magasról tenne mindenki.

''ps: A megszólítottat azért írom oda és emelem ki vastagon mert olvashatóbbá teszi a szöveget. Az általad használt megoldás nehezebben átlátható, legalábbis nekem biztosan. Feltételezem másnak is.''
Akkor szerinted miért ez a bevett gyakorlat itt a PH-n?

[Szerkesztve]
#1759 slett27 addikt #95904256 #1758

Új Válasz 2007-09-03 23:02:53 #1759
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

slett27

addikt

válasz #95904256 #1758 üzenetére

akosf, aki HASZNÁLJA is a gépet.

dezz: .

[Szerkesztve]
#1750 dezz nagyúr #95904256 #1749

Új Válasz 2007-09-03 22:10:08 #1750
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1749 üzenetére

''Kellett volna?''
Hát már hogy ne kellett volna, ha - természetesen - minden lényegeset fel akarsz sorolni...?

''Egyébként nem hiszem hogy ezektől kapna szárnyra a Penryn FPU-ja.''
Hát már hogy ne, ha egyszer így bizonyos műveletek gyorsabban elvégezhetők?

''Ugyanis az FPU-ról volt szó...''
Igen, és? Most beszéltük meg, hogy a SIMD is az FPU-hoz tartozik.

''Ennek már elég nehéz meghatározni az FPU-ra gyakorolt teljesítményét.
Szerinted mennyire jelentős? Egyébként nem említettem a beépített memóriavezérlőt sem.''
Éppen most írtam le, hogy nem tudom, ez mennyit számít, de az AMD az FPU-val kapcsolatban emlegette, és hogy ezért írtam ide.

''Igen, arra. Ennél egyértelműbb kapcsolatot nem is lehetne találni.''
Oké, csak nem voltam benne biztos, ezért megkérdeztem.

''Vagy te miben mérenéd az utasítások végrehajtási sebességét?''
Az egyes utasítások végrehajtási idejét nyilván ebben. Mondjuk nem csak ez számít.

''Aki akarja futtassa csak ezt a tesztet és gyönyörködjön benne hogy 50%-kal gyorsabb a K10. Szerintem még mindig feladat függő hogy mikor melyik CPU szerepel jobban. Vagy úgy gondolod hogy ezt az 50%-ot minden másban is hozni fogja?''
Szerinted ha így gondolnám, miért emeltem ki minden esetben, hogy ebben a tesztben?
Akkor a kérdés kicsit szájbarágósabban: hogy lehetne akár 1 (spec-féleség, de nem túl spéci ) tesztben 50%-kal gyorsabb FP műveletekben a K10, ha valójában lassabb FP műveletekben?

ps. a megszólított (boldos) kiemelése csak akkor szükséges, ha másnak is válaszolsz egy hsz-en belül. Az OFF tag használatát meg érdemes lenne meghagyni az OFF dolgoknak...

[Szerkesztve]
#1748 dezz nagyúr #95904256 #1747

Új Válasz 2007-09-03 21:25:05 #1748
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1747 üzenetére

Hmm, akkor miért nem említetted a Penrynnél az SSE4-et? Illetve a már Core2-nél is meglévő SSSE3-at (pl. shuffle-k).

Vagy K10-nél a 256 bites elérésű L1i-t (bár nem tudom, ez mennyit számít - de gondolom, nem véletlenül csinálták, és emlegetik elsősorban az FPU-val kapcsolatban).

''A legtöbb SIMD utasítás lassabb K10-en mint Core2-ön.''
Ezt mire alapozod? Az utasítások latency értékeinek összehasonlítására?
Mindenesetre, nem tudom, ez hogy lehetne, ha egyszer a Core2 jóval kevesebb, mint 2x olyan gyors, mint a K8, miközben a K10 kb. 2x gyosabb lesz SIMD-ben, mint a K8. Meg ugye itt van ez a bizonyos teszt, amiben 50%-kal gyorsabb azonos órajelen a K10, mint a Core2 - ez mitől lehet akkor? (A natív 4-magosság és a L3 önmagában nem igazán lenne elég ahhoz, hogy a lassabból másfélszer gyorsabbat csináljon [kivéve, ha befér az egész kód+adatok a cache-ekbe, de a specFP-kre, és társaikra ez nem jellemző].)

[Szerkesztve]
#1741 Thrawn félisten #95904256 #1739

Új Válasz 2007-09-03 20:53:50 #1741
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Thrawn

félisten

válasz #95904256 #1739 üzenetére

A videó szerint az a kis előny kb 25%: [link]
Persze mindezt kisebb fogyasztás mellett.
#1740 dezz nagyúr #95904256 #1733

Új Válasz 2007-09-03 20:48:28 #1740
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1733 üzenetére

Ez kifelejtettem. Már most ki lehet próbálni, mennyit számít a HT: nyomjatok egy tesztet úgy, hogy visszaveszitek a HT szorzóját. 800MHz vs. 1000 MHz még kb. semmit sem számít.

#1739: Gondolom, itt az x87 kódra gonolsz (régi v. új regiszterekkel), mert a SIMD kód végrehajtása is az FPU dolga.

Nos, szerintem 1-szálas x87-ben kb. egálban lesznek, vagy akár a Core még gyorsabb is lesz ebben (az állítólagos SuperPI és Cinebench eredményeket nézve). Többszálas esetben viszont a natív design és a közös L3 sokat dobhat a dolgokon K10-nél.

SIMD-ben jóval gyorsabb lesz a K10, mint a Core2, viszont nagy kérdés, hogy alakul a K10 vs. Penryn eset. Ugyan SSE3-ig itt is gyorsabb lesz a K10, azoban SSE4 használatánál már esetenként szépen elhúzhat a Penryn.

[Szerkesztve]
#1721 dezz nagyúr #95904256 #1720

Új Válasz 2007-09-02 13:19:50 #1721
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1720 üzenetére

Tegyük hozzá, a kitevő ''biased'', és a mantissza helyett itt ''significand'' van (vagy legalábbis itt annak hívják).

1.5 16-Bit Floating-Point Data Type
SSE5 introduces a new 16-bit floating-point data type and two instructions (CVTPS2PH and CVTPH2PS) to convert 16-bit floating-point values to and from single-precision format.
The 16-bit floating-point data type, shown in Figure 1-4 on page 8, includes a 1-bit sign, a 5-bit exponent with a bias of 15 and a 10-bit significand. The integer bit is implied, making a total of 11 bits in the significand. The value of the integer bit can be inferred from the number encoding. Table 1-10 on page 8 shows the floating-point encodings of supported numbers and non-numbers.
#1717 proof88 addikt #95904256 #1716

Új Válasz 2007-09-02 12:29:58 #1717
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

proof88

addikt

válasz #95904256 #1716 üzenetére

Üdv Mindenkinek!

Újonc vagyok itt a PH!-n, de már régóta olvasgatom a fórum topicokat.
Tudnál bővebben beszélni erről a 16 bites float-pont formátumról?
#1714 dezz nagyúr #95904256 #1712

Új Válasz 2007-09-02 10:59:20 #1714
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1712 üzenetére

Na ebben igazad van, jobban megnézve (amit időközben én is megtettem ) tényleg ott van az a ''2nd unit'' is. Akkor tehát arról van szó, hogy a sárga keretből ezt véletlenül kihagyták.

#1713: Lehetséges. Bár fura, hogy nem egy-egy nagy, 128 bites egység van, hanem 2x 2db 64 bites...

Csak azt nem tudom, hogy valósítják így meg a shuffle-ket. Bár arra a Core2-ben is külön egységek vannak, de itt ilyenek nincsenek...

[Szerkesztve]
#1709 dezz nagyúr #95904256 #1708

Új Válasz 2007-09-02 10:33:32 #1709
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1708 üzenetére

Nem nem! Hasonlítsd csak össze a mellette lévő ''Rev. F Dual Core'' magjával... Ott van az az FPU (vagy a fele).

Itt is láthatod, hogy benne van az FPU: [link] (90 fokkal elforgatva)
És lám, itt is csak a fele van, vagy a ''1st''.

[Szerkesztve]
#1707 dezz nagyúr #95904256 #1705

Új Válasz 2007-09-02 10:26:07 #1707
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1705 üzenetére

Neeem! Nézd meg te is figyelmesebben! Szerk: Akár a sárga keretes magnál is ott lehetne ez a felirat, mivel ott is ott van, a kereten kívül.

#1706: Tudtommal azonos órajelen számottevően gyorsabb a Core2 x87-ben is, lásd pl. SuperPI eredmények, és más x87 alapú programok.

[Szerkesztve]
#1703 dezz nagyúr #95904256 #1702

Új Válasz 2007-09-02 09:39:15 #1703
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1702 üzenetére

Mitől ennyivel gyorsabb a Core2 x87-ben? Annak is csak 1 FMUL/FDIV és 1 FADD egysége van. Azok hatékonysága ennyivel jobb?

Viszont, van itt az FPU-val kapcsolatban valami érdekesség a K10-ben: nem csak az eredeti FPU lett némileg nagyobb (a 128 bitesre bővítés miatt), hanem minden maghoz tartozik egy 2. FPU blokk is! (Nincs kéznél a die fotó linkje, de gondolom, megvan a kép neked is, vagy valamelyik korábbi hsz-ben megtalálható.) Nem lehet, hogy az valami ''titkos fegyver'', amit csak újrafordítás által lehet kihasználni?

[Szerkesztve]
#1639 dezz nagyúr #95904256 #1637

Új Válasz 2007-08-30 16:25:37 #1639
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1637 üzenetére

Hát bizony...

Bár felmerült, hogy esetleg az játszhatott közbe, hogy az új lap PCIe2.0-ás, és a 2900XT már támogathatja ezt. De szinte kizárt, hogy ez ennyire számítson.
#1638 Gorneck legenda #95904256 #1637

Új Válasz 2007-08-30 16:21:04 #1638
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Gorneck

legenda

válasz #95904256 #1637 üzenetére

Egy bizonyos szint után nem...7900GS anno nálam 6300-mal 2.8 és 3.2 mellett is uazt az eredményt dobta kis eltéréssel...ami hol + hol - volt a nagyobb órajel ellenére...
#1630 Zoli329 addikt #95904256 #1627

Új Válasz 2007-08-30 15:54:22 #1630
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli329

addikt

válasz #95904256 #1627 üzenetére

Én csak arra akartam rámutatni, hogy az Intel ezen kódot is gyorsabban tudja futtatni. És nyilván nemcsak SuperPi-nél van így. Én tudom, hogy régi program meg stb nade akkoris. Ha ebben nem lett gyorsabb valószínű sokminden másban sem. Persze még nem hivatalos szóval bármi lehet..
#1625 Zoli329 addikt #95904256 #1624

Új Válasz 2007-08-30 15:01:35 #1625
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zoli329

addikt

válasz #95904256 #1624 üzenetére

Akármilyet használ összességében minden tekintetben kellene gyorsítani
#1618 keIdor titán #95904256 #1615

Új Válasz 2007-08-30 14:21:53 #1618
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

keIdor

titán

válasz #95904256 #1615 üzenetére

Én is így tudom...

[Szerkesztve]
#1595 robyeger addikt #95904256 #1566

Új Válasz 2007-08-30 10:18:43 #1595
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz #95904256 #1566 üzenetére

Hali! Igen jól érted milyen tesztekre gondolok. Az alapórajel növelésével az adatelőkészítés(adatbeáramlás) növekszik, magyarán a memóriából gyorsabban érhetők el az adatok, ergo ha nem növeljük a magórajelet a műveletetvégző teljesítménye nem fog növekedni.
Az SRQ(SRI)-t én úgy képzelem el(úgy következtetek), hogy külön buszokkal kapcsolódik az L1 cache-hez és az L2 cache-hez és egyik magórajelen másik alapórajelen működik. Az SRQ egy folyamatvezérlő, kapocs az XBAR(HTT és IMC) és a gyorsítótárak között, ezek különböző órajeleit szorozgatja igazítja egymáshoz. Azt se tudom pl., hogy programozás technikailag leválásztható-e az L2, tehát lehet-e közvetlen L1 és memória közötti kapcsolatot létesíteni az L2 kihagyásával vagy ez x86 utasítás szinten lehetetlen? Hátha te tudod, én 32biten felhagytam az assembly-vel. Nekem jóval több kérdésem van, mint válaszom, de azt látom hogy nem állnak össze a részletek, hiányosak az ismereteink

[Szerkesztve]
#1576 Raymond titán #95904256 #1575

Új Válasz 2007-08-29 23:43:51 #1576
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz #95904256 #1575 üzenetére

[link]

X6800 vs. QX6800 = 2568 vs. 4039

Az egyel feljebb linkelt progival kiszamolhatod mekkora ertek kene CPU score-nak hogy meglegyen a 30K-s eredmeny a mostani csucstarto tulhajtott 2900XT Crossfire kartyakkal:

14316

Nagyon valoszinutlen hogy majdnem 2x gyorsabb lenne egy leghutott Barcelona mint a lefagyasztott 5.1-es C2Q. Raadasul a demo rendszer kartyai alig vannak tulhajtva.

[Szerkesztve]
#1546 robyeger addikt #95904256 #1535

Új Válasz 2007-08-29 14:11:40 #1546
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz #95904256 #1535 üzenetére

Ha az én tesztemre gondolsz ahhoz a 2magos procik nem ideálisak, mert nem tudod letiltani az egyik magot, és nem fogod tudni szétválasztani a programok alatt mennyi terhelés éri az egyik és a másik L2 cache-t. Összeadódva pedig egyértelmű, hogy erősebbek. 2magos procit még a szűz win is kihasználhatja valamilyen mértékben, hiába futtatnál rajta pl. WinRAR-t multithreading tiltással. Én miattam ne vegyél 1magos procit, mert nem éri meg
#1537 dezz nagyúr #95904256 #1535

Új Válasz 2007-08-29 12:34:34 #1537
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1535 üzenetére

Itt láthatod a választékot: [link]
Ki kellene okoskodni, egy ilyen teszthez melyik lenne a legideálisabb X2-ből.
Ha úgyanúgy egy 2GHz-es, egy 3800+-os kell neked, Manchester, Toledo, vagy Windsor. Az elsőt már nem ajánlom. Húzás szempontból a Windsor-ok a legjobbak (ezen belül is minnél nagyobb, annál jobb). Ha még egyátalán kapható 3800+-os, mert 90nm-esekből már csak min. 4200+-ost szállít a cég.
A 65nm-es Brisbane-ek kevésbé húzhatók, de persze kevesebbet is fogyasztanak. 2GHz-es nincs belőlük.
(AM2-n az 1066-os DDR2 ramok hivatalos támogatása lenne a s.939 + DDR500-nak megfelelő dolog, de ilyen itt nincs, majd a K10 fogja azokat hivatalosan támogatni.)

[Szerkesztve]
#1536 Thrawn félisten #95904256 #1535

Új Válasz 2007-08-29 12:20:00 #1536
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Thrawn

félisten

válasz #95904256 #1535 üzenetére

Itt olvashatsz a DR500 támogatásról: [link]
#1529 robyeger addikt #95904256 #1516

Új Válasz 2007-08-29 08:21:26 #1529
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

robyeger

addikt

válasz #95904256 #1516 üzenetére

két legszembetünőbb példa:
-kell egy 1magos AM2 proci lehetőleg 2Ghz felett, mert 2Ghz-nél képes 1mag közel a dual 400Mhz-es ram kihasználására, akár hogy növelnék az alapórajelét. pl:
AM2 3800+ (Orleans) és dual 800Mhz-es ram, össze lehet hasonlítani a 200x12 és a(240x10 vagy 266x9 vagy 300x8) a HTT és a memória sebességét megpróbálni minél közelebb a gyári értéken tartani. / Lehet single és dual 800-as ram felállással is tesztelni és viszgálni a kettő közötti teljesítménykülönbséget.
-a legjobb példa a DDR500-as támogatású Venice magok: tehát 3200+ venice-nél 200x10 a proci és 500Mhz-en a memória 5x200 a HTT összehasonlítva 250x8 a procinak szintén 500Mhz a ramnak és 4x250 a HTT-nek. Azért ideális, mert itt minden Mhz-re pontosan azonos HTT és a ram freki is, kivéve a alapórajel és a szorzó, vagy másik a 3800+ venice 208x12, memória 500< felett, HTT 208x5 összehasonlítva 250x10 a procinak memória 500Mhz-en a HTT 4x250-n. Hiába gyorsabb a ram és a HTT valamivel, akkor is a magasabb CPU alapórajelű fog győzni teljesítményben.
Persze ez X2-re is vonatkozik csak ott 1magra kell vetíteni, tehát ha egy programod ki tudja használni mindkét magot, akkor a dual 800-as vagy DDR1-nél a 500Mhz-es ramokat is ki tudja használni.
Nem nehéz észrevenni hogy azonos magórajeleken is teljesítmény növelő hatása lehet az alapórajel növelésének, ebből pedig az következik, hogy a prociban van ami alapórajelen megy van ami magórajelen közte pedig a szorzó. Egyesek viszont azt állítják minden magórajelen megy a prociban és lényegtelen az alapórajel értéke csak a magórajel a meghatározó.

[Szerkesztve]
#1528 dokar addikt #95904256 #1527

Új Válasz 2007-08-29 07:45:34 #1528
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dokar

addikt

válasz #95904256 #1527 üzenetére

így van. látom mindenki csak végigfutotta a cikket. az első esetben a proci és a vidkarik alapon, míg második tesztnél pedig mindhármat megtuningolták.

''When clocked at 3.0 GHz and equipped with two overclocked HD2900XT cards in CrossFire...''

[Szerkesztve]
#1525 slett27 addikt #95904256 #1523

Új Válasz 2007-08-29 00:28:35 #1525
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

slett27

addikt

válasz #95904256 #1523 üzenetére

Éppen mostanában teszteltem (mindig csinálok screenshot-ot).

1. konfig : E2160 + 8800GTS 320MB + 2x1GB DDR2 800MHz 3DMark06 : 7422 pötty

2. konfig : A64 5200+ 8800GTS 320 + 2x1GB DDR2 800MHz 3DMark06 : 8680 pötty

Ugye csak a proci változott, igaz nem nagy változás pontosan 17% a végeredményben.
(E2160 1583 CPU pont, A64 X2 5200+ 2024 CPU pont itt részeredmény szinten 28%)

A cikknél 2,5GHz -> 3.0GHz 20% túlhajtás. 23000 pötty >>> 30000 pötty ez 30% !!!.

Vmit kihagytak a cikkből.
Vagy nem ''ismeri'' még a 3DMark06 a 4 magos AMD-t.
#1524 slett27 addikt #95904256 #1523

Új Válasz 2007-08-29 00:06:14 #1524
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

slett27

addikt

válasz #95904256 #1523 üzenetére

VGA tuning nem volt ?
#1521 7600GT senior tag #95904256 #1519

Új Válasz 2007-08-28 23:08:40 #1521
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

7600GT

senior tag

válasz #95904256 #1519 üzenetére

Akkor hinnék ennek a tesztnek ha alá lenne támasztva képekkel.
Lehet, hogy egy unatkozó iskolás írta ezeket.
#1520 Thrawn félisten #95904256 #1519

Új Válasz 2007-08-28 23:05:31 #1520
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Thrawn

félisten

válasz #95904256 #1519 üzenetére

Valószínűleg a RAM-ok is gyorsultak valamelyest.
#1498 Rive veterán #95904256 #1491

Új Válasz 2007-08-27 10:24:18 #1498
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Rive

veterán

válasz #95904256 #1491 üzenetére

Nem. A szinkron önmagában sem frekvenciát, sem fázist nem jelent.
A szinkronizálás egy művelet, a szinkron pedig ennek a folytonosságát jelenti.
Akkor ez a threadet olvasd el még egyszer.
#1488 Rive veterán #95904256 #1482

Új Válasz 2007-08-26 03:39:24 #1488
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Rive

veterán

válasz #95904256 #1482 üzenetére

A HT órajelének csak van valami funkciója, nem?
Ja! Ja. A funkció ebben az esetben az - ha nem tévedek nagyot - hogy a procc ebből szorozza fel a magórajelet, majd a magórajelből osztja le a memóriaórajelet. De bevallom, ennek utána kéne néznem kissé.
#1487 Rive veterán #95904256 #1482

Új Válasz 2007-08-26 03:33:03 #1487
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Rive

veterán

válasz #95904256 #1482 üzenetére

pl. a karórákban lévő kvarckristály pusztán időalapot szolgáltat, mégis kvázi-szinkronban van a többi karórával
Bocs, ez hülyeség. A szinkron az adott szakterületen nem csak (nagyjából) azonos frekvenciát, hanem kifejezetten azonos frekvenciát és fix fázist (!) jelent.

Gondolom, azért van órajelre szüksége mert különféle áramköröket kell szinkronozni vele.
Lásd forrás-szinkron, aka SST, Source-Synchronous Transfer. Máshogy ma már nem is nagyon működik.
#1484 dezz nagyúr #95904256 #1482

Új Válasz 2007-08-26 00:40:51 #1484
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1482 üzenetére

Pl. a következő okokból kell órajel a HT-nek is (még ha ez szinkronban is van az alapórajellel): 1. ez magasabb frekiként ''sűrűbb'', mint az alapórajel, így az ehhez kötött műveletek gyorsabban követhetik egymást, nem kell bevárni az alapórajel éleit. (Pl. az Intel FSB-je - miközben QDR-es - az alapórajelhez igazodik, tehát pl. a csomagok kezdete vagy az adatirányváltások.) 2. Ilyen frekiknél (főleg, hogy DDR az adatátvitel) nem is lenne teljesen biztonságos, ha minden végponton egy-egy PLL-lel külön-külön állítanának elő az alapórajelből ilyen magas órajelet, és így fogadnák a ''biteket''. (Bár Intelnél végülis ez történik, de ott csak két, viszonylag közeli végpont van [miközben a HT mindenféle egzotikus elrendezést megenged], és a végső data rate is kb. fele akkora.)

Azt is tudni kell, hogy a HT (full duplex) 16 bites (asszem bizonyos esetekben lehet 4x8 is, de most mindegy), viszont DDR-es, így 64 bit átvitele (egy irányba) 2 ütem.

Szerintem a HT portokon kívül semmi sem osztozik a HT busz órajelében. (Mivel akkor eléggé vissza lehetne venni a proci teljesítményét a HT szorzó alacsonyra állításával.)

''Pedig a RAM is az alapórajelről megy, nem?''
(A mag-szorzó közbeiktatásával.) És?

[Szerkesztve]
#1483 P.H. senior tag #95904256 #1482

Új Válasz 2007-08-25 21:16:53 #1483
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz #95904256 #1482 üzenetére

Ezen a területen sokkal jártasabb vagy nálam, szerintem ezáltal [link] (BIOS and Kernel Developer's Guide for AMD Athlon 64 and AMD Opteron Processors) lehet legjobban rálátni.

Ebből is a következő rövid szakaszok érdekesek:
3.3.13 LDTi Frequency/Revision Registers
12.4 HyperTransport™ Link Frequency Selection

Az első alatt felsorolt bitértékek nem tűnnek sem osztónak, sem szorzónak (bár attól még lehetnek):

''Processors with multiple HyperTransport™ links are capable of operating the links at different frequencies. There are three supported link frequency groups:
800 MHz, 400 MHz, 200 MHz
1000 MHz
600 MHz
Processors can be configured with link frequencies from up to two link frequency groups.
0000b = 200 MHz
0001b = reserved
0010b = 400 MHz
0011b = reserved
0100b = 600 MHz
0101b = 800 MHz
0110b = 1000 MHz
0111b = reserved
1000–1110b = reserved
1111b = 100 MHz''

És a 3.3.13. záró megjegyzése sejtetni engedi, hogy az összekötött eszközöknek lehet saját órajelgenerátoruk.

[Szerkesztve]
#1480 EQMontoya veterán #95904256 #1479

Új Válasz 2007-08-25 19:09:28 #1480
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

EQMontoya

veterán

válasz #95904256 #1479 üzenetére

hoghyogy szinkronban? proci órajel függvényében változik (proci órajel*ht szorzó) nyilván cpu húzásánál növeled az órajelet, ezért érdemes a ht szorzót csökkenteni, hogy ne válljon a rendszer ettől instabillá, lényegében ennyi.
#1462 P.H. senior tag #95904256 #1461

Új Válasz 2007-08-24 19:24:48 #1462
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz #95904256 #1461 üzenetére

Azt kell ilyenkor nagyon mérlegelni, hogy egy-egy, a közös adatterülethez való hozzáférésre mennyi, azt nem érintő önálló számítási művelet jut, mert ha sok, akkor hatékony lesz az az eset is, amit írsz (pl. ismert előre, hogy egy-egy tartományra jutó számítási feladat hossza órajelekben vagy percekben/órákban mérhető).

''Honnan tudja egyik-másik CPU hogy a másik CPU mely memóriacímeket birtokolja?''

Ez a cikk [link], amit korábban linkeltem, egy elég jó kezdeti betekintést ad ebbe a világba. (Amit a link mellett írtam, ''Az alján látható, hogy többek között az Intel által használt MESI cache-protocol és az AMD által használt MOESI eltér skálázhatóságban, utóbbi mellett több magot lehet összerakni, mint előbbinél, ezért használja ezt az AMD.'' esetében ''magot'' helyett talán inkább ''CPU-t'' kellett volna írnom, bár ez sem igaz, a node kifejezés az igazi, mert Kentsfield esetén a 2x2 mag 2 node, a négymagos K10 pedig 1 node. A two vs three hop jelentéstartalma és -eltérése, és sok egyéb dolog pedig pl. innen [link] kiolvasható konkrét teljesítményadatok találhatók benne, de nem a riválisokkal összehasonlítva, hanem arra vonatkozólag, hogyan viselkedik egy többmagos-többprocesszoros Opteron-rendszer különböző körülmények között).

De amit felvetettél, jogos (pl. a cikkből, a legegyszerűbb megközelítésben):
''When a processor reads or writes a cache line, it must broadcast a snoop request to all other processors in the system to ensure that it gets the most recent valid cache line. When a processor wishes to write to a cache line, it must first broadcast an invalidate snoop, which tells other processors to evict that cache line. In both cases, the processor must wait to receive responses from all other processors before proceeding.''

[Szerkesztve]
#1460 P.H. senior tag #95904256 #1458

Új Válasz 2007-08-24 17:04:04 #1460
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz #95904256 #1458 üzenetére

Mi történik? Felhasználói program esetén jól a programozó körmére néznek, hogy miért csinált ilyen jellegű kódot (hacsak nem kifejezetten HyperThreading-szerű felépítésre és osztott L1 D-cache-re írta a programot), már csak a felesleges adatvándorlások miatt is. Vagy hogy legalább miért nincsenek a közös adatot módosító részek levédve legalább pl. OS-szintű critical section-ben.

Kernel-szinten elkerülhetetlenek az ilyen események (pl. pont a critical section-okat kezelő mutex-ek, vagy egyéb semaphorok, event-ek esetében), akkor a hardware megoldja, ahogy tudja.

Pl. AMD esetében:
''Deadlocks can occur when multiple processors fight for the ownership of the same cache-line. They do so for instance if they both want to write to the same line. A cache-line is generally loaded as soon as possible in case of a cache-miss. This will cause the cache-line to be invalidated in other caches in case of a store. Two processors get in a deadlock if they keep invalidating each others cache-lines before they are able to finish the stores.

An example given is the case where two processor try to complete a store which is to an unaligned address so that part of the store data goes to cache line A1 and part of the store data goes to cache line A2. Unaligned stores of this type are typically split into two stores by the hardware. An exponential back-off mechanism is provided to handle this kind of deadlock situations. A back-off time is introduced when the memory access remains unsuccessful before retrying to become owner of the cache-line again. This time grows exponentially after each unsuccessful try until one of the processors finally succeeds.''

[Szerkesztve]
#1459 Rive veterán #95904256 #1458

Új Válasz 2007-08-24 16:12:22 #1459
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Rive

veterán

válasz #95904256 #1458 üzenetére

A cache-koherencia egy veszettül húzós témakör, és eléggé durván be tudja határolni a MP rendszerek teljesítményét. A szakirodalma is elég nagy. Ha a neten rákeresel, hogy 'cache coherency', akkor sokmindent találhatsz, én már jóideje nem foglalkozom szorosan a témával.

A megoldások természetesen olyanok, hogy elviekben képesek lekezelni az 'egyszerre' érkező kéréseket. A gyakorlatban ez nagyon sok idő, úgyhogy a programozók (kernel-bűvészek) egyik fontos feladata, hogy minél kevesebb osztottan használt memóriaterület legyen.
#1432 dezz nagyúr #95904256 #1431

Új Válasz 2007-08-22 11:39:21 #1432
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1431 üzenetére

Szerintem lesz itt-ott cikk az újdonságokról, amikor megjelenik, azaz szept. 10-én.
#1429 dezz nagyúr #95904256 #1425

Új Válasz 2007-08-22 03:19:06 #1429
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1425 üzenetére

Miféle újabb per? Hiszen az már legalább egy éve megy... (Ennek egyik monentuma volt nemrég, hogy az Intel ''véletlenül'' a backupokból is törölt bizonyos ide vonatkozó, bizonyítékként bekérni akart emaileket.) Itt Európában maga az EU indított pert az Intel ellen. A japán esetről is említést tesz, aholis a japán kornány fogta perbe az Intelt, mely per az Intel elmarasztalásával végződött, és alá kellett írniuk egy megállapodást, miszerint távol tartják magukat a versenyellenes magatartástól - azonban Ruiz szerint nem hagytak fel velük teljesen ott sem.

Egyébként azt állítja, már megoldották a problémákat. Ennek eredménye állítólag a B2-es revizió, ami már elkészült, azonban csak most kezdik gyártani, és hónapok múlva lesz belőle termék. Addig is marad a B0 revizió, ami működik, de csak alacsonyabb órajelen a kívánatosnál. (A B1 állítólag már magasabb órajelet bírt, de nem működött tökéletesen, így ''kuka''.)

Gyuri27: Hát... Ott van 11 oldal, minden oldalon egy v. több újdonság, melyek mindegyike igényelne 1-2-3 sort, még rövid leíráshoz is.
#1428 Gyuri27 félisten #95904256 #1427

Új Válasz 2007-08-21 18:48:17 #1428
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Gyuri27

félisten

válasz #95904256 #1427 üzenetére

arról beszéltem amit ftc limkelt az xbit-ről
konkrétan Phenom X2 (codenamed Kuma) – 2 cores, 2MB L3 cache, clock frequencies starting at 2.2-2.6GHz, AM2+ Socket; mert ez az l3 jónak tűnik
#1426 Gyuri27 félisten #95904256 #1425

Új Válasz 2007-08-21 16:25:16 #1426
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Gyuri27

félisten

válasz #95904256 #1425 üzenetére

Köszönöm.
Eggyel előtte a k10-ről valami érdekes és fenomenális?
#1424 Gyuri27 félisten #95904256 #1422

Új Válasz 2007-08-21 14:56:07 #1424
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Gyuri27

félisten

válasz #95904256 #1422 üzenetére

Nagyvonalakban magyarul, pár sorban össze lehetne foglalni?
#1414 dezz nagyúr #95904256 #1413

Új Válasz 2007-08-17 14:30:57 #1414
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1413 üzenetére

Aham, szerintem sem.

Btw, azt néztétek, hogy miközben a korábbi vonalszélesség-csökkentésekkor 50%-kal ment(ek) össze a mag(ok) és a L2 is, és K10-nél is a L2, a magok itt csak nagyjából 25%-kal? Azaz, alaposan ki lettek azért bővítve.
#1411 dezz nagyúr #95904256 #1408

Új Válasz 2007-08-17 14:07:07 #1411
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1408 üzenetére

Nekem az a furcsa, hogy túl sok helyet foglal ott az a L3.
#1410 FireGL aktív tag #95904256 #1404

Új Válasz 2007-08-17 10:28:38 #1410
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

FireGL

aktív tag

válasz #95904256 #1404 üzenetére

''Az Z-RAM technológia első licencelője az AMD volt, még 2006 elején, de konkrét elképzelésekről azóta sem hallani a vállalat felől. Legkorábban az évtized vége felé jelenhetnek meg a SRAM-ot legalább részben (például a harmadszintű gyorsítótárnál) felváltó Z-RAM gyorsítótárral tervezett processzorok. A cache sűrűségének növelésére az IBM saját eDRAM (beágyazott DRAM) technológiát fejleszt, mely lehetővé tenné a logikával egy szilíciumlapkára integrálást, és hatalmas, a SRAM-hoz képest háromszor nagyobb tárak integrálását -- a vállalat 24-48 megabájtról beszélt 45 nanométeres csíkszélességű eljáráson.''
[link]

Majd kiderül, hogy ténylegesen van benne Z-RAM vagy sem.

Tripla gyorsítótár, dupla teljesítmény - jön az IBM processzorba ágyazott DRAM-ja [link]

''A vállalat az új eDRAM kereskedelmi alkalmazását a 45 nanométeres csíkszélességű gyártástechnológiára tervezi. Az IBM termékei mellett a közös félvezetőgyártási eljárás következtében az AMD, a Sony és a Toshiba processzoraiban is megjelenhet eDRAM.''

[Szerkesztve]
#1409 ftc nagyúr #95904256 #1404

Új Válasz 2007-08-17 10:28:26 #1409
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ftc

nagyúr

válasz #95904256 #1404 üzenetére

jó lenne látni egy 65nm-s X2-t is .Mert gyártása olcsobb mint SRAM. Akkor raknák L1,L2,L3 is

Ezt csak annak a fényében kérdeztem, hogy Hynix is megvette a technológiát memoriagyártáshoz és AMD oldaláról nem nagyon nyilatkoztak, hogy hol lesz használva.
[link]

Egyik hszből:
zram works good at 1.2v with 0.003mA

A következő hír... K10-n már túlmutat mit is akar AMD
[link]
#1405 VaniliásRönk nagyúr #95904256 #1404

Új Válasz 2007-08-17 10:13:56 #1405
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

VaniliásRönk

nagyúr

válasz #95904256 #1404 üzenetére

Ránézésre is.
#1398 dezz nagyúr #95904256 #1396

Új Válasz 2007-08-16 23:41:13 #1398
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1396 üzenetére

Ezek nem az Agena ellenfelei, mivel az Agena a Phenom FX-ek és X4-ek alapja, a cikk meg Xeonokról szól. A desktop Penrynek csak 2008 tavaszán jönnek.

A #1372-essel kapcsolatban figyelmedbe ajánlom az utolsó mondatot: ''It's not clear at press time whether the delays of Barcelonas are to do with technology problems, or whether the multinationals are getting preferential treatment over the channel.''

Gyuri27: Nem tudják előre, milyen lesz a kihozatal, amitől a végleges órajel-kategóriák függenek.

laci666: Ez nem festegetés, hanem potenciális veszély. Aki meg azt mondja, az Intel nem hagyná, mert akkor azt meg a feldarabolás veszélye felyegetné, annak elmondanám, hogy az ''egyéb x86 processzor gyártói részesedés'' nem 1%, hanem kb. 10.
#1397 shabbarulez őstag #95904256 #1396

Új Válasz 2007-08-16 22:25:09 #1397
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

shabbarulez

őstag

válasz #95904256 #1396 üzenetére

gondolom egységes lesz: [link]
#1386 slett27 addikt #95904256 #1385

Új Válasz 2007-08-16 10:38:25 #1386
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

slett27

addikt

válasz #95904256 #1385 üzenetére

Abban biztos vagyok, hogy tönkre azért nem fog menni.
#1373 slett27 addikt #95904256 #1372

Új Válasz 2007-08-15 20:50:23 #1373
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

slett27

addikt

válasz #95904256 #1372 üzenetére

Kiszivárogtak tesztek (ftc linkelte) most megismétlem :

[link] ahol is egy 1,6GHz-es Barcelona és egy 2,4GHz Xeon-t mértek össze Cinebench-el. Az is kilett tárgyalva hogy nem mérvadó ez a teszt, mert inkább a frekvencia számít neki. De kiindulópontnak jó.

K10 1,6GHz (814 pont)
Xeon 2,4GHz (1274 pont)

Egy kis matek : ha a K10 1,6GHz-en csinál 814 pontot, akkor 2,4GHz-en mennyit csinál(na) = kb 2,4x814/1,6 = 1221. Tehát ebbőél lehet következtetni, ha majd lesz 2,4GHz-es K10, akkor pont a Xeon-al van pariban (legalábbis e teszt szerint. Ami szintén nem elég, mert mire kint lesz a 2,4GHz-es K10, addigra a Xeon sztem 3,4GHz körül fog szaladgálni. Lépéselőnyben ismét az Intel.

Lehet jobb lenne ha IBM felvásárolná az AMD-t többre jutna....
#1368 Andre1234 aktív tag #95904256 #1356

Új Válasz 2007-08-13 18:44:21 #1368
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Andre1234

aktív tag

válasz #95904256 #1356 üzenetére

THX....
#1367 Balala2007 tag #95904256 #1366

Új Válasz 2007-08-13 18:37:55 #1367
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Balala2007

tag

válasz #95904256 #1366 üzenetére

Felraktam ide [link] par proci dumpjat. Ezekben mar tobb utasitas szerepel, mint az eddigi EVEREST-ekben. Konkretan mi hianyzik?

[Szerkesztve]
#1364 Balala2007 tag #95904256 #1353

Új Válasz 2007-08-13 14:40:48 #1364
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Balala2007

tag

válasz #95904256 #1353 üzenetére

Instruction latency meresre az EVEREST nem jo? (Jobbclick alul a statusz soron --> CPU Debug --> Instruction Latency Dump). Nez egy par spec. esetet is, es viszonylag pontosnak is. Ez itt pl. egy Yonah:

Ui: hoppa, ez igy eleg csunyan nez ki, inkabb kiveszem, de az EVEREST-ben megtekintheto

[Szerkesztve]
#1358 Komplikato veterán #95904256 #1356

Új Válasz 2007-08-13 12:06:56 #1358
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Komplikato

veterán

válasz #95904256 #1356 üzenetére

Áhhh, beelőztél!

Nnna itt egy másik ''cikk'':
AMD Akiba Event showcases Phenom 3GHz processor and roadmap - [link]

Szöveg nem sok van, csak egy halom (elmosodott) telefonos fotó.
Mondjuk az a Buldozer mag érdekesn hangzik a roadmapon.
#1357 dokar addikt #95904256 #1356

Új Válasz 2007-08-13 07:36:27 #1357
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dokar

addikt

válasz #95904256 #1356 üzenetére

ez de gáz ez a black edition
#1354 Andre1234 aktív tag #95904256 #1347

Új Válasz 2007-08-12 05:17:03 #1354
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Andre1234

aktív tag

válasz #95904256 #1347 üzenetére

hi..
elérkeztünk a kérdéses dátumhoz...ha megtalálod a demózott cikket gondolom linkeled azonnal...már várom mit és mennyit láthatunk belőle..
na jóéjszakát
#1349 Andre1234 aktív tag #95904256 #1347

Új Válasz 2007-08-07 18:17:23 #1349
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Andre1234

aktív tag

válasz #95904256 #1347 üzenetére

csak nem válaszolnak a penicilin tesztjére???
#1343 Oliverda titán #95904256 #1342

Új Válasz 2007-08-06 21:34:09 #1343
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz #95904256 #1342 üzenetére

Nem tudom, azért kérdeztem.

AMD's Barcelona architecture - July update

[link]
#1341 Oliverda titán #95904256 #1340

Új Válasz 2007-08-06 20:49:06 #1341
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz #95904256 #1340 üzenetére

A 86%-kal több tranzisztorból hány százalék a +50% cache?
#1337 Oliverda titán #95904256 #1335

Új Válasz 2007-08-06 20:12:46 #1337
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz #95904256 #1335 üzenetére

Majdnem pont 30%-al kissebb csikszélességű a cucc mint a Conroe. Kétféle processzor, de tudtommal nem sok lényeges eltérés van az architektúrában.

Ráadásul a gyorsabb fogyaszt kevesebbet. - Ilyet sem láttunk még soha.
#1334 Oliverda titán #95904256 #1333

Új Válasz 2007-08-06 19:57:28 #1334
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

titán

válasz #95904256 #1333 üzenetére

Na akkor má' hagy kötözköggyek én is egy kicsit. Miért annyira megdöbbentő az ha alacsonyabb feszültésgen kevesebbet fogyaszt egy proci?
#1330 Savage5 senior tag #95904256 #1328

Új Válasz 2007-08-06 19:45:53 #1330
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Savage5

senior tag

válasz #95904256 #1328 üzenetére

Bázze, HL2-nél több, mint 30%-os növekedés, DivX-nél meg tényleg duplázott. Mi a fene van ebben, ebbe már beleültettek pár sejtet a szürkeállományból?
K10 tényleg készülhet valami nagy dobásra, ez kezd elfajulni.
#1329 VaniliásRönk nagyúr #95904256 #1328

Új Válasz 2007-08-06 19:45:27 #1329
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

VaniliásRönk

nagyúr

válasz #95904256 #1328 üzenetére

Döbbenet hogy akkor miért 2.33-on tesztelték....
#1312 P.H. senior tag #95904256 #1311

Új Válasz 2007-08-04 16:37:42 #1312
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz #95904256 #1311 üzenetére

Elnézést kell kérjek a #1288-as és részben a #1286 hsz miatt, hagyd figyelmen kívül, semmi értelme nincs, utólag olvasva. Így jár az, aki az ajtóból fordul vissza válaszolni (és a végtelen ciklusok mindig nagyon zavarnak). Sorry.

Az IPC 5 eléréséhez először azzal próbálkoznék, hogy a MOVQ helyett egy integer load-ot tennék a kódba, bár a throuhput-on ez elméletileg nem változtat:

''In general, instructions with load operations that execute in the integer ALU units require two more clock cycles than the corresponding register-to-register flavor of the same instruction. Throughput of these instructions with load operation remains the same with the register-to-register flavor of the instructions.
Floating-point, MMX technology, Streaming SIMD Extensions and Streaming SIMD
Extension 2 instructions with load operations require 6 more clocks in latency than the register-only version of the instructions, but throughput remains the same.''

Bár arra sem rémlik pontos adat, hogy a macro-op fusion egy órajel alatt történik-e.

Az XCHG EAX,EBX probléma szerintem egyszerűen feloldható, és máris itt a példa a 2 micro-opos Double-re: ezt úgy is meg lehet valósítani, a micro-opok először (egyszerre, még az ICU-ban) kiolvassák az EAX és EBX értékét, majd az execution unit-ba kerülve kiírják azt EBX-be illetve EAX-ba. Így teljesen függetlenek egymástól, akár egyszerre ''futhatnak le'' valamelyik két ALU-ban (a futás is képletes, mert igazából nem csinál semmit, csak mindkettő a megadott célra kiírja a forrásadatát, változtatás nélkül), ezért a latency 1 érték. Single-ben nem lehet megoldani, mert mindkét micro-op ALU-ba kerül, egy macro-opban pedig egy ALU-AGU micro-op páros kerülhet, amelyek függőségi viszonyban is vannak egymással, vagy legalábbi fix a lefutási sorrendjük (mint egyes esetben a Double-ok micro-opjainál is, de ebben nem vagyok biztos. A PUSH azért lehetett Single, mert ott a SUB ESP,04 műveletet a decode fázis ''végzi'', pontosabban a stack-engine, tehát belül az már csak egy egyszerű store. Mint ahogy a POP is egy egyszerű load, így talán könnyebben magyarázható a LEAVE és a CALL is).

[Szerkesztve]
#1310 dezz nagyúr #95904256 #1308

Új Válasz 2007-08-04 13:14:03 #1310
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1308 üzenetére

''A mostani x86-os processzorok több száz különböző utasítást ismernek, ezek közül egy pár utasítás végrehajtási ideje ( késleltetése ) valóban csökkent. A baj az hogy leginkább nem azoké amelyek a leggyakrabban fordulnak elő, ugyanis azokat már eddig is elég jól megcsinálták.''
Kifelejted a 2 lépéses 64 bites -> 1 lépéses 128 bites végrehajtás általi gyorsulást, ami elég sok utasítást érint. Persze csak vektorkódnál, de ma már sok programot így írnak.

''Például nagyon gyakori hogy két számot össze kell adnia a processzornak, azonban a fent említett regiszter-cserélés nagyon ritka a mostani programokban. Bár ez utóbbit is lehetne gyakrabban használni, de ahhoz még okosabb fordító programokra lenne szükség.''
Ha jól tudom, a regiszter-rename által erre ma már nincs akkora szükség.

''Igazából a legfájóbb pont hogy a K10-es továbbra is csak 4 órajel alatt fog tudni összeadni két lebegőpontos számot, míg a Core2-eseknek 3 órajel kell. Ezt csak kis részben kompenzálja hogy a dupla-pontos szorzásban viszont épp fordított ( 4:5 ) az arány.''
Mint direkt ADD utasítás igen, de ha ''embedded'' a dolog, mint pl. FCMP, FMAX, FMIN, stb., akkor sokszor megvan 2 órajel alatt. Meg ugye nem csak ez számít, hanem a throughput is.
#1309 dezz nagyúr #95904256 #1305

Új Válasz 2007-08-04 12:57:06 #1309
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1305 üzenetére

''Szerintem a DirectPath Double kódolású utasítások két, időben egymás után létrejövő makroOP-ra fordulnak le.''
Igen, tudom, hogy elvileg így van. ;)

''Természetesen a második oszlopban, ahová szintén utasításokat írtam ott több a kombinációs lehetőség mint a rögzített x86 utasításkészletben, mert ezek tulajdonképpen 1-2 mikroOP-ot jelentenek. Vagyis egy DirectPath Double 2\3\4 mikroOP-ra fordulhat le, míg a DirectPath Single csak 1\2-re. Ezekből persze egyik-másik mikroOP végrehajtási ideje több órajelet is kitehet.''
Írnál 1-1 konkrét példát 2 mikroOP-os Single-re, és 2-3 mikroOP-os Double-re? Úgy értem, hogy pontosan mi történik.

''Egyedüli kivétel a fent említett XCHG reg,reg utasítás, ami megcáfolhatja ezt a dolgot. Ugyanis ez a K8-ban még 2 órajeles VectorPath utasítás volt, viszont a K10-ben már csak 1 órajel késleltetésű DirectPath Double utasítás. Ez meg hogy lehet?''
Hát erről (is) beszélek. (Meg arról, hogy miért kell Double-nek lennie mindennek, ami két egységet dolgoztat, miközben ezek elvileg 1-1 mikroOP formájában egy mikroOP-ba kerülhetnének.) Az is érdekes lehet, hogy sok Double-nek 1/1 a throughputja. Bár 2/1-es v. 3/1-es nincs, de ez nem is csoda, hiszen két egységet foglalkoztat.

Gerr'y: mi is szeretnénk tudni a válaszokat ezekre a kérdésekre. Én azt gondolom, jópár dologban jobb lesz - azonos órajelen. Kérdés persze, milyen órajelek lesznek. Az ár meg valószínű attól fog függeni, hogy teljesít...

Andre1234: Én nem végeztem ilyen összehasonlítást, de azt ugye tudjuk, hogy a 128 bites utasítások (2-way 64 bit v. 4-way 32 bit SIMD) utasítások végrehajtási ideje alaposan csökkent, hiszen nem két 64 bites lépésben történik meg. És úgy tudom, ezen felül is gyorsult sok utasítás, plusz több utasítás mehet párhuzamosan.
#1307 Andre1234 aktív tag #95904256 #1305

Új Válasz 2007-08-04 11:34:47 #1307
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Andre1234

aktív tag

válasz #95904256 #1305 üzenetére

szia..

[link]

''Ugyanis ez a K8-ban még 2 órajeles VectorPath utasítás volt, viszont a K10-ben már csak 1 órajel késleltetésű DirectPath Double utasítás. Ez meg hogy lehet?''

Lehet hogy nagyon leegyszerűsítem a kérdést (de ez csak is azért van mert ezen a talajon ez én ismereteim konvergál a nullához)

Akkor megvalósult lényegében utasítás késleltetési idejenek csökkentése?
#1299 dezz nagyúr #95904256 #1298

Új Válasz 2007-08-04 00:14:59 #1299
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1298 üzenetére

Persze, hogy végső soron az IPC számít, de éppen ennek próbálunk utána járni (a teljesség igénye nélkül ).

A linkelt ábrán az látható, hogy AMD-nél a Pack Bufferből egyszerre 3 ''uop'' mehet tovább. És eléggé nem mindegy, hogy ez (AMD-féle) makroOP, vagy mikroOP, mivel 1 makroOP = 1 v. 2 mikroOP (DirectPath esetén, amikoris 1 utasítás = 1 makroOP). Tehát, max. IPC = 3 utasítás, akkor is, ha 2 mikroOP-os művelet (ugye memória-művelet), és akkor is, ha csak 1.

Ezzel szemben Intelnél az IPC 4 csak a 4 egyszerűbb, vagy 3 egyszrűbb (1 mikroOP-os) + 1 összetettebb (fúzióval 1 mikroOP-ossá tehető) utasításoknál lehet. Más esetekben 3, vagy épp csak 2. (Azon igen ritka esetekben lehet talán 5, ha az első 2 feltétel valamelyike teljesül, plusz egy makroOP fúzió is bejátszik, ha ezek egyszerre is működhetnek. Illetve azt nem tudom, különböző utasítások mikroOP-jai fúzionálhatók-e mikroOP fúzióval.)

Persze a legkorrektebb egy minden utasításra, plusz azok átlagos kódokbeli előfordulási arányára számolt IPC összehasonlítás lenne.

[Szerkesztve]
#1297 dezz nagyúr #95904256 #1296

Új Válasz 2007-08-03 22:48:04 #1297
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1296 üzenetére

Azért nem teljesen ''redundáns'', mert ha úgy tekintjük, hogy ilyen mikroOP-okból mehet tovább egyszerre max. 3db, akkor tévedésbe esünk. Valójában ebből 3-6db mehet tovább.

[Szerkesztve]
#1295 dezz nagyúr #95904256 #1293

Új Válasz 2007-08-03 22:22:37 #1295
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1293 üzenetére

''A 4/5 mikroOP bizony jelenthet 4/5 utasítást is a Core2 esetében, ugyanis az utasítások jelentős részénél 1 utasítás = 1 mikroOP megfeleltetés áll fenn, ha nincs memória hivatozású operandus.''
Hát, kíváncsi lennék P.H. véleményére, mekkora részük.

''Na, ez lehet hogy egy kicsit homályos nekem.''
Melyik része?
Intelnél: x86/stb. utasítások = makroOP, ezek közvetlenül mikroOP-okra fordulnak.
AMD-nél: a x86/stb. utastások először makroOP-okra fordulnak, melyek 1-2db mikroOP-ot tartalmaznak.
Az ábrán, és a cikkben ez utóbbi dolog figyelmen kívül lett hagyva.

''De a Decode csatornákon keletkező 1/2 mikroOP az csak 1 utasítást jelent, nem 1/2-őt. Vagy tévedek?
Nem tévedsz, de én nem is mondtam mást. 3,0 -> 3,0.

''dezz, akkor most a segítségedet kérem. Ugyanis nem értettem meg hogy ''a dekódolás szélessége önmagában nem döntő tényező''. Először is, ezt miért mondod? Másodszor mit értesz ''döntő'' alatt? Harmadszor ha a döntő = jelentős, akkor miért nem az?''
Mert a dekóderek utáni részeknek, és talán a retirementnek szűkebb a keresztmetszete.
(De a dekóderekkel is lehet valami, mert hiába tud mind fúziót, egy 5-ös mikroOP csoportból csak 2db-ot lehet párosítani eggyé.)

''Egyébként ha azt veszem amit már írtam, hogy az IPC=1,5 értéket is nehéz elérni akkor ezzel csak megerősítettél abban hogy az IPCmax érték növelés nem hoz túl sokat a teljesítmény növelésében.
Hát igen, nem az említett dolgokon múlik a hétköznapokban a teljesítmény.

[Szerkesztve]
#1292 dezz nagyúr #95904256 #1290

Új Válasz 2007-08-03 21:53:29 #1292
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1290 üzenetére

Légyszives nézd meg a linket, hogy mit értettem a ''csatornán'', és értsd meg, hogy a dekódolás szélessége önmagában nem döntő tényező.
#1289 dezz nagyúr #95904256 #1278

Új Válasz 2007-08-03 21:44:37 #1289
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1278 üzenetére

Nézd meg csak ezt: [link]

Itt 4 mikroOP széles ''csatorna'' látható, és tesztek szerint ebből 1 lehet fúzionált, azaz 4 v. 5 mikroOP mehet át, ami 2,0 v. 2,5 x86/stb. utasítás.

És amikor ezt összehasonlítod a K10 ide vonatkozó csatornájával, ami 3 szintén ''uop''-nak van jelölve, vedd figyelembe, hogy az valójában nem mikroOP ott, hanem AMD-féle makroOP, ami egyenként 2db mikroOP. (Ez a nem teljesen korrekt jelölés fel lett róva a szerzőnek, írta is, hogy talán módosítania kellene a képen, de végül nem foglalkozott vele tovább.)

[Szerkesztve]
#1288 P.H. senior tag #95904256 #1287

Új Válasz 2007-08-03 21:43:06 #1288
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz #95904256 #1287 üzenetére

De mondtam, sorry: [link] És tartom is.De 5 vagy 6 IPC-ről szó sem esett eddig.

[Szerkesztve]
#1286 P.H. senior tag #95904256 #1284

Új Válasz 2007-08-03 21:33:12 #1286
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz #95904256 #1284 üzenetére

Azt hiszem neked kelllene mutatni IPC értéket értelmes kódban.

Én nem montam sehol, hogy 3 feletti IPC-t el lehet érni AMD-kkel. Csak azt ,hogy hogyan lehet velül 3-as IPC elérni.

[Szerkesztve]
#1285 dezz nagyúr #95904256 #1275

Új Válasz 2007-08-03 21:33:06 #1285
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

dezz

nagyúr

válasz #95904256 #1275 üzenetére

Egyre rosszabb. Mondom, ez az 5,0-ás és 6,0-ás érték mikroOP. 1db alap x86/stb. utasítás általában 2db mikroOP-ra fordul, amiből egyes párok fúzionálhatnak. Tehát:

Core 2-nél:
6,0 mikroOP -> 3,0 instruction
5,0 mikroOP -> 2,5 instruction

K8/K10-nél:
3,0 (AMD-féle) makroOP -> 3,0 instruction
(+ K10-nél több utasítás DirectPath)
#1282 P.H. senior tag #95904256 #1281

Új Válasz 2007-08-03 20:28:25 #1282
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz #95904256 #1281 üzenetére

Eredendően értelmetlen kóddal nem nehéz.

cycle:
movq mm0,[esi] //MM0 <- 64 bites értéket kap
addps xmm0,xmm0 // XMM0 <- megkétszereződik
xorps xmm1,xmm1 //<- XMM1 <- 0
dec ebp // <- EBP csökken (de miért)
movq mm1,[esi] //<- MM1 <- azonos MM0 tartalmával
addps xmm2,xmm2 // <- XMM2 megkétszereződik
xorps xmm3,xmm3 // <- XMM3 <- 0
test edi,edi // EDI tesztje (mi csökkenti? végtelen ciklus vagy 0 volt?)
jne cycle // ciklus vége
movq mm2,[esi // MM2 <- mint MM0
addps xmm4,xmm4 // XMM4 kétszeres
xorps xmm5,xmm5 // XMM5 <- 0
test ebp,ebp // válzotó(?)-teszt
jnz cycle // ciklus vége [/OFF]

[Szerkesztve]
#1281 #95904256 törölt tag #95904256 #1278

Új Válasz 2007-08-03 20:12:49 #1281
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz #95904256 #1278 üzenetére

Eddig 4,67-es IPC-t sikerült kicsikarni az alábbi kóddal:

cycle:
movq mm0,[esi]
addps xmm0,xmm0
xorps xmm1,xmm1
dec ebp
movq mm1,[esi]
addps xmm2,xmm2
xorps xmm3,xmm3
test edi,edi
jne cycle
movq mm2,[esi]
addps xmm4,xmm4
xorps xmm5,xmm5
test ebp,ebp
jnz cycle

[Szerkesztve]
#1280 P.H. senior tag #95904256 #1279

Új Válasz 2007-08-03 19:49:32 #1280
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz #95904256 #1279 üzenetére

Ahogy írtad korábban, hogy maga a forrásbeli utasítássorrend kevésbé befolyásolja a K8-at, mint a Core microarchitecture-t, én ütemezésbeli erőtlenségre (''sokszor 0,8-0,9 környéki értékek jönnek ki, a vTune-nal is'') vagy (esetleg, kérdőjelesen) valami retirement-szűkösségre (ilyesmit dezz is linkelt korábban) tudok gondolni, de ezzel ki kellene várni a K10 megjelenését és teljesítményét, abból a realitások talaján talán több kikövetkeztethető.
#1277 P.H. senior tag #95904256 #1275

Új Válasz 2007-08-03 19:10:07 #1277
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz #95904256 #1275 üzenetére

(Az első fele törölve )

Én azon gondolkodom egy ideje, hogyan lehet az, hogy a Core microarchitecture miért nem mutat kétszeres feletti gyorsulást (illetve, hogy a K8 miért nem szakadt jobban le tőle, hiszen nem csak 64->128 volt ott a korábbiakhoz képest). Mi fogja vissza ennyre? Vagy mi nem volt ismert a korábbiakról? Mert az, ami visszafogja, az AMD-t is komolyan érintheti.

[Szerkesztve]
#1276 #95904256 törölt tag #95904256 #1275

Új Válasz 2007-08-03 19:02:27 #1276
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#95904256

törölt tag

válasz #95904256 #1275 üzenetére

Ez az infó nem megbízható.

szerk.: elvileg 6 port van, de kizárt hogy mindegyik leterhelhető egyszerre

[Szerkesztve]