Hirdetés

Új hozzászólás Aktív témák

  • Raymond

    titán

    válasz rxmiss #42 üzenetére

    De igen, van par, peldaul Qwen3 30B A3B es Qwen3 Coder 30B A3B (3B aktiv parameter) vagy a gpt-oss 20B (3.6B aktiv parameter) es gpt-oss 120B (5.1B aktiv parameter). Ezek normalis sebessegel mennek CPU-val is a RAM-bol. Az a Qwen3 Q6-ben peldaul tud olyan 15-20 tok/s sebesseget egy DDR5 rendszeren, attol fuggoen hogy milyen a RAM (4800-5600-6400) es quant. Q4 valamivel jobb. RAM igenyek se brutalisak igazan, a Qwen3 26GB Q6-al es olyan 18GB Q4-el, a gpt-oss 20B pedig csak 12GB alapbol a 120B pedig 65GB (MX4FP formatum). Tehat ha van 96GB vagy tobb RAM-od (es turelmed) akkor meg a gpt-oss 120B hasznalhatonak nevezheto. A prompt processing persze CPU-val aranylag lassu ami akkor problema ha mar hosszabb a cseveges vagy eleve hosszu az elso prompt. Ha sikerul mondjuk 200-300 tok/s sebesseget ott elerni egy 8000 tokenes promptnal mar eleve fel percet is varsz mire egyaltalan elkezdi a generalast.

Új hozzászólás Aktív témák