目前使用Ktransformers进行DEEPSEEK-R1满血版和4bit量化版模型进行推理，推理速度有多少tokens/s？对应的计算资源配置分别是多少？ #36363

William-Cai123 · 2025-02-24T03:30:06Z

目前使用Ktransformers进行DEEPSEEK-R1满血版和4bit量化版模型进行推理，推理速度有多少tokens/s？对应的计算资源配置分别是多少？
目前本地部署测试能跑4bit量化版和Q2_K量化版，但推理速度只有不到0.1tokens/s，，(...o0^0o...)，使用的配置如下：
GPU：tesla A10 24G X 2
CPU：Intel(R) Xeon(R) Platinum 8352V CPU @ 2.10GHz X 100（--cpu_infer 100，支持AVX-512，不支持AMX）
MemTotal：256G
磁盘：12T （15000rpm gpt-1.00 partitioned partitioned:gpt，hdd）

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

目前使用Ktransformers进行DEEPSEEK-R1满血版和4bit量化版模型进行推理，推理速度有多少tokens/s？对应的计算资源配置分别是多少？ #36363

目前使用Ktransformers进行DEEPSEEK-R1满血版和4bit量化版模型进行推理，推理速度有多少tokens/s？对应的计算资源配置分别是多少？ #36363

William-Cai123 commented Feb 24, 2025 •

edited

Loading

目前使用Ktransformers进行DEEPSEEK-R1满血版和4bit量化版模型进行推理，推理速度有多少tokens/s？对应的计算资源配置分别是多少？ #36363

目前使用Ktransformers进行DEEPSEEK-R1满血版和4bit量化版模型进行推理，推理速度有多少tokens/s？对应的计算资源配置分别是多少？ #36363

Comments

William-Cai123 commented Feb 24, 2025 • edited Loading

William-Cai123 commented Feb 24, 2025 •

edited

Loading