刚部署满血deepseek r1 0528版本，推理性能提升这么多嘛？不是架构没变嘛？

#75

by jakyer - opened 5 days ago

Discussion

jakyer

5 days ago

单台H20,8*96G显存部署结果展示：
推理日志：

性能分析： 50+token/s/req

结论：推理性能看起来提升1倍多，什么原因，不是架构没有变嘛？有知道原因的嘛？欢迎探讨！

微信群1，群2已满，需要加群的请加中转群，欢迎加群探讨！

Naist4869

5 days ago

支持了fp8

Rizhong

5 days ago

这个是sglang的截图，是因为sglang默认换用了fa3，提升比较多

hjbffy

5 days ago

sglang用的哪个版本？

oliver0102

4 days ago

推理参数是什么呢？帮分享一下吧

ghostplant

3 days ago

单并发只有50吗？A100更快一点，可以做到80TPS

aabbccddwasd

2 days ago

单并发只有50吗？A100更快一点，可以做到80TPS

怎么做到的！！！教教我，我也要用A100

ghostplant

2 days ago

单并发只有50吗？A100更快一点，可以做到80TPS

怎么做到的！！！教教我，我也要用A100

有一个为A100专门优化版本，Hopper架构也能跑，但没有调优：https://hub.docker.com/r/tutelgroup/deepseek-671b

aabbccddwasd

1 day ago

单并发只有50吗？A100更快一点，可以做到80TPS

怎么做到的！！！教教我，我也要用A100

有一个为A100专门优化版本，Hopper架构也能跑，但没有调优：https://hub.docker.com/r/tutelgroup/deepseek-671b

A100并不支持FP4/FP8啊，这是怎么做到的？很神奇的样子，等我卡到了我要测试下

ghostplant

1 day ago

This comment has been hidden (marked as Resolved)

aabbccddwasd

1 day ago

单并发只有50吗？A100更快一点，可以做到80TPS

请问tutel能否被用于openai server部署？还是只能在命令行做单请求

ghostplant

1 day ago

•

edited 1 day ago

tutel 是一个moe相关的算子加速库，可以集成到sglang/vllm上实现engine的加速、或者增加对FP4的支持。
container demo 只提供了 ollama 一样的基本请求功能，根据时间充裕情况，以后可能会扩展。

aabbccddwasd

1 day ago

tutel 是一个moe相关的算子加速库，可以集成到sglang/vllm上实现engine的加速。
container demo 只提供了 ollama 一样的基本请求功能，根据时间充裕情况，以后可能会扩展。

好的，我去提feature request了。。。这么高的性能应该会集成的比较快

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment