刚部署满血deepseek r1 0528版本,推理性能提升这么多嘛?不是架构没变嘛?

#75
by jakyer - opened

单台H20,8*96G显存部署结果展示:
推理日志:
img_v3_02mp_77a91d9d-51b7-4423-9934-dcc94561e5bg.jpg
性能分析: 50+token/s/req
img_v3_02mp_a2a89e64-72c9-4a7e-9d44-ddb9c126814g.jpg

结论:推理性能看起来提升1倍多,什么原因,不是架构没有变嘛?有知道原因的嘛?欢迎探讨!

微信群1,群2已满,需要加群的请加中转群,欢迎加群探讨!

img_v3_02mp_470d2c52-7d39-4864-893a-9cbaf2f9a7ag.jpg

支持了fp8

这个是sglang的截图,是因为sglang默认换用了fa3,提升比较多

sglang用的哪个版本?

推理参数是什么呢?帮分享一下吧

单并发只有50吗?A100更快一点,可以做到80TPS

单并发只有50吗?A100更快一点,可以做到80TPS

怎么做到的!!!教教我,我也要用A100

单并发只有50吗?A100更快一点,可以做到80TPS

怎么做到的!!!教教我,我也要用A100

有一个为A100专门优化版本,Hopper架构也能跑,但没有调优:https://hub.docker.com/r/tutelgroup/deepseek-671b

单并发只有50吗?A100更快一点,可以做到80TPS

怎么做到的!!!教教我,我也要用A100

有一个为A100专门优化版本,Hopper架构也能跑,但没有调优:https://hub.docker.com/r/tutelgroup/deepseek-671b

A100并不支持FP4/FP8啊,这是怎么做到的?很神奇的样子,等我卡到了我要测试下

This comment has been hidden (marked as Resolved)

单并发只有50吗?A100更快一点,可以做到80TPS

请问tutel能否被用于openai server部署?还是只能在命令行做单请求

tutel 是一个moe相关的算子加速库,可以集成到sglang/vllm上实现engine的加速、或者增加对FP4的支持。
container demo 只提供了 ollama 一样的基本请求功能,根据时间充裕情况,以后可能会扩展。

tutel 是一个moe相关的算子加速库,可以集成到sglang/vllm上实现engine的加速。
container demo 只提供了 ollama 一样的基本请求功能,根据时间充裕情况,以后可能会扩展。

好的,我去提feature request了。。。这么高的性能应该会集成的比较快

Sign up or log in to comment