申请试用
HOT
登录
注册
 
基于NVIDIA Triton Inference Server端到端部署LLM serving-卢翔龙
基于NVIDIA Triton Inference Server端到端部署LLM serving-卢翔龙

基于NVIDIA Triton Inference Server端到端部署LLM serving-卢翔龙

示说网官方
/
发布于
/
277
人观看

卢翔龙-NVIDIA资深解决方案架构师

NVIDIA资深解决方案架构师, 本科毕业于华中科技大学,硕士毕业于美国亚利桑那州立大学。负责为消费互联网行业提供GPU计算加速解决方案。专注技术方向包括Triton Inference Server, TensorRT模型推理加速,以及LLM inference优化等。


分享介绍:

     介绍NVIDIA大型语言模型(LLM)推理加速库TensorRT-LLM的任务调度方案in-flight batching的基础原理;并分享基于NVIDIA Triton Inference Server端到端部署LLM的完整解决方案。

4点赞
1收藏
8下载
确认
3秒后跳转登录页面
去登陆