qwen-moe
简介
- 1/3的激活参数量达到7B模型的性能
- 相比Qwen1.5-7B,Qwen1.5-MoE-A2.7B的训练成本降低了75%,推理速度则提升了1.74倍
- 项目仓库https://github.com/QwenLM/Qwen1.5
- 英文博文https://qwenlm.github.io/blog/qwen-moe/
- 中文博文https://qwenlm.github.io/zh/blog/qwen-moe/
- 模型下载https://www.modelscope.cn/models/qwen/Qwen1.5-MoE-A2.7B-Chat/summary
缺点
- 总体显存占用比7B模型要大