AI部署相关文章 - 一江山水的随笔

当前位置：首页 - 标签“AI部署“ - 正文

Enjoy life！

公告：欢迎光临我的个人博客，希望博客的内容能够对您有所帮助！

【推荐】本站交流QQ群：962693412

扫描二维码加入本站交流QQ群：962693412 ！！！本站QQ群：962693412...

2019-08-29 | 随笔 | 3266°c

开源大模型三强争霸：Llama3、Qwen2.5、Mistral谁更适合你？

先说结论：选哪个？如果你在国内，主要用中文，Qwen2.5是首选；如果你追求通用性和社区活跃度，Llama3最稳；如果你喜欢小而精、部署灵活，Mistral值得一试。别急，下面我详细拆解为什么。一、能力对比：中文、英文、推理谁更强？我拿三个模型的7B版本（参数规模适中，适合个人部署）做了实际...

2026-04-15 | 技术 | 47°c

vLLM让大模型推理快10倍？PagedAttention原理详解与实战部署

先说效果：vLLM真能让推理快10倍？我最近试了vLLM，结论是：确实能快，但不是所有场景都10倍。在批量处理请求时，吞吐量提升2-10倍很常见，尤其是显存紧张时。比如我用A100跑Llama 2-7B，传统方法同时处理8个请求就爆显存，vLLM能轻松处理64个，速度提升明显。但如果是单次推理，加...

2026-04-15 | 技术 | 47°c

‹‹ 1 ››