你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Foundry Local 的最佳做法和故障排除指南

重要

本文档提供了 Foundry Local 的最佳做法和故障排除提示。

安全最佳做法

使用 Foundry Local 时，请注意所运行的模型的许可影响。可以使用以下方法查看模型目录中每个模型的完整模型许可条款：

foundry model info <model> --license

Foundry Local 设计用于设备推理， 而不是 分布式、容器化或多计算机生产部署。

問题	可能的原因	解决方案
慢推理	具有大型参数计数的仅限 CPU 的模型	在可用时使用 GPU 优化的模型变体
模型下载失败	网络连接问题	检查 Internet 连接并运行 `foundry cache list` 以验证缓存状态
服务无法启动	端口冲突或权限问题	尝试或报告使用 <a0/&a0> 日志的问题
高通 NPU 错误（`Qnn error code 5005: "Failed to load from EpContext model. qnn_backend_manager."`）	Qualcomm NPU 错误	正在调查中

如果推理速度缓慢，请考虑以下策略：

同时运行 AI Toolkit for VS Code 中提供的 ONNX 模型会导致资源争用。在运行 Foundry Local 之前，请停止 AI 工具包推理会话。
可用时使用 GPU 加速
通过在推理期间监视内存使用情况来识别瓶颈。
尝试更多量化模型变体（如 INT8 而不是 FP16）
调整非交互式工作负荷的批大小