你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
- Foundry Local 以预览版提供。 公共预览版提供对活动部署中的功能的早期访问。
- 正式发布 (GA) 之前,功能、方法和流程可能会发生更改或具有受限的功能。
本文档提供了 Foundry Local 的最佳做法和故障排除提示。
安全最佳做法
- 在符合组织安全策略的环境中使用 Foundry Local。
- 处理敏感数据时,请确保设备满足组织的安全要求。
- 在缓存模型可能包含敏感微调数据的设备上使用磁盘加密。
许可注意事项
使用 Foundry Local 时,请注意所运行的模型的许可影响。 可以使用以下方法查看模型目录中每个模型的完整模型许可条款:
foundry model info <model> --license
生产部署范围
Foundry Local 设计用于设备推理, 而不是 分布式、容器化或多计算机生产部署。
故障排除
常见问题和解决方案
問题 | 可能的原因 | 解决方案 |
---|---|---|
慢推理 | 具有大型参数计数的仅限 CPU 的模型 | 在可用时使用 GPU 优化的模型变体 |
模型下载失败 | 网络连接问题 | 检查 Internet 连接并运行 foundry cache list 以验证缓存状态 |
服务无法启动 | 端口冲突或权限问题 | 尝试或报告使用 < |
高通 NPU 错误 (Qnn error code 5005: "Failed to load from EpContext model. qnn_backend_manager." ) |
Qualcomm NPU 错误 | 正在调查中 |
改善性能
如果推理速度缓慢,请考虑以下策略:
- 同时运行 AI Toolkit for VS Code 中提供的 ONNX 模型会导致资源争用。 在运行 Foundry Local 之前,请停止 AI 工具包推理会话。
- 可用时使用 GPU 加速
- 通过在推理期间监视内存使用情况来识别瓶颈。
- 尝试更多量化模型变体(如 INT8 而不是 FP16)
- 调整非交互式工作负荷的批大小