你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Foundry Local 的最佳做法和故障排除指南

重要

  • Foundry Local 以预览版提供。 公共预览版提供对活动部署中的功能的早期访问。
  • 正式发布 (GA) 之前,功能、方法和流程可能会发生更改或具有受限的功能。

本文档提供了 Foundry Local 的最佳做法和故障排除提示。

安全最佳做法

  • 在符合组织安全策略的环境中使用 Foundry Local。
  • 处理敏感数据时,请确保设备满足组织的安全要求。
  • 在缓存模型可能包含敏感微调数据的设备上使用磁盘加密。

许可注意事项

使用 Foundry Local 时,请注意所运行的模型的许可影响。 可以使用以下方法查看模型目录中每个模型的完整模型许可条款:

foundry model info <model> --license

生产部署范围

Foundry Local 设计用于设备推理, 而不是 分布式、容器化或多计算机生产部署。

故障排除

常见问题和解决方案

問题 可能的原因 解决方案
慢推理 具有大型参数计数的仅限 CPU 的模型 在可用时使用 GPU 优化的模型变体
模型下载失败 网络连接问题 检查 Internet 连接并运行 foundry cache list 以验证缓存状态
服务无法启动 端口冲突或权限问题 尝试或报告使用 <a0/&a0> 日志的问题
高通 NPU 错误 (Qnn error code 5005: "Failed to load from EpContext model. qnn_backend_manager." Qualcomm NPU 错误 正在调查中

改善性能

如果推理速度缓慢,请考虑以下策略:

  • 同时运行 AI Toolkit for VS Code 中提供的 ONNX 模型会导致资源争用。 在运行 Foundry Local 之前,请停止 AI 工具包推理会话。
  • 可用时使用 GPU 加速
  • 通过在推理期间监视内存使用情况来识别瓶颈。
  • 尝试更多量化模型变体(如 INT8 而不是 FP16)
  • 调整非交互式工作负荷的批大小