什么是 Windows AI APIs?

显示各种 Windows AI FoundryAPIs图标的图像。

Windows AI Foundry 通过整套 Windows AI APIs 以及通过 Windows 机器学习(ML)启用的硬件抽象 AI 推理能力,提供各种人工智能(AI)功能。 Windows AI APIs 支持 AI 功能,无需查找、运行或优化自己的机器学习(ML)模型。 在 Copilot+ PC 上启用 Windows AI Foundry 的模型在本地运行,并在后台连续运行。

有关展示如何在 WinUI 中使用 API 的完整应用,请参阅 Windows AI Foundry。

构建第一个支持 AI 的 Windows 应用

若要使用 Visual Studio 和一些简单的 Windows AI APIs生成第一个 Windows 应用,只需满足先决条件并使用 Windows AI APIs开始生成应用时提供的示例代码。

在此处,你可以跳转到一些简短的教程,这些教程利用特定的 Windows AIAPIs(例如 Phi WalThrough、Imaging walthroughOCR walthrough)构建应用。

在你的电脑上试用 APIs 和模型

AI Dev Gallery 是Microsoft应用商店提供的演示应用,可让你快速下载、试用和使用 Windows AI APIs 和模型。

在 AI Dev Gallery中,选择 APIs 菜单项,然后选择 Phi Silica 示例。 如果模型已在设备上可用,则该示例将立即运行。 否则,请选择 “请求模型 ”以下载模型。 下载后,将激活该示例。 了解关于AI Dev Gallery的更多信息,请参阅什么是AI Dev Gallery?

可用 APIs 的概述

以下是一些可以在您的 Windows 应用中利用的现成 AI 功能:

  • Phi 硅。 本地现成的语言模型。 请参阅 Phi 硅入门
  • AI 文本识别。 识别图像中的文本,并将图像/pdf 转换为可搜索的文本。 请参阅 AI 文本识别入门
  • AI 图像处理。 使用 AI 缩放和锐化图像(图像超分辨率),以及识别图像中的对象(图像分段)。 请参阅 AI 映像入门
  • Windows Studio Effects。 将 AI 效果应用于设备的内置相机和麦克风。 请参阅Windows Studio Effects概述(预览版)。

Phi 硅石

与 OpenAI 的 GPT 大型语言模型(LLM)类似,Phi 是一种小型语言模型(SLM),由 Microsoft Research 开发,用于在本地设备上执行语言处理任务。 Phi 硅专为具有神经处理单元(NPU)的 Windows 设备设计,允许文本生成和聊天功能直接在设备上以高性能、硬件加速的方式运行。 皮硅在中国不可用。

显示一个 AI 聊天提示为 "介绍你自己" 并使用 Phi Silica 功能生成响应的动画 gif。

另请参阅 Phi 硅入门

小窍门

为了提高辅助功能和可读性,此页面在默认视图中使用静态图像。 可以单击图像以查看动画版本。

文本识别

文本识别 APIs 支持识别图像中的文本,以及在不同类型的文档(如扫描的纸张文档、PDF 文件和数字相机捕获的图像)的本地设备上转换为可编辑和可搜索的数据。

一个动画 gif,其中显示了使用文本覆盖层识别的屏幕截图中的单词,可以使用文本识别功能将其复制到文件或剪贴板。

另请参阅 AI 文本识别入门

图像超分辨率

图像超分辨率 APIs 支持图像锐化和缩放。

一个动画 gif,显示了图像与使用图像超分辨率功能进行锐化和缩放的单词和图片混合。

另请参阅“图像超分辨率”可以做什么?

图像分割

图像分段 APIs 使得图像可以被分段。

动画 gif 显示男子抬起一只脚,然后选择“删除背景”选项,使用图像分割功能将该男子的图像与白色背景隔离。

另请参阅“图像分段”可以做什么?

图像说明

图像说明 APIs 以自然语言描述图像。 图像说明功能在中国不可用。

一个动画 gif,显示了一只睡着的狗,使用自然语言弹出的图像描述,描述一只蓬松、毛茸茸的狗舒适地躺在沙发上休息,这是图像描述功能的一部分。

另请参阅 从图像获取文本说明

对象擦除

对象擦除 APIs 允许从图像中删除对象。

动画 GIF 显示用户利用对象擦除功能删除图像中的对象。

另请参阅 对象擦除入门

其他 AI 功能

  • Windows Studio Effects。 具有兼容神经处理单元(NPU)的 Windows 设备将 Windows Studio Effects 集成到设备的内置相机和麦克风设置中。 可以应用使用 AI 的特殊效果,包括:背景模糊、视线接触校正、自动取景、人像光效校正、创意滤镜和语音聚焦,用于过滤背景噪音。 请参阅Windows Studio Effects概述(预览版)。

  • Recall:Recall 使用户能够快速查找过去活动的内容,例如文档、图像、网站等。 开发人员可以通过添加对重新启动内容的支持来丰富其Recall应用的体验。 此集成将帮助用户在您的应用中继续上次中断的位置,从而提升应用互动,并增强用户在 Windows 和您的应用之间的无缝衔接。 请参阅 Recall 概述

  • 实时字幕翻译(尚不支持)。 通过查看口述内容的字幕(即使音频内容采用不同于系统首选语言的语言),帮助所有人使用 Windows(包括失聪或听力障碍的人)更好地了解音频。

内容审核

了解Windows AI Foundry如何管理内容,以及如何调整敏感词过滤器。 请参阅 Windows AI Foundry 的内容安全审查

使用 AI 功能时,建议查看:在 Windows上开发负责任的生成 AI 应用程序和功能。

其他资源

另请参阅