你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

选择 Azure AI 图像和视频处理和生成技术

Azure AI 服务通过现成的预生成可定制 API 和模型,帮助开发人员和组织快速创建智能、前沿、面向市场且负责任的应用程序。

本文介绍提供视频和图像处理功能的 AI 服务,例如视觉分析和图像生成、对象检测、图像分类和面部识别。

服务

以下服务为 AI 服务提供视频和图像处理功能:

  • Azure OpenAI 服务

    • 使用 Azure OpenAI 及其预训练的生成图像模型从自然语言生成图像。 例如,可以使用 Azure OpenAI 按需生成自定义艺术。

    • 使用 Azure OpenAI 当需要对图像进行非特定和广泛的分析时。 例如,可以使用 Azure OpenAI 生成辅助功能说明。

    • 请勿使用 Azure OpenAI,如果您想使用 Azure 机器学习中提供的开源图像生成模型。

    • 请勿使用 如果需要执行特定类型的图像处理(例如表单提取、人脸识别或域专用图像特征检测),Azure OpenAI。 对于这些方案,请使用或生成专为这些目的设计的 AI 解决方案。

  • Microsoft Azure AI 视觉

    • 需要基本光学字符识别(OCR)、图像分析或基本视频分析来检测运动和其他事件时,使用 Vision。

    • 请勿使用 Vision 来进行分析,因为大型、多模态、基础模型已经支持。

    • 请勿使用 Vision以审核内容。 请改用 Microsoft Azure AI 内容安全。

  • Microsoft Azure AI 自定义视觉

    • 使用 自定义视觉以满足视觉图像分析无法达到的特定要求。 例如,自定义视觉可以识别异常对象和制造缺陷。 它还可以提供详细的自定义分类。

    • 请勿使用自定义视觉 如果您需要基本对象检测或人脸检测。 请改用 Azure AI 的人脸或视觉功能。

    • 请勿使用 用于基本视觉分析的自定义视觉。 请改用 Azure OpenAI 中的支持视觉的模型或机器学习中的开源模型。

  • Azure AI 人脸

    • 使用 Azure AI 人脸识别,可以检查人脸是否真实或伪造,或者识别、分组或查找相似人脸。

    • 请勿使用 Azure AI 人脸,用于检测人脸中的情绪或执行有关人脸的其他高级推理。 请改用多模式语言模型执行这些任务。

  • Microsoft Azure AI 视频索引器

    • 使用 视频索引器进行无法由Vision中的基本视频分析处理的高级视频分析任务。

    • 请勿使用 用于基本视频分析任务(如人员计数和运动和事件检测)的视频索引器。 视觉中的基本视频分析对这些任务更具成本效益。

Azure OpenAI

Azure OpenAI 提供对 OpenAI 的强大语言模型(包括最新一代 GPT 模型)的访问。 这些模型支持视觉分析和生成图像。 DALL-E 还支持映像生成。

愿景

视觉 提供高级算法,根据指定的视觉特征处理图像并返回信息。 它提供四项服务:OCR、Azure AI 人脸、图像分析和空间分析。

能力

下表提供了视觉中可用的功能列表。

能力 说明
光学字符识别 OCR 从图像中提取文本。 可以使用读取 API 从图像和文档中提取印刷体文本和手写文本。 它使用基于深度学习的模型处理各种图面和背景中的文本。 这些材料包括业务文档、发票、收据、海报、名片、信件和白板。 OCR API 支持 多种语言的打印文本提取。
Azure AI 视觉图像分析 图像分析从图像中提取许多视觉特征,例如对象、人脸和自动生成的文本说明。 可以使用基于佛罗伦萨基础模型 的图像分析 4.0 创建自定义图像标识符模型。
视频分析 视频分析包括与视频相关的功能,例如空间分析和视频检索。 空间分析功能会分析视频源上人的存在和移动,并生成其他系统可以响应的事件。

自定义视觉

自定义视觉 是一种图像识别服务,可用于生成、部署和改进图像标识符模型。 图像标识符会根据图像的视觉特征将标签应用到这些图像上。 每个标签都表示一个分类或对象。 使用自定义视觉指定自己的标签并训练自定义模型以检测它们。

自定义视觉使用机器学习算法分析自定义功能的图像。 提交分别具有和不具有所需视觉特征的图像集。 然后在提交时,用您自己的标签或 标记标注图像。 此算法会针对该数据进行训练并计算其自己的准确度,方法是针对相同的图像自行进行测试。 训练模型后,可以测试、重新训练并最终使用图像识别应用中的模型对图像或检测对象进行分类。 也可导出模型,方便脱机使用。

能力

下表提供了自定义视觉中可用的功能列表。

能力 说明
图像分类 根据一组称为特征的输入来预测类别或。 计算每个可能类的概率分数,并返回一个标签来指示对象最有可能属于的类。 若要使用此模型,需要包含特征及其标签的数据。
对象检测 获取图像中对象的坐标。 若要使用此模型,需要包含特征及其标签的数据。

用例

下表提供了自定义视觉的可能用例列表。

用例 说明
将自定义视觉与 IoT 设备配合使用来报告视觉状态 使用自定义视觉训练具有相机的设备以检测视觉状态。 可以使用导出的 ONNX 模型在 IoT 设备上运行此检测方案。 视觉状态描述图像的内容,如空房间或有人员的房间、空车道或带卡车的车道。
对图像和对象进行分类 通过训练自定义模型来分析照片并扫描特定徽标。

Azure AI 面部识别

Azure AI 人脸 提供用于检测、识别和分析图像中人脸的 AI 算法。 面部识别软件在各种场景中非常重要,例如识别、无触摸访问控制和自动面部模糊处理隐私。

能力

下表提供了 Azure AI 人脸中可用的功能列表。

能力 说明
人脸检测和分析 识别包含人脸的图像区域,通常通过返回范围框坐标来形成以人脸为中心的矩形。
查找相似人脸 “查找相似”作将目标人脸与一组候选人脸匹配。 它标识一组与目标人脸非常相似的较小人脸。 此功能可用于按图像执行人脸搜索。
对人脸分组 组操作会基于相似性将未知人脸的集合分为几个较小的组。 每个组是原始人脸集合的互不相交真子集。 它还返回一个 messyGroup 数组,其中包含没有找到相似性的人脸 ID。
标识 人脸识别可以解决图像中一人脸与安全存储库中的一组人脸的一对多匹配问题。 根据其人脸数据与查询人脸的匹配程度,返回匹配候选项。
人脸识别操作 现代企业和应用可以使用 Azure AI 人脸识别技术(包括人脸验证(或一对一匹配)和人脸识别(或一对多匹配)来确认用户是谁。
活体检测 活体检测是一种反欺骗功能,用于检查用户是否实际出现在摄像头前。 它用于防止利用印刷照片、录制视频或用户面部的3D面具进行的欺骗式攻击。

用例

下表提供了 Azure AI 人脸的可能用例列表。

用例 说明
验证用户标识 根据可信的人脸图像验证身份。 此验证可用于授予对数字或物理属性的访问权限。 在大多数情况下,受信任的人脸图像来自政府颁发的 ID,例如护照或驾照,或者来自亲自拍摄的注册照片。 在验证期间,实时检测可以在验证图像是否来自真实人而不是印刷照片或掩码方面发挥关键作用。
面部修订 编辑或模糊视频中录制的检测到的人脸,以保护其隐私。
无触摸访问控制 与卡片或票证等方法相比,选择性人脸识别能够增强访问控制体验,同时降低因物理媒体共享、丢失或盗窃而带来的卫生和安全风险。 人脸识别可以帮助在机场、体育场馆、主题公园、建筑物或者办公室、医院、健身房、俱乐部或学校的接待亭进行人工值机。

视频索引器

视频索引器 是 AI 服务的一部分的云应用。 它使用人脸、翻译器、视觉和语音等 Azure AI 工具构建。 它使你能够使用视频索引器视频和音频模型从视频中提取见解。

能力

下表提供了视频索引器中提供的一些功能的列表。

能力 说明
多语言语音识别和听录 识别音频中不同段落中的口语。 它会发送要转录的媒体文件的每个片段,然后将转录合并成一个完成的转录。
人脸检测 检测并分组视频中显示的人脸。
名人识别 识别超过100万名人,如世界领导人、演员、艺术家、运动员、研究人员以及全球商业和技术领袖。 这些名人的数据也可以在各种网站上找到,如 IMDB 和维基百科。
基于帐户的人脸识别 为特定帐户训练模型。 然后,根据已训练的模型识别视频中的人脸。
跟踪观测到的人员(预览版) 识别视频中监测到的人员。 它使用边界框提供诸如视频帧中人员位置等信息。 它还包括人员出现时的确切开始和结束时间戳,以及检测的置信度。
音频听录 将语音转换为超过 50 种语言的文本,并允许扩展。
语言检测 识别主要使用的语言。
降噪 清理电话音频或有噪音的录制内容(基于 Skype 滤波器)。
翻译 创建音频文字稿的多种语言翻译。

有关详细信息,请参阅 视频索引器文档

用例

下表提供了视频索引器可能用例的列表。

用例 说明
深度搜索 使用从视频中提取的见解可增强整个视频库的搜索体验。 例如,对所说内容和人脸进行索引,可以实现在视频中查找特定瞬间的搜索体验,例如,查找视频中某个人说出某些话时刻,或者看到两个人出现在一起的时刻。 根据视频中的此类见解进行搜索适用于通讯社、教育机构、广播公司、娱乐内容所有者、企业业务线应用,通常适用于具有用户需要搜索的视频库的任何行业。
内容创建 根据视频索引器从内容中提取的见解创建预告片、突出显示卷轴、社交媒体内容或新闻剪辑。 关键帧、场景标记以及人员和标签外观的时间戳简化了创建过程。 这些元素可帮助你快速找到创建内容时所需的视频部分。
辅助功能 无论你希望使内容可供残障人士使用,还是希望内容分发到使用不同语言的不同区域,都可以使用视频索引器以多种语言提供的听录和翻译。
货币化 视频索引器可以帮助增加视频的价值。 例如,依赖于广告收入的行业(如新闻媒体和社交媒体)可以通过将提取的见解用作广告服务器的其他信号来提供相关广告。
内容审核 使用文本和视觉内容审查模型使用户免受不适当的内容的安全,并验证发布的内容是否与组织的值匹配。 你可以自动阻止某些视频,或向用户发出有关这些内容的警报。
建议 视频见解可以通过向用户重点显示相关视频瞬间来提高用户的参与度。 通过用额外的元数据标记每个视频,可以向用户推荐最相关的视频,并突出显示与其需求匹配的视频部分。

后续步骤