你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

选择 Azure AI 目标语言处理技术

Azure AI 服务 可帮助开发人员和组织使用现成且可自定义的 API 和模型快速创建智能、前沿、市场就绪和负责任的应用程序。

本文介绍提供目标语言处理功能的 Azure AI 服务,例如自然语言处理 (NLP)、文本分析、语言理解、翻译和文档数据提取。 Azure AI 语言是 Azure AI 服务中最广泛的类别之一。 可以在工作负载中使用 API 来整合语言功能,如命名实体识别、情感分析、语言检测和文本摘要。

服务

以下服务为 Azure AI 服务提供目标语言处理功能:

  • Azure AI 语言 为文本分析提供自然语言处理。

    • 当您需要处理结构化或非结构化文档时,请使用 Azure AI 语言服务,用于处理所描述的各种语言相关任务。
    • 如果需要使用聊天搜索文档、检查文档内容安全性或翻译文档,请勿使用语言服务。
  • Azure AI Translator 是机器翻译服务。 它可以执行 实时文本翻译、批处理和单个文件 文档翻译以及 自定义翻译 ,以便为方案合并专用术语或行业特定的语言。 它支持 多种语言

    • 使用翻译服务,在需要专门进行翻译时。 虽然可以使用其他常规用途基础语言模型来执行翻译,但将翻译器用于其专用用途可以证明更可靠有效,并且通过使用有针对性的翻译模型可以更具成本效益。
    • 请勿使用翻译服务,如果您需要与聊天互动、分析内容进行情绪分析或进行内容审查。 对于情绪分析,请改用语言服务。 对于内容审核,请使用内容安全服务。
  • Azure AI 文档智能 是一项可将图像直接转换为电子表单的服务。 可以指定预期的字段,然后搜索你提供的图像,在没有人为干预的情况下捕获这些字段。 该服务托管许多预生成模型,还允许你生成自己的自定义表单模型。

    • 使用文档智能服务,当你确切知道需要从扫描文档中提取哪些字段,以便适当填写电子表单时。
    • 文档智能用于识别各种文档集中的关键结构(页眉、页脚、分章符等),以进一步以编程方式与文档交互,例如在检索扩充生成(RAG)实现中。
    • 请勿将文档智能服务用作实时搜索 API。

Azure OpenAI

Azure OpenAI Azure OpenAI 服务提供对 OpenAI 的强大语言模型的 REST API 访问,包括 o3-mini、o1、o1-mini、GPT-4o、GPT-4o mini、GPT-4 Turbo with Vision、GPT-4、GPT-3.5-Turbo 和 Embeddings 模型系列。 这些模型可以轻松适应特定任务,包括但不限于内容生成、摘要、图像理解、语义搜索和自然语言进行代码翻译。

功能

下表提供了 Azure OpenAI 服务中可用的功能列表。

能力 说明
文本生成和完成 基于提示、自动完成句子或段落生成类似人类的文本,根据给定上下文将长文档汇总为简明的摘要和回答问题。
聊天 构建聊天机器人和虚拟助手,在多轮对话中维护上下文,并根据用户交互个性化响应。
助手 创建类似 Copilot 的体验,在用户交互中保持一致的个性,并可同时运行多个工具,如代码执行和知识搜索。
嵌入 将文本转换为数字向量,其中相似含义在矢量空间中紧密地出现,从而在 Azure AI 搜索、Cosmos DB、SQL 数据库和 PostgreSQL 等服务中实现强大的相似性搜索。
内容筛选 该系统在仇恨、性内容、暴力和自我伤害等类别中筛选用户输入和 AI 输出的有害内容,并支持多种语言。 监视使用模式以确保符合性。
LLM 自定义 提供模型适应技术:用于快速调整的提示工程、用于整合外部信息的RAG,以及用于教授模型特定任务的微调 —— 所有这些技术可以组合在一起,以便针对特定用例优化性能。

Azure AI 语言

Azure AI 语言 是一种基于云的服务,它提供自然语言处理(NLP)功能,用于理解和分析文本。 使用此服务可帮助使用基于 Web 的 Language Studio、REST API 和客户端库生成智能应用程序。

功能

下表提供了 Azure AI 语言中可用的功能列表。

能力 说明
自定义问题解答 查找用户输入的最合适答案,通常用于生成对话客户端应用程序,例如社交媒体应用程序、聊天机器人和支持语音的桌面应用程序。
自定义文本分类 用于构建自定义 AI 模型,以将非结构化文本文档分类到你定义的自定义类中。
对话语言理解 (CLU) 用于生成自定义自然语言理解模型,来预测传入言语的整体意向,并从中提取重要信息。
实体链接 消除非结构化文本中的实体(单词或短语)的身份的歧义,并返回指向维基百科的链接。
语言检测 检测文档是用哪种语言编写的,并返回各种语言、变体、方言和一些区域/文化语言的语言代码。
关键短语提取 评估并返回非结构化文本中的主要概念,并将其作为列表返回。
命名实体识别 (NER) 在多个预定义类别组中对非结构化文本中的实体(字词或短语)进行分类。 例如:人员、事件、地点、日期
业务流程工作流 用于连接对话语言理解 (CLU)
个人标识(PII)和健康(PHI)信息检测 识别、分类和编辑 非结构化文本文档对话脚本中的敏感信息。 例如:电话号码、电子邮件地址、标识形式
情绪分析和观点挖掘 可帮助你通过挖掘文本中有关积极情绪或消极情绪的线索,来了解用户对品牌或主题的看法,并可以将它们与文本的特定方面相关联。
综述 使用抽取式文本摘要生成文档摘要和对话听录。 它会提取共同表示原始内容中最重要或相关信息的句子。
健康文本分析 从非结构化文本(如医生的备注、出院摘要、临床文档和电子健康状况记录)中提取和标记相关医疗信息。 设计工作负载时,评估此云托管功能的处理位置和数据驻留,以确保它符合合规性预期。 某些工作负荷的容量可能会受到限制,以便将医疗保健数据发送到云托管的平台。 可以将此 API 用作 Docker 容器来托管在云中或本地自己的计算中,这有助于解决涉及 PaaS 的合规性问题。 有关详细信息,请参阅对运行状况容器使用文本分析

用例

下表提供了 Azure AI 语言服务可能用例的列表。

用例 可自定义*
预测用户输入的意图并从中提取信息
识别和/或编辑敏感信息,例如 PII
标识文本的写入语言
从临床/医疗文档中提取医疗信息,而无需构建模型
使用基于数据训练的模型从临床/医疗文档中提取医疗信息
在不创建自定义模型的情况下提取信息的类别
使用特定于数据的模型提取信息的类别
提取主要主题和重要短语
汇总文档
使用情绪分析对文本进行分类
使用自定义类对文本进行分类
将项分类为推理时提供的类别
将实体与知识库文章链接
了解问题和答案(常规)。
生成响应用户输入的对话应用程序
通过对话语言理解和问答功能连接应用

*如果某种功能是可自定义的,你可以使用我们的工具来训练 AI 模型,以专门适应你的数据。 否则,功能是预先配置的,这意味着它使用的 AI 模型无法更改。 你只需要发送数据,并在应用程序中使用该功能的输出即可。

Azure AI 翻译器

Azure AI Translator 是 Azure AI 服务系列的一部分的机器翻译服务。 翻译器为许多 Microsoft 产品和服务提供支持。

功能

下表提供了 Azure AI 翻译中可用的功能列表。

能力 说明
文本翻译 在支持的源语言和目标语言之间实时执行文本翻译。 创建 动态字典 并了解如何使用翻译器 API 防止翻译
文档翻译 异步批处理翻译:翻译批处理和复杂文件,同时保留原始文档的结构和格式。 批量翻译过程需要一个 Azure Blob 存储帐户,其中包含源文档和翻译文档的容器。
同步单文件翻译:单独翻译单个文档文件,或使用术语表文件翻译,同时保留原始文档的结构和格式。 文件翻译过程不需要 Azure Blob 存储帐户。 最终响应包含翻译后的文档,会直接返回给调用客户端。
自定义翻译器 构建自定义模型以翻译特定于领域和行业的语言、术语和样式。 为自定义翻译创建字典(短语或句子)。

用例

下表提供了 Azure AI 翻译服务可能用例的列表。

用例 文档
翻译行业特定的文本。 AI Services 自定义翻译器
翻译非特定于行业的通用文本。 什么是 Azure 文本翻译

Azure AI 文档智能

Azure AI 语言 是一种基于云的服务,它提供自然语言处理(NLP)功能,用于理解和分析文本。 使用此服务可帮助使用基于 Web 的 Language Studio、REST API 和客户端库生成智能应用程序。

功能

下表提供了 AI 文档智能服务中提供的某些功能的列表。

能力 说明
名片提取 文档智能名片模型将光学字符识别 (OCR) 功能与深度学习模型相结合,可从名片图像中分析和提取数据。 该 API 可分析打印的名片,提取名字、姓氏、公司名称、电子邮件地址和电话号码等关键信息,并返回结构化的 JSON 数据表示形式。
协定模型提取 文档智能合同模型使用光学字符识别 (OCR) 功能来分析和提取一组选定的重要合同实体中的关键字段和行项目。 合同可以采用各种格式和质量,包括手机拍摄的图像、扫描文档和数字 PDF。 API分析文档文本; 提取关键信息,例如当事人、司法管辖区、合同 ID 和标题;并返回结构化 JSON 数据表示。 该模型当前支持英语文档格式。
信用卡提取 文档智能信用卡/借记卡模型使用光学字符识别 (OCR) 功能来分析和提取信用卡和借记卡中的关键字段。 信用卡和借记卡可以采用各种格式和质量,包括手机拍摄的图像、扫描文档和数字 PDF。 API 分析文档文本;提取卡号、发卡行、到期日期等关键信息;并返回结构化 JSON 数据表示形式。 该模型当前支持英语文档格式。
医疗保险卡提取 文档智能医疗保险卡模型将光学字符识别 (OCR) 功能与深度学习模型相结合,可从美国医疗保险卡中分析和提取关键信息。 医疗保险卡是护理处理的关键文档,可对患者登记、金融保险范围信息、无现金付款和保险索赔处理进行数字分析。 医疗保险卡模型可分析医疗保险卡图像;提取保险公司、参保人、处方和组号等关键信息;以及返回结构化 JSON 表示形式。 医疗保险卡能够以各种格式和质量呈现,包括手机拍摄的图像、扫描文档和数字 PDF。
美国税务文档提取 文档智能合同模型使用光学字符识别 (OCR) 功能来分析和提取一组选定的税务文档中的关键字段和行项。 税务文档可以是各种格式和质量的,包括手机拍摄的图像、扫描的文档和数字 PDF。 该 API 可分析文档文本,提取客户姓名、帐单邮寄地址、截止日期和未付金额等关键信息,并返回结构化的 JSON 数据表示形式。 该模型目前支持某些英语税务文档格式。
更多... Azure AI 文档智能支持多种模型,让你能够向应用和流添加智能文档处理。 你可以使用预生成的特定于域的模型,或者训练根据特定业务需求和用例定制的自定义模型。 文档智能可与 REST API 或 Python、C#、Java 和 JavaScript 客户端库一起使用。

若要详细了解如何选择适用于你的方案的模型,请参阅 我应选择哪个模型?

后续步骤