使用HuggingFace API在IRIS数据集上进行机器学习

一. 使用 HuggingFace API 在 IRIS 数据集上进行机器学习

HuggingFace API 是一个功能强大的工具，能够帮助开发者快速集成和部署机器学习模型。本文将详细介绍如何在 IRIS 数据集上使用 HuggingFace API 进行机器学习，包括模型的下载、配置、调用和测试等内容。

二. 启动生产环境

在开始之前，请确保已安装 Docker 和 Docker Compose。启动生产环境的步骤如下：

打开终端，导航到 iris-local-ml 文件夹。
输入以下命令以启动生产环境：
```
docker-compose up
```

三. 进入和关闭生产环境

进入生产环境：生产环境启动后，可通过终端或管理控制台进入并进行操作。
关闭生产环境：完成操作后，可通过以下命令关闭生产环境：
```
docker-compose down
```

四. HuggingFace Pipeline 简介

HuggingFace Pipeline 是一个强大的工具，它能自动分析模型文件夹并选择合适的框架（如 PyTorch、Keras、TensorFlow 或 JAX）。Pipeline 通过 AutoModel 加载模型，并根据任务类型自动处理输入、令牌化、特征提取等操作，最终返回可直接使用的解码结果，极大简化了模型调用流程。

五. 测试 HuggingFace 模型

打开 IRIS 测试窗口。
在请求类型中选择：
```
Grongier.PEX.Message
```
在 classname 中输入相应的类名。

提供 JSON 格式的参数，例如调用 GPT2 模型：

{
   "api_url": "https://api-inference.huggingface.co/models/gpt2",
   "payload": "请告诉我们您的详细信息",
   "api_key": "----------------------"
}

点击 Visual Trace 查看详细日志。

注意：使用 HuggingFace API 之前需要申请 API 密钥（免费注册即可）。更改 api_url 可测试其他 HuggingFace 模型，但可能需要调整 payload 参数。

六. 使用自定义模型

1. 配置自定义模型

如果您有自己的模型，可按以下步骤配置：

将模型文件放置在路径 src/model/yourmodelname/ 中。
配置模型参数：
```
name=yourmodelname
task=文本生成
```
除 name 和 model_url 外的所有配置将进入 Pipeline 配置。
使用文件夹中的配置文件创建 Pipeline。

2. 测试自定义模型

调用自定义模型示例 JSON 参数：

{
    "text_inputs": "不幸的是，结果",
    "max_length": 100,
    "num_return_sequences": 3
}

配置完成后，点击 Visual Trace 查看详细日志。

七. 下载和配置 HuggingFace 模型

1. 设置 HuggingFace 模型

下载并配置模型步骤：

打开终端，导航到 iris-local-ml 文件夹。
输入以下命令：
```
docker-compose up
```

配置模型参数：

model_url=https://huggingface.co/gpt2
name=gpt2
task=文本生成

2. 其他模型配置示例

Camembert-ner

name=camembert-ner
model_url=https://huggingface.co/Jean-Baptiste/camembert-ner
task=ner
aggregation_strategy=简单

Bert-base-uncased

name=bert-base-uncased
model_url=https://huggingface.co/bert-base-uncased
task=填写掩码

Detr-resnet-50

name=detr-resnet-50
model_url=https://huggingface.co/facebook/detr-resnet-50
task=对象检测

非 name 或 model_url 的配置将自动进入 Pipeline 配置。

3. 测试不同模型

调用示例 JSON 参数：

GPT2

{
  "text_inputs": "George Washington lived",
  "max_length": 30,
  "num_return_sequences": 3
}

Camembert-ner

{
  "text_inputs": "乔治华盛顿住在[面具]"
}

Detr-resnet-50

{
  "url": "http://images.cocodataset.org/val2017/000000039769.jpg"
}

首次下载模型后，系统会缓存模型文件，缺少时自动重新下载。

八. 总结

本文详细介绍了如何在 IRIS 数据集上使用 HuggingFace API 进行机器学习。无论是调用预训练模型，还是使用自定义模型，Pipeline 工具都能帮助您快速完成模型加载、配置和测试。通过本文方法，开发者可高效地在 IRIS 环境中实现机器学习功能，为业务分析和应用开发提供强大支持。

原文链接

Machine Learning no IRIS usando API HuggingFace e/ou modelos de ML no local | InterSystems Community