PixArt-α API 价格与使用指南

PixArt-α 简介

PixArt-α 是一种创新的文本到图像（T2I）扩散模型，由华为诺亚方舟实验室等研究机构联合开发。该模型的设计初衷是降低训练成本和碳排放，同时提供高质量的图像生成能力。PixArt-α 的训练时间仅为 Stable Diffusion v1.5 的 10.8%，且支持生成高达 1024×1024 分辨率的图像，训练成本仅为 26,000 美元。

PixArt-α 样本展示

PixArt-α 的出现为Transformer 架构和高信息量的数据。

PixArt-α 的核心设计与功能

高效的 T2I Transformer 架构

PixArt-α 采用了 Diffusion Transformer (DiT) 作为基础架构，并创新地提出了几个专门的设计方案来处理 T2I 任务。其架构中加入了多头交叉注意力层，能够灵活地与从语言模型中提取的文本特征进行交互。此外，通过 AdaLN-single 模块，PixArt-α 降低了模型的参数量，同时保持了高效的生成能力。

训练策略的分解

PixArt-α 的训练策略被分解为三个独特的步骤：像素间依赖学习、文本图像对齐、图像美学质量提升。通过这些策略，PixArt-α 在图像质量、艺术性和语义控制方面表现出色。

高信息密度数据

PixArt-α 强调文本图像对中概念密度的重要性，利用大视觉语言模型自动标记密集的伪文本标签以协助文本图像对齐学习。通过这种方法，PixArt-α 能够在单次训练迭代中有效学习更多的概念。

LAION 和 SAM 数据集对比

PixArt-α 的应用与优势

与其他模型的比较

在 PixArt-α 的开发过程中，研究团队进行了大量的实验，结果表明其在图像生成质量上达到了接近商业应用的标准。在与 Midjourney、Stable Diffusion 等模型的对比中，PixArt-α 展现了优越的性能。

可视化验证

为了验证 PixArt-α 的图像生成能力，研究团队进行了多项可视化测试。结果显示，PixArt-α 能够在不进行 cherry-pick 的情况下，生成高质量的图像。

PixArt-α 与 Midjourney 比较

如何使用 PixArt-α

环境设置

在使用 PixArt-α 之前，需确保安装 Nvidia 驱动程序和 Anaconda。创建 Python 环境并安装所有主要依赖项：

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

运行 PixArt-α

以下是使用 PixArt-α 的简单代码示例：

image.save(f"Sigma_{i}.png")

pipeline = PixArtSigmaPipeline.from_pretrained(

    "PixArt-alpha/PixArt-Sigma-XL-2-1024-MS", torch_dtype=torch.float16

)



quantize(pipeline.transformer, weights=qint8)

freeze(pipeline.transformer)



quantize(pipeline.text_encoder, weights=qint4, exclude="proj_out")

freeze(pipeline.text_encoder)



pipe = pipeline.to("cuda")



for i in range(2):

    generator = torch.Generator(device="cpu").manual_seed(i)



    prompt = "赛博朋克城市风景，小黑乌鸦，霓虹灯，黑暗小巷，摩天大楼，未来主义，鲜艳的色彩，高对比度，高度细致"



    image = pipe(prompt, height=512, width=768, guidance_scale=3.5, generator=generator).images[0]



    image.save(f"Sigma_{i}.png")

生成与部署

PixArt-α 的生成时间在 RTX 3080 GPU 上为 6 秒。若在旧机器上部署 PixArt Sigma，可以使用 HTMX 和 Tailwind 提供用户界面，请求处理，Celery Worker 进行图像生成，Redis 进行消息通信，GCS 存储生成的图像。

应用程序演示