如何使用 Qwen-Image-2512：在线体验 + Diffusers 本地部署 + 提示词模板

如果你最近刷到 Qwen-Image-2512，想搞清楚它为什么火、适合拿来做什么、以及怎么用官方推荐的方式跑出稳定效果，这篇会把关键信息一次讲清。

你会在这里看到：模型特点与开源信息、推荐的推理参数与分辨率、适用场景拆解，以及官方示例提示词（可直接复制）。

Qwen-Image-2512 快速事实（你可以直接引用）

模型类型：文本生成图片（Text-to-Image），属于 Qwen-Image 系列。
许可证：Qwen-Image 官方仓库明确写的是 Apache 2.0。
模型规模/架构：ComfyUI 文档将 Qwen-Image 描述为 20B 参数的 MMDiT（Multimodal Diffusion Transformer） 基座模型；2512 是该系列在 12 月发布的更新权重。
这次更新重点（2512）：
- 更真实的人像质感（皮肤纹理、发丝、表情语义更自然）
- 更细腻的自然纹理（水雾、植被、毛发等细节更丰富）
- 更强的文字渲染与排版（海报、PPT、信息图更容易“像排版”）

官方链接：

模型卡：https://huggingface.co/Qwen/Qwen-Image-2512
在线体验：https://huggingface.co/spaces/Qwen/Qwen-Image-2512
GitHub（Qwen-Image 系列）：https://github.com/QwenLM/Qwen-Image

Artifox 目前还不支持 Qwen-Image-2512。

所以本文会优先引导你去官方在线 Demo 使用；如果你只是想快速把图做成“可交付版本”（封面/海报/产品图），也可以先用我们站内的「图片创作」走模板工作流。后续接入模型后，我们会再更新这篇指南。

想先用更稳的工作流？模板起步更省时间

先在 Hugging Face 体验 Qwen-Image-2512；再用模板 + 小步迭代把产出变得可复用。

打开图片创作

适用场景：什么任务最值得用 2512？

你可以把 Qwen-Image-2512 当成一个偏“交付导向”的开源生图底座，尤其适合下面四类场景：

1) 写实人物（减少“AI 脸”）

它的优势不在“风格词堆叠”，而在 更像真实拍摄的质感和语义遵循。

2) 自然与材质纹理（毛发/水雾/植被/岩石）

这种细碎纹理通常最容易暴露模型短板，2512 的提升点正好在这里。

3) 带文字的图（海报、PPT、信息图、漫画分镜）

从官方示例看，它能更稳定地做出“排版结构”，并把文字融进画面，而不是像贴纸一样糊在上面。

4) 营销物料草案（可控的构图 + 清晰的留白）

如果你做的是 KV / Banner / 活动海报，最值钱的是：

结构清晰（留白、层级、对齐）
标题可读（短文案）

最快体验：先在线用起来（2 分钟）

打开官方 Hugging Face Space

https://huggingface.co/spaces/Qwen/Qwen-Image-2512

第一张别写长 prompt：先跑出“基线质感”

你可以直接复制下面任意一条（先求稳定）：

写实人像：Portrait photo, natural skin texture, soft indoor lighting, shallow depth of field, clean background
自然风景：A turquoise river in a lush canyon, detailed moss and ferns, waterfalls with mist, midday sunlight, no humans, photorealistic
海报草案：A minimal poster design of (主题), clean composition, leave space for a short headline

迭代规则：每次只改一个变量

固定：主体 + 构图/镜头 + 光线
只改一个点：表情 / 背景 / 道具 / 镜头距离

本地部署：Diffusers 官方用法（更适合可复现迭代）

Qwen-Image 官方仓库的 Quick Start 给了明确建议：

transformers >= 4.51.3（支持 Qwen2.5-VL）
安装最新 Diffusers（从 GitHub 安装）

pip install git+https://github.com/huggingface/diffusers

用哪个 Pipeline？

官方仓库示例里，2512 对应的是 QwenImagePipeline。

最小可用代码（含官方推荐比例表）

from diffusers import QwenImagePipeline
import torch

if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = QwenImagePipeline.from_pretrained("Qwen/Qwen-Image-2512", torch_dtype=torch_dtype).to(device)

aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1104),
    "3:4": (1104, 1472),
    "3:2": (1584, 1056),
    "2:3": (1056, 1584),
}

prompt = "Portrait photo, natural skin texture, soft indoor lighting, shallow depth of field"
negative_prompt = "低分辨率，低画质，肢体畸形，手指畸形，画面过饱和，蜡像感，人脸无细节，过度光滑，画面具有AI感。构图混乱。文字模糊，扭曲。"

width, height = aspect_ratios["4:3"]

image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device=device).manual_seed(42),
).images[0]

image.save("qwen-image-2512.png")

参数怎么选（别乱试）

num_inference_steps
- 步数越多通常越干净，但更慢。
- 建议起步：40–60（官方示例 50）。
true_cfg_scale
- 越大越“听话”，但过大可能变得不自然。
- 建议起步：3.5–5.0（官方示例 4.0）。
width/height
- 优先用官方给的比例表，稳定性更好。

官方提示词增强工具（如果你要批量出图）

Qwen-Image 官方仓库对 2512 明确推荐了提示词增强脚本：

src/examples/tools/prompt_utils_2512.py

如果你要做大量“同风格系列图”，建议看一下里面的 scaffold 思路。

开源权重与生态：你可能会遇到的“bf16/fp8/蒸馏版”怎么理解

在官方 Hugging Face/GitHub 之外，你也会在 ComfyUI 生态看到不同规格的权重分发（文档里提到 bf16、fp8、以及蒸馏版）。

建议你记住两条原则：

以 Qwen 官方发布为准（Hugging Face / GitHub / ModelScope）。
ComfyUI 生态里的 蒸馏/加速版本 可能很好用，但通常属于社区分发，优先当作“工程优化选项”，不要把它当成官方性能基线。

可直接复制的示例（按场景给你 6 套）

示例 1：更像随手拍的人像（减少塑料感）

A candid iPhone photo portrait, natural skin texture with subtle imperfections, soft indoor ambient lighting, shallow depth of field, unposed, realistic colors, clean background

示例 2：少年/校园氛围（更考验语义遵循）

A teenage boy in a summer school playground, soft fluffy short black hair, warm smile, hands in pockets, body leaning slightly forward, bright airy daylight, shallow depth of field, photorealistic

示例 3：宠物毛发细节

Ultra-realistic close-up photo of a golden retriever, fur strands clearly separated, soft daylight, sharp moist eyes, gentle bokeh background

示例 4：水雾与植被纹理

A turquoise river winding through a lush canyon, thick moss and dense ferns, multiple waterfalls with fine mist, sunlight filtering through canopy, no humans, no text, photorealistic

示例 5：海报标题（短文案 + 留白）

A minimal poster design about (主题). Clean composition. Leave a large empty area for the headline. High contrast. Add a short headline in clear sans-serif font: "(3–6 个词)"

示例 6：PPT 时间轴/信息图（结构先行）

A modern tech slide design, dark blue gradient background. Title at top center: "Qwen-Image-2512". A glowing horizontal timeline with 3 nodes. Each node connects to a rounded rectangle label with clear white text. Clean spacing, consistent alignment, high readability.

官方中文示例提示词（直接复制即可）

下面这些是官方示例风格的长提示词，适合用来测试 2512 的“写实质感/语义遵循/自然纹理/文字排版”。

书法与中文文字（画面内文字）

一位身着淡雅水粉色交领襦裙的年轻女子背对镜头而坐，俯身专注地手持毛笔在素白宣纸上书写“通義千問”四个遒劲汉字。古色古香的室内陈设典雅考究，案头错落摆放着青瓷茶盏与鎏金香炉，一缕熏香轻盈升腾；柔和光线洒落肩头，勾勒出她衣裙的柔美质感与专注神情，仿佛凝固了一段宁静温润的旧时光。

写实人像（质感与“生活感”快照）

一位东亚女性，约20-30岁，身材娇小，皮肤白皙如瓷，呈现冷白皮质感，水润光滑，面部轮廓柔和，眼神清澈灵动，眼妆自然清透，睫毛纤长卷翘，唇色为浅粉色，微微上扬的嘴角带着俏皮可爱的笑意。她拥有一头深黑色长发，发丝蓬松柔顺，自然垂落肩头，碎发轻拂脸颊，增添灵动感，发尾微卷，随性散落。身着浅色高质感休闲连衣裙，材质似丝绸或雪纺，搭配一顶贝雷帽，帽檐微微压低，凸显偶像气质。手腕佩戴多条精致手链，金属与珍珠元素交织，正自然展示于镜头前。背景为少女心爆棚的饰品店，店内装修精致，陈列琳琅满目，暖光灯与柔和自然光交织，角落一棵圣诞树点缀着彩灯与装饰物，整体氛围温馨浪漫，画面呈日常快照风格，构图随意却充满生活美感，8K高清摄影。

一位东亚女性，约20岁，身着白色高定蕾丝连衣裙，裙摆轻盈飘动，露出修长双腿与黑色细跟高跟鞋，发色乌黑，长发自然披肩，肌肤白皙如凝脂，唇色为水润朱红，眼神温柔含光，略带腼腆地望向镜头。她坐在咖啡馆窗边，右手轻扶杯沿，杯中是一杯带有爱心拉花的深棕色咖啡，桌旁放一本翻开的纸质书与一束淡粉色康乃馨。窗外阳光斜洒，照亮她半边脸庞，营造出温暖柔和的氛围。背景为暖色调木质窗框与浅米色窗帘，左侧贴有“圣诞快乐”字样贴纸，窗外可见一棵装饰精美的圣诞树，枝头挂满彩灯与小饰品，整体画面采用超广角拍摄，无畸变，32K高清摄影，呈现出静谧而浪漫的午后时光。图像中未出现其他文字。

一位东亚女性，约19岁，身形纤瘦，高鼻梁，黑色长发自然垂落。她身处温馨的咖啡馆内，木质桌面上摆放着一杯拉花咖啡、一块抹茶蛋糕和几张照片卡片。她身穿质感软糯的彩色条纹针织毛衣，纹理细腻，色彩柔和，凸显温暖氛围。她以手肘轻撑桌面，一手托着脸颊，姿态放松自然，脸上带着清甜微笑，眼神灵动而平静，目光或看向镜头或微微偏移，神情慵懒随性。阳光透过发丝洒在面部，肌肤呈现自然状态，无明显妆感。画面为俯视视角，整体光线柔和但略不均匀，存在轻微过曝与运动模糊，保留写实摄影风格的细微噪点，高光不过度溢出，阴影保留细节，构图随意，如iPhone随手抓拍，呈现出真实、松弛又治愈的少女日常瞬间。

野生动物与自然纹理

一只美洲豹潜伏在热带雨林的河岸边，压低健壮的身躯，深黄色皮毛上布满比普通豹子更大更黑的斑点，下颌线条强健有力。它目光专注地锁定水中动静，墨绿色河面清晰倒映出它的轮廓。背景是茂密潮湿的蕨类植物与交错缠绕的藤蔓，整体光线昏暗，氛围紧张而原始。图像中无任何文字、人像或人工标识。

一头雄性盘羊伫立在崎岖裸露的岩石山坡上，灰褐色皮毛粗硬浓密，身躯魁梧结实，肌肉线条分明。它最引人注目的是那对巨大、厚重且向外螺旋盘旋的角，彰显其野性力量。盘羊眼神警觉，目光锐利地扫视四周环境。背景为陡峭险峻的高山地貌，山体嶙峋，植被稀疏低矮，阳光充沛，整体画面凸显高山荒野的苍劲氛围与盘羊顽强的生命力。

夜景氛围（大场景与光影层次）

夜空下，璀璨银河如一条发光的河流横贯天际，无数繁星闪烁其间。下方是广袤无垠的沙漠，几座巨大的沙丘在星光映照下轮廓分明，线条柔和流畅。前景中一棵枯死的胡杨树挺立，枝干伸展成极具张力的剪影。整体画面色调深邃，光影对比鲜明，氛围辽阔、静谧，透出宇宙的浩瀚与苍凉。

做文字排版的核心技巧：

先结构后文案（两栏/时间轴/网格/对话框）
文案越短越稳（标题 > 段落）
干净背景 + 高对比度

常见坑（知道边界就能省很多次试错）

长段落文字：依然容易糊，建议拆成标题 + 要点。
超小字号 + 密集表格：容易变形，先做结构草案。
手部/复杂动作：先用半身/特写，再逐步加复杂度。

FAQ

Qwen-Image-2512 是开源的吗？什么协议？

它在 Hugging Face 公开发布，且 Qwen-Image 官方仓库注明许可证为 Apache 2.0。

哪里可以在线使用？

官方 Space：

https://huggingface.co/spaces/Qwen/Qwen-Image-2512

第一把用什么参数最稳？

比例先用 4:3 或 1:1
num_inference_steps = 50
true_cfg_scale = 4.0
短 prompt + 简单 negative prompt

Artifox 现在支持吗？

暂时不支持。本文会先引导你去官方在线 Demo 使用；后续接入后我们会更新。

先把工作流跑顺：模板 + 迭代更省时间

先在 Hugging Face 测 2512，上限看明白；再用模板把结果变成可复用的产出流程。

打开 /studio/image

Key Takeaways

Qwen-Image-2512 是 Qwen-Image 系列的 12 月更新，重点提升人像真实感、自然纹理、文字排版
在线体验：https://huggingface.co/spaces/Qwen/Qwen-Image-2512
本地跑：QwenImagePipeline + bfloat16（CUDA）+ steps≈50 + true_cfg_scale≈4.0
做文字：结构先行、短文案、干净背景、高对比