跳至主要内容
返回指南·图片生成

如何使用 Qwen-Image-2512:在线体验 + Diffusers 本地部署 + 提示词模板

·12 分钟
如何使用 Qwen-Image-2512:在线体验 + Diffusers 本地部署 + 提示词模板

如果你最近刷到 Qwen-Image-2512,想搞清楚它为什么火、适合拿来做什么、以及怎么用官方推荐的方式跑出稳定效果,这篇会把关键信息一次讲清。

你会在这里看到:模型特点与开源信息、推荐的推理参数与分辨率、适用场景拆解,以及官方示例提示词(可直接复制)。

Qwen-Image-2512 快速事实(你可以直接引用)

  • 模型类型:文本生成图片(Text-to-Image),属于 Qwen-Image 系列。
  • 许可证:Qwen-Image 官方仓库明确写的是 Apache 2.0
  • 模型规模/架构:ComfyUI 文档将 Qwen-Image 描述为 20B 参数的 MMDiT(Multimodal Diffusion Transformer) 基座模型;2512 是该系列在 12 月发布的更新权重。
  • 这次更新重点(2512)
    • 更真实的人像质感(皮肤纹理、发丝、表情语义更自然)
    • 更细腻的自然纹理(水雾、植被、毛发等细节更丰富)
    • 更强的文字渲染与排版(海报、PPT、信息图更容易“像排版”)

官方链接:

Artifox 目前还不支持 Qwen-Image-2512。

所以本文会优先引导你去官方在线 Demo 使用;如果你只是想快速把图做成“可交付版本”(封面/海报/产品图),也可以先用我们站内的「图片创作」走模板工作流。后续接入模型后,我们会再更新这篇指南。

想先用更稳的工作流?模板起步更省时间

先在 Hugging Face 体验 Qwen-Image-2512;再用模板 + 小步迭代把产出变得可复用。

打开图片创作

适用场景:什么任务最值得用 2512?

你可以把 Qwen-Image-2512 当成一个偏“交付导向”的开源生图底座,尤其适合下面四类场景:

1) 写实人物(减少“AI 脸”)

它的优势不在“风格词堆叠”,而在 更像真实拍摄的质感和语义遵循

2) 自然与材质纹理(毛发/水雾/植被/岩石)

这种细碎纹理通常最容易暴露模型短板,2512 的提升点正好在这里。

3) 带文字的图(海报、PPT、信息图、漫画分镜)

从官方示例看,它能更稳定地做出“排版结构”,并把文字融进画面,而不是像贴纸一样糊在上面。

4) 营销物料草案(可控的构图 + 清晰的留白)

如果你做的是 KV / Banner / 活动海报,最值钱的是:

  • 结构清晰(留白、层级、对齐)
  • 标题可读(短文案)

最快体验:先在线用起来(2 分钟)

2

第一张别写长 prompt:先跑出“基线质感”

你可以直接复制下面任意一条(先求稳定):

  • 写实人像Portrait photo, natural skin texture, soft indoor lighting, shallow depth of field, clean background
  • 自然风景A turquoise river in a lush canyon, detailed moss and ferns, waterfalls with mist, midday sunlight, no humans, photorealistic
  • 海报草案A minimal poster design of (主题), clean composition, leave space for a short headline
3

迭代规则:每次只改一个变量

  • 固定:主体 + 构图/镜头 + 光线
  • 只改一个点:表情 / 背景 / 道具 / 镜头距离

本地部署:Diffusers 官方用法(更适合可复现迭代)

Qwen-Image 官方仓库的 Quick Start 给了明确建议:

  • transformers >= 4.51.3(支持 Qwen2.5-VL)
  • 安装最新 Diffusers(从 GitHub 安装)
pip install git+https://github.com/huggingface/diffusers

用哪个 Pipeline?

官方仓库示例里,2512 对应的是 QwenImagePipeline

最小可用代码(含官方推荐比例表)

from diffusers import QwenImagePipeline
import torch

if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = QwenImagePipeline.from_pretrained("Qwen/Qwen-Image-2512", torch_dtype=torch_dtype).to(device)

aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1104),
    "3:4": (1104, 1472),
    "3:2": (1584, 1056),
    "2:3": (1056, 1584),
}

prompt = "Portrait photo, natural skin texture, soft indoor lighting, shallow depth of field"
negative_prompt = "低分辨率,低画质,肢体畸形,手指畸形,画面过饱和,蜡像感,人脸无细节,过度光滑,画面具有AI感。构图混乱。文字模糊,扭曲。"

width, height = aspect_ratios["4:3"]

image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device=device).manual_seed(42),
).images[0]

image.save("qwen-image-2512.png")

参数怎么选(别乱试)

  • num_inference_steps
    • 步数越多通常越干净,但更慢。
    • 建议起步:40–60(官方示例 50)。
  • true_cfg_scale
    • 越大越“听话”,但过大可能变得不自然。
    • 建议起步:3.5–5.0(官方示例 4.0)。
  • width/height
    • 优先用官方给的比例表,稳定性更好。

官方提示词增强工具(如果你要批量出图)

Qwen-Image 官方仓库对 2512 明确推荐了提示词增强脚本:

  • src/examples/tools/prompt_utils_2512.py

如果你要做大量“同风格系列图”,建议看一下里面的 scaffold 思路。

开源权重与生态:你可能会遇到的“bf16/fp8/蒸馏版”怎么理解

在官方 Hugging Face/GitHub 之外,你也会在 ComfyUI 生态看到不同规格的权重分发(文档里提到 bf16、fp8、以及蒸馏版)。

建议你记住两条原则:

  1. 以 Qwen 官方发布为准(Hugging Face / GitHub / ModelScope)。
  2. ComfyUI 生态里的 蒸馏/加速版本 可能很好用,但通常属于社区分发,优先当作“工程优化选项”,不要把它当成官方性能基线。

可直接复制的示例(按场景给你 6 套)

示例 1:更像随手拍的人像(减少塑料感)

A candid iPhone photo portrait, natural skin texture with subtle imperfections, soft indoor ambient lighting, shallow depth of field, unposed, realistic colors, clean background

示例 2:少年/校园氛围(更考验语义遵循)

A teenage boy in a summer school playground, soft fluffy short black hair, warm smile, hands in pockets, body leaning slightly forward, bright airy daylight, shallow depth of field, photorealistic

示例 3:宠物毛发细节

Ultra-realistic close-up photo of a golden retriever, fur strands clearly separated, soft daylight, sharp moist eyes, gentle bokeh background

示例 4:水雾与植被纹理

A turquoise river winding through a lush canyon, thick moss and dense ferns, multiple waterfalls with fine mist, sunlight filtering through canopy, no humans, no text, photorealistic

示例 5:海报标题(短文案 + 留白)

A minimal poster design about (主题). Clean composition. Leave a large empty area for the headline. High contrast. Add a short headline in clear sans-serif font: "(3–6 个词)"

示例 6:PPT 时间轴/信息图(结构先行)

A modern tech slide design, dark blue gradient background. Title at top center: "Qwen-Image-2512". A glowing horizontal timeline with 3 nodes. Each node connects to a rounded rectangle label with clear white text. Clean spacing, consistent alignment, high readability.

官方中文示例提示词(直接复制即可)

下面这些是官方示例风格的长提示词,适合用来测试 2512 的“写实质感/语义遵循/自然纹理/文字排版”。

书法与中文文字(画面内文字)

一位身着淡雅水粉色交领襦裙的年轻女子背对镜头而坐,俯身专注地手持毛笔在素白宣纸上书写“通義千問”四个遒劲汉字。古色古香的室内陈设典雅考究,案头错落摆放着青瓷茶盏与鎏金香炉,一缕熏香轻盈升腾;柔和光线洒落肩头,勾勒出她衣裙的柔美质感与专注神情,仿佛凝固了一段宁静温润的旧时光。

写实人像(质感与“生活感”快照)

一位东亚女性,约20-30岁,身材娇小,皮肤白皙如瓷,呈现冷白皮质感,水润光滑,面部轮廓柔和,眼神清澈灵动,眼妆自然清透,睫毛纤长卷翘,唇色为浅粉色,微微上扬的嘴角带着俏皮可爱的笑意。她拥有一头深黑色长发,发丝蓬松柔顺,自然垂落肩头,碎发轻拂脸颊,增添灵动感,发尾微卷,随性散落。身着浅色高质感休闲连衣裙,材质似丝绸或雪纺,搭配一顶贝雷帽,帽檐微微压低,凸显偶像气质。手腕佩戴多条精致手链,金属与珍珠元素交织,正自然展示于镜头前。背景为少女心爆棚的饰品店,店内装修精致,陈列琳琅满目,暖光灯与柔和自然光交织,角落一棵圣诞树点缀着彩灯与装饰物,整体氛围温馨浪漫,画面呈日常快照风格,构图随意却充满生活美感,8K高清摄影。
一位东亚女性,约20岁,身着白色高定蕾丝连衣裙,裙摆轻盈飘动,露出修长双腿与黑色细跟高跟鞋,发色乌黑,长发自然披肩,肌肤白皙如凝脂,唇色为水润朱红,眼神温柔含光,略带腼腆地望向镜头。她坐在咖啡馆窗边,右手轻扶杯沿,杯中是一杯带有爱心拉花的深棕色咖啡,桌旁放一本翻开的纸质书与一束淡粉色康乃馨。窗外阳光斜洒,照亮她半边脸庞,营造出温暖柔和的氛围。背景为暖色调木质窗框与浅米色窗帘,左侧贴有“圣诞快乐”字样贴纸,窗外可见一棵装饰精美的圣诞树,枝头挂满彩灯与小饰品,整体画面采用超广角拍摄,无畸变,32K高清摄影,呈现出静谧而浪漫的午后时光。图像中未出现其他文字。
一位东亚女性,约19岁,身形纤瘦,高鼻梁,黑色长发自然垂落。她身处温馨的咖啡馆内,木质桌面上摆放着一杯拉花咖啡、一块抹茶蛋糕和几张照片卡片。她身穿质感软糯的彩色条纹针织毛衣,纹理细腻,色彩柔和,凸显温暖氛围。她以手肘轻撑桌面,一手托着脸颊,姿态放松自然,脸上带着清甜微笑,眼神灵动而平静,目光或看向镜头或微微偏移,神情慵懒随性。阳光透过发丝洒在面部,肌肤呈现自然状态,无明显妆感。画面为俯视视角,整体光线柔和但略不均匀,存在轻微过曝与运动模糊,保留写实摄影风格的细微噪点,高光不过度溢出,阴影保留细节,构图随意,如iPhone随手抓拍,呈现出真实、松弛又治愈的少女日常瞬间。

野生动物与自然纹理

一只美洲豹潜伏在热带雨林的河岸边,压低健壮的身躯,深黄色皮毛上布满比普通豹子更大更黑的斑点,下颌线条强健有力。它目光专注地锁定水中动静,墨绿色河面清晰倒映出它的轮廓。背景是茂密潮湿的蕨类植物与交错缠绕的藤蔓,整体光线昏暗,氛围紧张而原始。图像中无任何文字、人像或人工标识。
一头雄性盘羊伫立在崎岖裸露的岩石山坡上,灰褐色皮毛粗硬浓密,身躯魁梧结实,肌肉线条分明。它最引人注目的是那对巨大、厚重且向外螺旋盘旋的角,彰显其野性力量。盘羊眼神警觉,目光锐利地扫视四周环境。背景为陡峭险峻的高山地貌,山体嶙峋,植被稀疏低矮,阳光充沛,整体画面凸显高山荒野的苍劲氛围与盘羊顽强的生命力。

夜景氛围(大场景与光影层次)

夜空下,璀璨银河如一条发光的河流横贯天际,无数繁星闪烁其间。下方是广袤无垠的沙漠,几座巨大的沙丘在星光映照下轮廓分明,线条柔和流畅。前景中一棵枯死的胡杨树挺立,枝干伸展成极具张力的剪影。整体画面色调深邃,光影对比鲜明,氛围辽阔、静谧,透出宇宙的浩瀚与苍凉。

做文字排版的核心技巧:

  • 先结构后文案(两栏/时间轴/网格/对话框)
  • 文案越短越稳(标题 > 段落)
  • 干净背景 + 高对比度

常见坑(知道边界就能省很多次试错)

  • 长段落文字:依然容易糊,建议拆成标题 + 要点。
  • 超小字号 + 密集表格:容易变形,先做结构草案。
  • 手部/复杂动作:先用半身/特写,再逐步加复杂度。

FAQ

Qwen-Image-2512 是开源的吗?什么协议?

它在 Hugging Face 公开发布,且 Qwen-Image 官方仓库注明许可证为 Apache 2.0

哪里可以在线使用?

官方 Space:

https://huggingface.co/spaces/Qwen/Qwen-Image-2512

第一把用什么参数最稳?

  • 比例先用 4:31:1
  • num_inference_steps = 50
  • true_cfg_scale = 4.0
  • 短 prompt + 简单 negative prompt

Artifox 现在支持吗?

暂时不支持。本文会先引导你去官方在线 Demo 使用;后续接入后我们会更新。

先把工作流跑顺:模板 + 迭代更省时间

先在 Hugging Face 测 2512,上限看明白;再用模板把结果变成可复用的产出流程。

打开 /studio/image

Key Takeaways

  • Qwen-Image-2512 是 Qwen-Image 系列的 12 月更新,重点提升人像真实感、自然纹理、文字排版
  • 在线体验:https://huggingface.co/spaces/Qwen/Qwen-Image-2512
  • 本地跑:QwenImagePipeline + bfloat16(CUDA)+ steps≈50 + true_cfg_scale≈4.0
  • 做文字:结构先行、短文案、干净背景、高对比