如果你最近刷到 Qwen-Image-2512,想搞清楚它为什么火、适合拿来做什么、以及怎么用官方推荐的方式跑出稳定效果,这篇会把关键信息一次讲清。
你会在这里看到:模型特点与开源信息、推荐的推理参数与分辨率、适用场景拆解,以及官方示例提示词(可直接复制)。
Qwen-Image-2512 快速事实(你可以直接引用)
- 模型类型:文本生成图片(Text-to-Image),属于 Qwen-Image 系列。
- 许可证:Qwen-Image 官方仓库明确写的是 Apache 2.0。
- 模型规模/架构:ComfyUI 文档将 Qwen-Image 描述为 20B 参数的 MMDiT(Multimodal Diffusion Transformer) 基座模型;
2512是该系列在 12 月发布的更新权重。 - 这次更新重点(2512):
- 更真实的人像质感(皮肤纹理、发丝、表情语义更自然)
- 更细腻的自然纹理(水雾、植被、毛发等细节更丰富)
- 更强的文字渲染与排版(海报、PPT、信息图更容易“像排版”)
官方链接:
- 模型卡:https://huggingface.co/Qwen/Qwen-Image-2512
- 在线体验:https://huggingface.co/spaces/Qwen/Qwen-Image-2512
- GitHub(Qwen-Image 系列):https://github.com/QwenLM/Qwen-Image
Artifox 目前还不支持 Qwen-Image-2512。
所以本文会优先引导你去官方在线 Demo 使用;如果你只是想快速把图做成“可交付版本”(封面/海报/产品图),也可以先用我们站内的「图片创作」走模板工作流。后续接入模型后,我们会再更新这篇指南。
适用场景:什么任务最值得用 2512?
你可以把 Qwen-Image-2512 当成一个偏“交付导向”的开源生图底座,尤其适合下面四类场景:
1) 写实人物(减少“AI 脸”)
它的优势不在“风格词堆叠”,而在 更像真实拍摄的质感和语义遵循。
2) 自然与材质纹理(毛发/水雾/植被/岩石)
这种细碎纹理通常最容易暴露模型短板,2512 的提升点正好在这里。
3) 带文字的图(海报、PPT、信息图、漫画分镜)
从官方示例看,它能更稳定地做出“排版结构”,并把文字融进画面,而不是像贴纸一样糊在上面。
4) 营销物料草案(可控的构图 + 清晰的留白)
如果你做的是 KV / Banner / 活动海报,最值钱的是:
- 结构清晰(留白、层级、对齐)
- 标题可读(短文案)
最快体验:先在线用起来(2 分钟)
第一张别写长 prompt:先跑出“基线质感”
你可以直接复制下面任意一条(先求稳定):
- 写实人像:
Portrait photo, natural skin texture, soft indoor lighting, shallow depth of field, clean background - 自然风景:
A turquoise river in a lush canyon, detailed moss and ferns, waterfalls with mist, midday sunlight, no humans, photorealistic - 海报草案:
A minimal poster design of (主题), clean composition, leave space for a short headline
迭代规则:每次只改一个变量
- 固定:主体 + 构图/镜头 + 光线
- 只改一个点:表情 / 背景 / 道具 / 镜头距离
本地部署:Diffusers 官方用法(更适合可复现迭代)
Qwen-Image 官方仓库的 Quick Start 给了明确建议:
transformers >= 4.51.3(支持 Qwen2.5-VL)- 安装最新 Diffusers(从 GitHub 安装)
pip install git+https://github.com/huggingface/diffusers
用哪个 Pipeline?
官方仓库示例里,2512 对应的是 QwenImagePipeline。
最小可用代码(含官方推荐比例表)
from diffusers import QwenImagePipeline
import torch
if torch.cuda.is_available():
torch_dtype = torch.bfloat16
device = "cuda"
else:
torch_dtype = torch.float32
device = "cpu"
pipe = QwenImagePipeline.from_pretrained("Qwen/Qwen-Image-2512", torch_dtype=torch_dtype).to(device)
aspect_ratios = {
"1:1": (1328, 1328),
"16:9": (1664, 928),
"9:16": (928, 1664),
"4:3": (1472, 1104),
"3:4": (1104, 1472),
"3:2": (1584, 1056),
"2:3": (1056, 1584),
}
prompt = "Portrait photo, natural skin texture, soft indoor lighting, shallow depth of field"
negative_prompt = "低分辨率,低画质,肢体畸形,手指畸形,画面过饱和,蜡像感,人脸无细节,过度光滑,画面具有AI感。构图混乱。文字模糊,扭曲。"
width, height = aspect_ratios["4:3"]
image = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=width,
height=height,
num_inference_steps=50,
true_cfg_scale=4.0,
generator=torch.Generator(device=device).manual_seed(42),
).images[0]
image.save("qwen-image-2512.png")
参数怎么选(别乱试)
num_inference_steps- 步数越多通常越干净,但更慢。
- 建议起步:
40–60(官方示例50)。
true_cfg_scale- 越大越“听话”,但过大可能变得不自然。
- 建议起步:
3.5–5.0(官方示例4.0)。
width/height- 优先用官方给的比例表,稳定性更好。
官方提示词增强工具(如果你要批量出图)
Qwen-Image 官方仓库对 2512 明确推荐了提示词增强脚本:
src/examples/tools/prompt_utils_2512.py
如果你要做大量“同风格系列图”,建议看一下里面的 scaffold 思路。
开源权重与生态:你可能会遇到的“bf16/fp8/蒸馏版”怎么理解
在官方 Hugging Face/GitHub 之外,你也会在 ComfyUI 生态看到不同规格的权重分发(文档里提到 bf16、fp8、以及蒸馏版)。
建议你记住两条原则:
- 以 Qwen 官方发布为准(Hugging Face / GitHub / ModelScope)。
- ComfyUI 生态里的 蒸馏/加速版本 可能很好用,但通常属于社区分发,优先当作“工程优化选项”,不要把它当成官方性能基线。
可直接复制的示例(按场景给你 6 套)
示例 1:更像随手拍的人像(减少塑料感)
A candid iPhone photo portrait, natural skin texture with subtle imperfections, soft indoor ambient lighting, shallow depth of field, unposed, realistic colors, clean background
示例 2:少年/校园氛围(更考验语义遵循)
A teenage boy in a summer school playground, soft fluffy short black hair, warm smile, hands in pockets, body leaning slightly forward, bright airy daylight, shallow depth of field, photorealistic
示例 3:宠物毛发细节
Ultra-realistic close-up photo of a golden retriever, fur strands clearly separated, soft daylight, sharp moist eyes, gentle bokeh background
示例 4:水雾与植被纹理
A turquoise river winding through a lush canyon, thick moss and dense ferns, multiple waterfalls with fine mist, sunlight filtering through canopy, no humans, no text, photorealistic
示例 5:海报标题(短文案 + 留白)
A minimal poster design about (主题). Clean composition. Leave a large empty area for the headline. High contrast. Add a short headline in clear sans-serif font: "(3–6 个词)"
示例 6:PPT 时间轴/信息图(结构先行)
A modern tech slide design, dark blue gradient background. Title at top center: "Qwen-Image-2512". A glowing horizontal timeline with 3 nodes. Each node connects to a rounded rectangle label with clear white text. Clean spacing, consistent alignment, high readability.
官方中文示例提示词(直接复制即可)
下面这些是官方示例风格的长提示词,适合用来测试 2512 的“写实质感/语义遵循/自然纹理/文字排版”。
书法与中文文字(画面内文字)
一位身着淡雅水粉色交领襦裙的年轻女子背对镜头而坐,俯身专注地手持毛笔在素白宣纸上书写“通義千問”四个遒劲汉字。古色古香的室内陈设典雅考究,案头错落摆放着青瓷茶盏与鎏金香炉,一缕熏香轻盈升腾;柔和光线洒落肩头,勾勒出她衣裙的柔美质感与专注神情,仿佛凝固了一段宁静温润的旧时光。
写实人像(质感与“生活感”快照)
一位东亚女性,约20-30岁,身材娇小,皮肤白皙如瓷,呈现冷白皮质感,水润光滑,面部轮廓柔和,眼神清澈灵动,眼妆自然清透,睫毛纤长卷翘,唇色为浅粉色,微微上扬的嘴角带着俏皮可爱的笑意。她拥有一头深黑色长发,发丝蓬松柔顺,自然垂落肩头,碎发轻拂脸颊,增添灵动感,发尾微卷,随性散落。身着浅色高质感休闲连衣裙,材质似丝绸或雪纺,搭配一顶贝雷帽,帽檐微微压低,凸显偶像气质。手腕佩戴多条精致手链,金属与珍珠元素交织,正自然展示于镜头前。背景为少女心爆棚的饰品店,店内装修精致,陈列琳琅满目,暖光灯与柔和自然光交织,角落一棵圣诞树点缀着彩灯与装饰物,整体氛围温馨浪漫,画面呈日常快照风格,构图随意却充满生活美感,8K高清摄影。
一位东亚女性,约20岁,身着白色高定蕾丝连衣裙,裙摆轻盈飘动,露出修长双腿与黑色细跟高跟鞋,发色乌黑,长发自然披肩,肌肤白皙如凝脂,唇色为水润朱红,眼神温柔含光,略带腼腆地望向镜头。她坐在咖啡馆窗边,右手轻扶杯沿,杯中是一杯带有爱心拉花的深棕色咖啡,桌旁放一本翻开的纸质书与一束淡粉色康乃馨。窗外阳光斜洒,照亮她半边脸庞,营造出温暖柔和的氛围。背景为暖色调木质窗框与浅米色窗帘,左侧贴有“圣诞快乐”字样贴纸,窗外可见一棵装饰精美的圣诞树,枝头挂满彩灯与小饰品,整体画面采用超广角拍摄,无畸变,32K高清摄影,呈现出静谧而浪漫的午后时光。图像中未出现其他文字。
一位东亚女性,约19岁,身形纤瘦,高鼻梁,黑色长发自然垂落。她身处温馨的咖啡馆内,木质桌面上摆放着一杯拉花咖啡、一块抹茶蛋糕和几张照片卡片。她身穿质感软糯的彩色条纹针织毛衣,纹理细腻,色彩柔和,凸显温暖氛围。她以手肘轻撑桌面,一手托着脸颊,姿态放松自然,脸上带着清甜微笑,眼神灵动而平静,目光或看向镜头或微微偏移,神情慵懒随性。阳光透过发丝洒在面部,肌肤呈现自然状态,无明显妆感。画面为俯视视角,整体光线柔和但略不均匀,存在轻微过曝与运动模糊,保留写实摄影风格的细微噪点,高光不过度溢出,阴影保留细节,构图随意,如iPhone随手抓拍,呈现出真实、松弛又治愈的少女日常瞬间。
野生动物与自然纹理
一只美洲豹潜伏在热带雨林的河岸边,压低健壮的身躯,深黄色皮毛上布满比普通豹子更大更黑的斑点,下颌线条强健有力。它目光专注地锁定水中动静,墨绿色河面清晰倒映出它的轮廓。背景是茂密潮湿的蕨类植物与交错缠绕的藤蔓,整体光线昏暗,氛围紧张而原始。图像中无任何文字、人像或人工标识。
一头雄性盘羊伫立在崎岖裸露的岩石山坡上,灰褐色皮毛粗硬浓密,身躯魁梧结实,肌肉线条分明。它最引人注目的是那对巨大、厚重且向外螺旋盘旋的角,彰显其野性力量。盘羊眼神警觉,目光锐利地扫视四周环境。背景为陡峭险峻的高山地貌,山体嶙峋,植被稀疏低矮,阳光充沛,整体画面凸显高山荒野的苍劲氛围与盘羊顽强的生命力。
夜景氛围(大场景与光影层次)
夜空下,璀璨银河如一条发光的河流横贯天际,无数繁星闪烁其间。下方是广袤无垠的沙漠,几座巨大的沙丘在星光映照下轮廓分明,线条柔和流畅。前景中一棵枯死的胡杨树挺立,枝干伸展成极具张力的剪影。整体画面色调深邃,光影对比鲜明,氛围辽阔、静谧,透出宇宙的浩瀚与苍凉。
做文字排版的核心技巧:
- 先结构后文案(两栏/时间轴/网格/对话框)
- 文案越短越稳(标题 > 段落)
- 干净背景 + 高对比度
常见坑(知道边界就能省很多次试错)
- 长段落文字:依然容易糊,建议拆成标题 + 要点。
- 超小字号 + 密集表格:容易变形,先做结构草案。
- 手部/复杂动作:先用半身/特写,再逐步加复杂度。
FAQ
Qwen-Image-2512 是开源的吗?什么协议?
它在 Hugging Face 公开发布,且 Qwen-Image 官方仓库注明许可证为 Apache 2.0。
哪里可以在线使用?
官方 Space:
https://huggingface.co/spaces/Qwen/Qwen-Image-2512
第一把用什么参数最稳?
- 比例先用
4:3或1:1 num_inference_steps = 50true_cfg_scale = 4.0- 短 prompt + 简单 negative prompt
Artifox 现在支持吗?
暂时不支持。本文会先引导你去官方在线 Demo 使用;后续接入后我们会更新。
Key Takeaways
- Qwen-Image-2512 是 Qwen-Image 系列的 12 月更新,重点提升人像真实感、自然纹理、文字排版
- 在线体验:https://huggingface.co/spaces/Qwen/Qwen-Image-2512
- 本地跑:
QwenImagePipeline+bfloat16(CUDA)+steps≈50+true_cfg_scale≈4.0 - 做文字:结构先行、短文案、干净背景、高对比
