Midjourney 完全学习手册(1) - 基础知识

本文大纲

Midjourney（简称 mj）是一家专注于AI图像生成服务的公司，其产品主要面向创意产业和广告领域。公司提供的核心产品包括大模型应用平台、智能体定制开发以及落地咨询服务。Midjourney利用人工智能将详细的文本描述转化为高质量的可视化效果，从而实现快速原型设计和创造性探索。

Midjourney 应用的主要场景

艺术创作：艺术家可以根据自己的想象描述，通过Midjourney生成科幻场景的概念图。
产品设计：产品设计师利用Midjourney可视化设计理念，加快产品设计的迭代过程。
插画创作：插画家借助Midjourney探索新的视觉风格，创作出独特的艺术作品。

优势与团队

在图像生成效果方面，Midjourney目前处于AI图像生成领域的领先地位。值得一提的是，Midjourney团队仅有11名员工，展现出极高的效率和实力。

学习资源

Midjourney提供了丰富的学习资源，其中最好的教程是官方的介绍文档。中文用户可以通过Chrome浏览器的沉浸式翻译插件无障碍阅读，Midjourney 帮助文档。

社区与定价

Midjourney的社区建立在 Discord 平台上，用户可以通过与Discord上的Midjourney机器人指令交互的方式生成图片，大部分用户也在Discord上进行学习和讨论，其官网上也有相关功能。目前，新用户已无免费额度，必须成为会员才能使用，基础会员的价格为每月10美元。

在 Discord 中使用

打开 discord 软件，先搜索并加入 Midjourney 社区。然后打开任意一个 newbies 聊天室，或私聊 Midjourney bot 机器人，输入 /imagine，然后输入你的提示词。更多 discord 的操作参考：在 discord 中使用 Midjourney

等一会儿，系统会显示 4 张按你提示词出的图。下面有两组操作，V1-4 表示对 1-4 号图片进一步变化修改，U1-4 表示对 1-4 号图片放大查看更多细节。

Vary（变化）

作用：对生成的图像进行变化，生成基于原始图像的新变体。
原理：它会以当前选择的图像为基础，通过调整样式、构图、细节等，创建出与原图相关但略有不同的多个版本。
使用场景：
- 想要探索更多可能性，比如修改细节或风格。
- 对原始图像的部分效果满意，但想尝试新的创意。
效果：生成的变体图像在细节和风格上有微妙变化，整体仍保持与原图的视觉一致性。
操作：点击 Vary 按钮后，系统会提供一组变体（通常是 4 个）。

Upscale（放大）

作用：对生成的图像进行高清放大，同时增加细节和分辨率。
原理：它会基于选定的图像，细化图像的纹理、细节，并将分辨率提升到更高水平。
使用场景：
- 已经对图像非常满意，需要高分辨率版本用于打印或其他高质量需求。
- 希望进一步完善图像细节。
效果：放大后的图像会显得更清晰、细腻，适合查看或使用在大尺寸场景中。
操作：点击 Upscale 按钮后，会得到一张单独的高清图像。

Midjourney 提示词

提示词包含三部分

Image Prompts：非必须。图片URL可以添加到提示中，总是放在最前面，以影响最终结果的风格和内容
Text Prompt：至少一个字符。生成图像的文字描述，后文有提示词技巧，好的提示能帮助您生成令人印象深刻的图像
Parameters：非必须，不填写均按默认值。参数会影响图像的生成方式，可以调整长宽比、模型、上采样器等，这些参数应放置在提示信息的最后部分

Image Prompts

图片文件扩展名应为 .png、.gif、.webp、.jpg 或 .jpeg
图片 url 必须公开可访问，有防盗链的图片无法使用
图片可以多张
上传图片可以通过 Midjourney 机器人的私信窗口，防止其他用户看到图片
提示词和参考图片 url 地址在 Midjourney 网站上是可见的，除非你要隐身必须是高级付费用户（$60/m）。

Text Prompt

明确主题和对象。每一幅照片都应该有一个主题和主体，无论是我们拍照还是利用 AI 创作，你想通过什么把作品的主题表达出来，你想通过什么主体来做这种表达。主体可以是一个人、一只猫、一个荒凉的沙漠、一个古朴的庭院等。
用详细的形容词描绘主体、环境或你的情感，如闪闪发光的蓝色水晶宫殿、宁静夕阳下的海滩
指定一个艺术流派，如印象派、赛博朋克、复古、素描、油画、雕塑、涂鸦等等，或者提及具体艺术家的风格，如梵高风格的星空
指定构图和视角，如我们手机拍摄时常用的对称构图、三分构图、曲线构图等，视角如俯视、仰视、微距特写等
使用关键词和短语，避免长篇大论，如“未来城市、霓虹灯、夜景、飞行汽车”（尽可能转换成英文，以获得模型稳定的理解力）
描述情境和动作，如风中飞舞的黄色叶子，一个全副武装的特种兵在神秘森林中搜索敌人
去掉无意义的词汇，如“帮我设计一个照片，要求…”，不必用大语言模型的提示词套 mj，直接开门见山给出图像的描述即可
在多数情境下，更精确的同义词能发挥更好的作用。与其说“大”，不如用“巨大”、“庞大”、“硕大”或“浩瀚”等词汇来表达
复数名词往往带有很大的偶然性。最好使用具体的数字，比如“三只猫”比“猫”更具体。使用集合名词也很有效，比如“一群鸟”而不是简单的“鸟”
最好描述你想要的东西，而不是提示不想要什么。比如尽量不要提示词中写类似“不要 xxx”，你应使用 –no 参数进行不想要元素排除
最简单的提示词一个字符一个表情就可以了。细节越少，生成的图片风格变化越多，但你对图片的控制力会相应减弱
官方给的一些背景信息或细节参考：

Subject: person, animal, character, location, object
主题：人物、动物、角色、地点、物品
Medium: photo, painting, illustration, sculpture, doodle, tapestry
媒体类型：照片、画作、插画、雕塑、涂鸦、壁毯
Environment: indoors, outdoors, on the moon, underwater, in the city
环境：室内、室外、月球上、水下、都市里
Lighting: soft, ambient, overcast, neon, studio lights
照明：柔和、环境光、阴天效果、霓虹灯、摄影棚照明
Color: vibrant, muted, bright, monochromatic, colorful, black and white, pastel
颜色：鲜艳、柔和、明亮、单色、多彩、黑白、粉嫩
Mood: sedate, calm, raucous, energetic
情绪：平静、宁静、喧哗、充满能量
Composition: portrait, headshot, closeup, birds-eye view
组成：人像、半身像、特写、俯视图

Parameters

--version，可缩写 --v，模型版本。当前默认为最新版本 6.1。还有一个专门生成动漫或插花风格的模型 --niji 6 参考

--chaos，可缩写 --c，混乱程度。用于增加随机性和创造性，取值范围 0-100。默认为 0，表达更自然。数字越大，生成图像的随机性越大，结果越不可预测参考

--style，图像风格。原始风格 raw，默认 standard。raw 更倾向于真实、自然的表达，美化效果少，而不是过度艺术化或超现实的处理参考

--quality，可缩写 --q，出图质量。取值范围 0.5/1/2，默认为 1。较低的值意味着图像生成速度更快，任务消耗的 GPU 时间更少，但生成的图像细节会较少。这对于尝试新提示很有用，可以更快地完善您的想法。使用更高的值会占用更多 GPU 资源，虽然能提升图像的纹理和细节，但也可能影响图像的连贯性参考

--stylize，可缩写 --s，风格化程度。取值范围 0-1000，默认 100。低风格化值生成的图像与提示内容高度一致，但艺术感稍逊。高风格化值则能创造出极具艺术感的图像，但与提示内容的关联性可能稍弱参考

--aspect，可缩写 --ar，aspect ratio，镜头比例。第一个数字是宽度，第二个数字是高度，只能用整数比，不能用小数。参考

--personalize ，可缩写 --p，个性化。可以在 discord 中通过 /list_personalize_codes 指令查找自己不同时期的个性化代码。个性化来源于你给别人的作品点赞、排名等操作，你的行为数据，都是可以被标签化的。在不同时期，你喜欢的内容风格可能不同，用户特征会偏移。系统只能通过你与系统的交互行为了解你，会给你不同时期的偏好打标签，生成一个个性化代码参考

--no，排除某个元素，格式 --no item1, item2, item3, item4，mj 机器人会将提示中的每个词都视为图像的潜在元素，所以不要在文本提示词中使用 without 或 no 等否定词来排除不要的元素参考

--seed，随机性种子。世界上没有两片完全一样的叶子，同理我们生成图像时，即便是同样的提示词，结果也可能有很大区别。有时候我们需要连续出图，为了保证出图效果的一致性，可以使用 seed 固定生图的随机性，这样多次出图的差异性就会很小。取值范围 0 到 4294967295 之间的整数参考

--tile，瓦片。用于生成无缝拼接的图案，如创建壁纸、自然纹理、材质贴图或地毯设计等。无默认值，可单独使用参考

--iw， image weight，上传图片与提示词的权重比例。默认 1，取值范围 0-3。权重越高，图像生成更接近上传的参考图像参考

--cref，character reference，参考图片的角色一致性参考

--cw，character weight，参考图角色权重，取值范围 0-100，默认 100。辅助参数，不能单独使用，搭配 cref。数字设置为 0，仅参考角色的面部特征。数值越高，将结合角色的面部、头发和服装进行塑造新图参考

--sref，style reference，参考图片的风格一致性。几个用法：--sref URL 参考某个图； --sref random 从 mj 库你随机挑选； --sref 762351716 参考某个种子图的风格；--sref URL1::2 URL2::1 URL3::1 分配不同的权重参考

--sw，style weight，参考图风格权重，取值范围 0-1000，默认 100。辅助参数，不能单独使用，搭配 sref。数值越高，生成的图像越接近参考风格图像的风格特征参考

下一篇文章，上案例演示。

本文部分素材来自网络，侵删请联系站长。

扫码关注本站公众号/加入知识星球，订阅更多精彩内容

Midjourney 完全学习手册(1) – 基础知识

Midjourney 应用的主要场景

同类产品比较

优势与团队

学习资源

社区与定价

在 Discord 中使用