第 1 讲:什么是大语言模型(LLM)?

欢迎来到《大语言模型提示词实战》的第一讲,看完整课程大纲点这里

没有看过先导篇的会员朋友,先看先导介绍

本课程前三节所有用户可免费阅读,办理会员点👇👇👇

订阅会员原价399元/年,当前限时特惠99元/年

在正式开始学习提示词之前,我们首先需要理解什么是大语言模型,一些相关概念,以及它的能力边界在哪里。这节课的内容会帮助你建立对 AI 的正确认知,这对后续如何更好地使用AI至关重要。

一、AI 模型其实是”智能图书馆+贴心管理员”

要理解大语言模型,我们可以把它想象成一个超级图书馆:

想象一下,有一个巨大的图书馆,里面收藏了人类几乎所有公开的知识和信息。这个图书馆还配备了一位超级智能的图书管理员,他:

  • 记住了图书馆里的所有内容
  • 能迅速理解你的问题
  • 会根据你的需求,快速整理相关的信息
  • 并用你容易理解的方式表达出来

这就是大语言模型的本质 —— 它通过学习海量的文本数据(人类图书馆的藏书),形成了强大的语言理解和生成能力(图书管理员的服务)。

为什么说它”大”?这里的”大”主要体现在两个方面:

  1. 数据量大
    • 训练数据包含数十亿甚至数千亿字的文本
    • 相当于一个人读完几百万本书的内容
    • 覆盖了互联网上大量公开的文本信息
  2. 参数量大
    • 最新的模型往往有数千亿个参数
    • 这些参数就像人脑中的神经连接
    • 参数越多,模型的理解和生成能力通常越强

二、主流大模型

目前市面上有很多大语言模型,我们来认识几个最常用的:

1. 国外的

  • GPT-4 模型是当今最强大的人工智能大模型
  • Claude-3.5 目前也发展不错,善于处理长文本

2. 国内的

  • 百度的文心一言、阿里的通义千问、字节的豆包、腾讯的混元、创业公司月之暗面的 kimi 等
  • 各公司基本盘业务不同,所以这些模型各有特色和专长,选择时可以根据具体需求来决定
  • 国内大模型产品个人用户基本免费

3. 大模型和大模型应用的区别

  • 我们有时候会接触到不同术语,比如 GPT 模型、GPT-4 和 ChatGPT 等。GPT 模型是一种由 OpenAI 公司开发的大语言模型(LLM),用来处理和生成自然语言。GPT-4 是该模型的第四代版本,具有更高的语言理解和生成能力,而 ChatGPT 是基于该模型开发的具体应用,通常以网页或 App 的形式呈现,是用户可以直接使用的人机对话平台。可以理解为,ChatGPT 的后台运行着 GPT 模型
  • ChatGPT 本身也有多个版本。在聊天界面中我们可以选择不同的模型版本,如 ChatGPT-4 和 ChatGPT-4o,它们在背后支持的模型版本和推理速度上有所差异
  • 其它公司的大模型及大模型应用道理一样

三、重要基础概念

在开始使用AI之前,让我们先了解几个重要的基础概念,这些概念会帮助你更好地理解和使用AI模型。

1. LLM是什么?

LLM(Large Language Model)就是”大语言模型”的英文缩写。之所以叫”语言模型”,是因为:

  • 它的核心功能是理解和生成人类语言
  • 它通过”预测下一个词应该是什么”来工作
  • 这就像你在玩”接龙”游戏,但它玩得比人类要好得多

举个例子: 当你输入”中国的首都是…”,模型会根据学习到的知识,非常自然地补充”北京”。

2. Token(标记)是什么?

大语言模型在训练时,被投喂的数据,是大量文本数据,如大量的出版物、网页等。不同人类语言的词汇量和词汇规则不同,有些语言里一个意思可能只需要一个字,而在其他语言可能需要多个字母拼成一个单词。用 token 切分,可以让模型对不同语言更灵活地处理。token 可以跨语言把不同的词汇、词组拆分成小块,这样即使遇到不常见的单词,模型也可以用 token 的组合来理解意思。

举个例子:拼装一套乐高玩具。有些人喜欢先买整套玩具,而有些人只买各种基础的乐高小块,自己拼出各种新造型。

把句子按单词处理,就像是直接买整套玩具,每个“单词”就是一个整套的造型。要是我们碰到一个新的造型,商店里可能没有卖的,我们就无法拼出那个造型了。

而把句子按 token 处理,就像是买很多基础的小块,比如各种形状的“积木块”。这样,即使碰到没有见过的造型,我们也能用这些基础积木块组合出来。这样灵活性更高,也不用记住所有可能的造型,只需要记住一些基础的块和组合方法就行了。所以,模型使用 token,就像拼乐高用基础积木块,它能更灵活地应对各种语言的表达和变化。

Token 是 AI 处理文本的基本单位,理解它很重要:

  • 中文中,一个汉字通常是一个 token
  • 英文中,一个单词可能被分成多个 token
  • 标点符号也会占用 token
  • token 数量直接关系到处理成本和速度

例如:”你好,AI!” 这句话大约包含5个 token:

  • “你”(1个 token)
  • “好”(1个 token)
  • “,”(1个 token)
  • “AI”(1个 token)
  • “!”(1个 token)

为什么要关心token?

  • 模型对输入词长度有限制(以 token 计算),模型的输出词汇也会计算 token 量。如 GPT-4-8k,支持最多大概 8k 个 token
  • 使用 token 越多,成本越高。免费模型每天有 token 用限制,不过我们处理日常生活类的任务一般是够用的,不用担心 token 的限制。如果被限制了,这么多大模型换一个用就是
  • 大模型在生成内容时,本质上是基于概率的。它通过训练大量的数据,学习到词语或词汇片段(token)在不同上下文中的出现概率。每次生成内容时,它会根据上下文预测下一个 token 的概率分布,选出最可能的 token,逐步构建完整的输出。举个可能不太恰当的例子说明,早上起床后要吃早饭,我们大脑里飘过很多早餐选项,“今天早饭吃…”,面包?包子?三明治?米粉?选择吃面包/包子/三明治/米粉,其实是有概率的,如果你做过自己早饭食物统计的话。如果按最高概率选,每天吃的都是一样的,早饭会很单一,没有灵活性和创造性。怎么解决大模型生成下一个 token 词的概率呢?看下面温度值的概念。
第 1 讲:什么是大语言模型(LLM)?

(图示 token,每行每个色块是一个 token)

3. Temperature(温度)是什么?

Temperature 是控制 AI 回答”创造性”的一个重要参数:

低温度(接近0)

  • 回答更确定、一致
  • 适合事实性回答
  • 例如:解答数学题、查询知识

高温度(接近1)

  • 回答更具创造性
  • 可能产生意想不到的结果
  • 适合创意写作、头脑风暴

举个例子: 假设让 AI 写一个”春天”的句子

  • 低温度:春天来了,花儿开了,很美丽。(相对保守)
  • 高温度:春姑娘踮着轻盈的脚尖,洒下一地金色的阳光和粉色的花瓣。(更有创意)

实际使用如 ChatGPT 这类对话应用时,并不需要我们手动调节温度值,也没有地方可调。但是我们通过 api 接口开发调用大模型时,是可以通过接口传参调整的。

4. 模型参数量是什么?

参数量是衡量AI模型”大脑容量”的指标:

  • 参数越多,模型理解和生成能力通常越强
  • 但参数量增加也意味着更高的使用成本
  • 参数量不是唯一决定因素,模型设计和训练质量同样重要

一些常见模型的参数量参考:

  • GPT-3.5:约1750亿参数
  • GPT-4:参数量未公开,但估计超过1万亿
  • Claude:参数量未公开,但性能与GPT-4相当

参数量的形象理解: 如果把参数比作”大脑神经元”:

  • 10亿参数 ≈ 一只猫的大脑神经元数量
  • 1750亿参数 ≈ 2000个人类大脑的神经元数量

但请记住:参数量不等于智能程度,就像大脑体积不等于智商。

6. 实用使用小贴士

  1. 注意控制输入文本长度(token数)
  2. 如果调用接口,根据任务类型调整temperature
    • 创意任务:使用较高 temperature(0.7-0.9)
    • 分析任务:使用较低 temperature(0.1-0.3)
  3. 选择合适的厂家和模型
    • 简单任务选择参数量小的模型(省钱)
    • 复杂任务选择参数量大的模型(更强)

四、能力边界:既要认识潜力,也要明白局限

要充分发挥大语言模型的价值,关键在于准确理解它的能力边界。每个工具都有其特定的用途,大语言模型也有其擅长和不擅长的领域。正确认识这些边界,既能让我们避免盲目期待,也能帮助我们更好地利用大模型的优势。

第 1 讲:什么是大语言模型(LLM)?
第 1 讲:什么是大语言模型(LLM)?

五、实践练习:初次对话体验

让我们通过一些简单的练习,来实际体验AI的能力:

练习1:基础对话

尝试问一些简单的问题:

  • “什么是人工智能?”
  • “请解释下光合作用的过程”
  • “帮我写一首简单的诗”

观察AI的回答方式和内容质量。

练习2:能力边界测试

尝试一些边界性的问题:

  • 问一个需要最新信息的问题
第 1 讲:什么是大语言模型(LLM)?
  • 问大模型他的知识库截止日期
第 1 讲:什么是大语言模型(LLM)?
  • 问大模型他是否能上网实时搜索
第 1 讲:什么是大语言模型(LLM)?
  • 让它进行复杂数学计算
第 1 讲:什么是大语言模型(LLM)?
第 1 讲:什么是大语言模型(LLM)?

(使用 kimi )

观察AI在这些情况下的表现,多试试几个不同的大模型产品。

下一讲预告

下一讲我们将学习”提示词的基本概念“,了解如何更好地和AI对话。建议大家自己多花些时间和AI对话,积累一些实际体验,这样下一节课会更容易理解。

本讲小贴士

记住:AI是工具,不是魔法。它的强大和局限都源于其本质 —— 一个基于统计学习的语言模型。正确认识这一点,才能更好地利用它。

如果你在实践中遇到任何问题,欢迎联系课程作者交流讨论!

第 1 讲:什么是大语言模型(LLM)?

本课程前三节所有用户可免费阅读,办理会员点👇👇👇

订阅会员原价399元/年,当前限时特惠99元/年

本文来自投稿,部分素材可能来自网络,不代表【AI 应用与实战】官方立场。

扫码关注本站公众号/视频号/小程序,订阅更多精彩内容

(1)
AI研究生海樵的头像AI研究生海樵订阅会员
上一篇 2024年11月1日 下午2:22
下一篇 2024年11月3日 上午10:34

相关推荐

  • 第5讲:提示词的语言选择

    《大模型提示词实战课》已发布的章节: ⏱ 学习时间:30 分钟 ⏱ 练习时间:30 分钟 1. 课前案例 🤔 困扰场景:小王是一名市场营销人员 结果:得到了一份英文表达地道但转化成中文后不够接地气的文案,效果欠佳。 😄 改进场景:经过学习后的小王 结果:获得了一份深受目标用户喜爱、转化率极高的营销文案。 2. 语言选择的核心考虑因素 使用场景考虑 👎 场景不…

    2024年11月7日
  • 第24讲:流程自动化

    《大模型提示词实战课》已发布的章节: ⏱ 学习时间:30 分钟 ⏱ 练习时间:30 分钟 1. 课前案例 🤔 困扰场景:小王是一名行政助理 结果:每天加班到很晚,工作效率低下,还容易出错。 😄 改进场景:经过学习后的小王 2. 流程自动化的核心要素 任务分析 流程设计 👎 混乱的流程: 👍 清晰的流程: 效率优化 3. 实战练习 基础练习(15分钟) 基础练…

  • 第16讲:AI 辅助学习实战指南

    《大模型提示词实战课》已发布的章节: ⏱ 学习时间:30 分钟 ⏱ 练习时间:30 分钟 1. 课前案例 🤔 困扰场景:小王在准备考研 结果:收到了一大段专业术语堆砌的说明,看完后反而更糊涂了。 😄 改进场景:经过学习后的小王 结果:获得了清晰易懂的解释,并通过互动加深了理解。 2. AI 辅助学习的四大场景 概念理解优化 👎 不当示例: 👍 优化示例: 习…

    2024年11月16日
  • 第7讲:任务分解方法

    《大模型提示词实战课》已发布的章节: ⏱ 学习时间:30 分钟⏱ 练习时间:30 分钟 1. 课前案例 🤔 困扰场景:小王需要用 AI 写一份商业计划书 结果:AI 生成了一份泛泛而谈的内容,既不具体也不实用。 😄 改进场景:学习任务分解后的小王 结果:通过分步骤引导,获得了一份详实的商业计划书。 2. 为什么要学习任务分解 大模型的工作特点 任务分解的优势…

    2024年11月7日
  • 第23讲:多模态协作

    《大模型提示词实战课》已发布的章节: ⏱ 学习时间:30 分钟 ⏱ 练习时间:30 分钟 1. 课前案例 🤔 困扰场景:小王是一名新手设计师 结果:AI 无法理解具体需求,给出的建议过于笼统,无法直接应用。 😄 改进场景:经过学习后的小王 2. 多模态协作的三大技巧 什么是多模态? 图文结合应用 👎 错误示例: 👍 正确示例: 数据可视化 👎 错误示例: 👍…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系站长
联系站长
返回顶部
Index