《Hands-On Large Language Models》阅读笔记(一)

yabqiu@gmail.com (Yanbin Qiu) — Tue, 12 May 2026 18:49:20 -0500

第一章：大语言模型简介

应该还是在前年读了《Build a Large Language Model (From Scratch)》前面一小部分，就中断了, 如今又找来一本相关的书籍《Hands-On Large Language Models》试着啃一啃，能明白多少是多少。拿着中英文的两个版本对照着看，有些中文翻译最好还是不译的好。这里只会一些杂乱的笔记，算不得什么记要，重要的信息仍然在书上。

学习中相关的测试代码放在 GitHub 仓库 yabqiu/Hands-On-Large-Language-Models, 主要是在 macOS 苹果芯片上进行的测试。虽然官方有一个相应的仓库 HandsOnLLM/Hands-On-Large-Language-Models, 但作为沉浸式学习，亲自根据自己的口味撸一遍代码是非常必要的，所以也会发现我学习时的代码与书中不完全相同。

文字的计算机语义处理有过 Bag-of-words, word2vec, sequence-to-sequence, 再就是 BERT, GPT 这些概念了。写作 "Attention Is All You Need" 这篇论文的作者们真是太伟大了，拿不到诺贝尔奖，也应该给他们个图灵奖，虽然其中的技术并非很高级，但这篇论文在 AI 发展史中绝对有着里程碑式的意义。

模型从大的功能分为

仅编码的表示模型(representation model)，如种种嵌入模型，都比较小的，约几百兆大小, 像 BERT(bidirectional encoder representations from Transformers)
生成模型(generative model),关注生成文本, 通常不会被训练用于生成嵌入, 像 GPT(Generative Pre-trained Transformer)

Machine Learning on 隔叶黄莺 Yanbin's Blog - 软件编程实践

《Hands-On Large Language Models》阅读笔记(一)

第一章：大语言模型简介