<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Machine Learning on 隔叶黄莺 Yanbin's Blog - 软件编程实践</title><link>https://yanbin.blog/tags/machine-learning/</link><description>Recent content in Machine Learning on 隔叶黄莺 Yanbin's Blog - 软件编程实践</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><managingEditor>yabqiu@gmail.com (Yanbin Qiu)</managingEditor><webMaster>yabqiu@gmail.com (Yanbin Qiu)</webMaster><copyright>Yanbin 隔叶黄莺</copyright><lastBuildDate>Tue, 12 May 2026 18:49:20 -0500</lastBuildDate><atom:link href="https://yanbin.blog/tags/machine-learning/index.xml" rel="self" type="application/rss+xml"/><item><title>《Hands-On Large Language Models》阅读笔记(一)</title><link>https://yanbin.blog/hands-on-large-language-models-reading-notes-1/</link><pubDate>Tue, 12 May 2026 18:49:20 -0500</pubDate><author>yabqiu@gmail.com (Yanbin Qiu)</author><guid>https://yanbin.blog/hands-on-large-language-models-reading-notes-1/</guid><description>
&lt;h4 id="第一章大语言模型简介"&gt;第一章：大语言模型简介&lt;/h4&gt;
&lt;p&gt;应该还是在前年读了 《Build a Large Language Model (From Scratch)》前面一小部分，就中断了, 如今又找来一本相关的书籍
《Hands-On Large Language Models》试着啃一啃，能明白多少是多少。拿着中英文的两个版本对照着看，有些中文翻译最好还是不译的好。
这里只会一些杂乱的笔记，算不得什么记要，重要的信息仍然在书上。&lt;/p&gt;
&lt;p&gt;学习中相关的测试代码放在 GitHub 仓库 &lt;a href="https://github.com/yabqiu/Hands-On-Large-Language-Models"&gt;yabqiu/Hands-On-Large-Language-Models&lt;/a&gt;,
主要是在 macOS 苹果芯片上进行的测试。虽然官方有一个相应的仓库 &lt;a href="https://github.com/HandsOnLLM/Hands-On-Large-Language-Models"&gt;HandsOnLLM/Hands-On-Large-Language-Models&lt;/a&gt;,
但作为沉浸式学习，亲自根据自己的口味撸一遍代码是非常必要的，所以也会发现我学习时的代码与书中不完全相同。&lt;/p&gt;
&lt;p&gt;文字的计算机语义处理有过 &lt;code&gt;Bag-of-words&lt;/code&gt;, &lt;code&gt;word2vec&lt;/code&gt;, &lt;code&gt;sequence-to-sequence&lt;/code&gt;, 再就是 &lt;code&gt;BERT&lt;/code&gt;, &lt;code&gt;GPT&lt;/code&gt; 这些概念了。
写作 &amp;quot;Attention Is All You Need&amp;quot; 这篇论文的作者们真是太伟大了，拿不到诺贝尔奖，也应该给他们个图灵奖，虽然其中的技术并非很高级，
但这篇论文在 &lt;code&gt;AI&lt;/code&gt; 发展史中绝对有着里程碑式的意义。&lt;/p&gt;
&lt;p&gt;模型从大的功能分为&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;仅编码的表示模型(representation model)，如种种嵌入模型，都比较小的，约几百兆大小, 像 BERT(bidirectional encoder representations from Transformers)&lt;/li&gt;
&lt;li&gt;生成模型(generative model),关注生成文本, 通常不会被训练用于生成嵌入, 像 GPT(Generative Pre-trained Transformer)&lt;/li&gt;
&lt;/ol&gt;</description></item></channel></rss>