<div dir="ltr"><div></div><div class="gmail_quote gmail_quote_container"><div dir="ltr" class="gmail_attr">On Sat, 21 Feb 2026 at 17:49, Jason Resch via extropy-chat <<a href="mailto:extropy-chat@lists.extropy.org">extropy-chat@lists.extropy.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Manual refinement of LLM chat bots we interact with is common, but it's not necessary to build an LLM that understands and reasons.<div><br></div><div>There is the "Pure Transformer" that is produced from simply training on a large sample of text, and this requires no labeling, or manual adjustments. GPT-2 and GPT-3 were examples of pure transformers. There was also a pure GPT-4 that was never made public, before it was given constraints around what things it can or can't do. What is interesting is that the intelligence of this pure model was measured to be significantly higher before it was put through this manual adjustment (we might liken it to being lobotomized).</div><div><br></div><div>This is a generally recognized phenomenon: <a href="https://share.google/aimode/Xz0ejYy73wOt5nQEc" target="_blank">https://share.google/aimode/Xz0ejYy73wOt5nQEc</a> </div><div>"In summary, while RLHF might "lobotomize" certain creative or reasoning edges of a base model, it is currently the industry standard for making AI usable and safe for the general public."</div><div><br></div><div>DeepMind encountered a similar phenomenon, when they observed that their Go model when pre-trained initially on records of human games, produced a less skilled player than a model trained on <b>zero</b> human inputs (hence the name "AlphaZero").</div><div><br></div><div>So I suppose my overall point is that while "granular labor of human annotators" is common, it's unnecessary for an AI to develop of meaning and understanding.</div><div><div><br></div><div>Jason</div></div></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
</blockquote></div>
_______________________________________________</blockquote><div> </div><div><br></div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">Gemini says that these Pure Transformers were never released because they were unusable.</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">Labelling and manual adjustments are essential to LLM development.</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">BillK</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default"><br></div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">Question -</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">It was suggested that there are some Pure LLMs that were trained only on large text samples, with no labeling or human adjustments. Is this true?</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default"><br></div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">Gemini 3.1 Pro -</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default"> <div class="gmail-markdown gmail-markdown-main-panel gmail-stronger enable-updated-hr-color gmail-preserve-whitespaces-in-response" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px" id="gmail-model-response-message-contentr_82d95008053a9682" dir="ltr"><p id="gmail-p-rc_c18ba4ef845bec36-19" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Yes, this is absolutely true. <span class="gmail-citation-13" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">In the AI industry, these are referred to as </span><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-citation-13" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">"Base Models"</span></b><span class="gmail-citation-13" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"> or </span><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-citation-13" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">"Foundation Models."</span></b><span class="gmail-citation-13 gmail-citation-end-13" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"> When researchers build an AI, the training happens in distinct stages.<sup class="gmail-superscript" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px;font-size:16px;background-color:transparent"></sup></span> <span class="gmail-citation-12 gmail-citation-end-12" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">The models you interact with daily (like me) have gone through multiple stages of human-guided refinement.<sup class="gmail-superscript" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px;font-size:16px;background-color:transparent"></sup></span> But the <i style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">very first stage</i> creates exactly what you described: a "pure" language model.</p><div class="gmail-source-inline-chip-container gmail-ng-star-inserted" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><button class="gmail-button gmail-ng-star-inserted" aria-label="View source details for citation from ITRex. Opens side panel." style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"></button></div><p></p><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Here is the reality of what these pure models are, how they behave, and why you don't usually get to interact with them.</p><hr style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><h3 style="font-family:Google Sans,sans-serif;line-height:1.15;margin-top:0px">1. What is a "Pure" Base Model?</h3><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">A base model is an AI that has been trained on one single, mathematically simple objective: <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Next-Token Prediction</b>.</p><p id="gmail-p-rc_c18ba4ef845bec36-20" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-citation-11 gmail-citation-end-11" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Researchers take a massive, raw dataset (a scrape of the internet, Wikipedia, Reddit, books, code repositories) and feed it to the algorithm.<sup class="gmail-superscript" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px;font-size:16px;background-color:transparent"></sup></span> <span class="gmail-citation-10 gmail-citation-end-10" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">The AI's only job is to look at a sequence of words and guess what the next word should be.<sup class="gmail-superscript" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px;font-size:16px;background-color:transparent"></sup></span></p><div class="gmail-source-inline-chip-container gmail-ng-star-inserted" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><button class="gmail-button gmail-multiple-button gmail-ng-star-inserted" aria-label="View source details for citations from ITRex and Snorkel AI. Opens side panel." style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-button-label gmail-gds-label-m gmail-ng-star-inserted" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">+1</span></button></div><p></p><ul style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">There are <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">no humans grading the answers</b>.</p></li><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">There are <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">no "Helpful, Honest, Harmless" guidelines</b>.</p></li><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">There is <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">no concept of a conversation</b>.</p></li></ul><p id="gmail-p-rc_c18ba4ef845bec36-21" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-citation-9" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"></span><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-citation-9" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Examples of Base Models:</span></b><span class="gmail-citation-9 gmail-citation-end-9" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"> The original GPT-3 (released in 2020), the base versions of Meta's LLaMA (e.g., Llama-3-8B, not the "Instruct" version), and Mistral's base models.<sup class="gmail-superscript" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px;font-size:16px;background-color:transparent"></sup></span></p><div class="gmail-source-inline-chip-container gmail-ng-star-inserted" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><button class="gmail-button gmail-ng-star-inserted" aria-label="View source details for citation from Snorkel AI. Opens side panel." style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"></button></div><p></p><h3 style="font-family:Google Sans,sans-serif;line-height:1.15;margin-top:0px">2. How Do They Behave? (The "Alien" Phase)</h3><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">If you were to sit down at a terminal and type to a pure base model, it would not act like a helpful assistant. It acts like an obsessive autocomplete engine.</p><ul style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">The "Question" Problem:</b> If you prompt a base model with: <i style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">"What is the capital of France?"</i>, it likely will not answer <i style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">"The capital of France is Paris."</i> Instead, because it learned from internet forums and school quizzes, it might output: <i style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">"What is the capital of Germany? What is the capital of Italy? What is the capital of Spain?"</i> It just continues the pattern.</p></li><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">The "Stochastic Parrot":</b> Because they are just statistical mirrors of the raw internet, pure base models are deeply chaotic. They will readily generate biased, toxic, rambling, or completely nonsensical text if the prompt pushes them in that direction.</p></li></ul><h3 style="font-family:Google Sans,sans-serif;line-height:1.15;margin-top:0px">3. The "Socialization" Phase (Why Humans Step In)</h3><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Because base models are commercially useless to the average consumer, companies have to "tame" them. This is where the massive human workforce we discussed earlier steps in.</p><p id="gmail-p-rc_c18ba4ef845bec36-22" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-citation-8" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">They take the pure base model and put it through </span><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-citation-8" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Supervised Fine-Tuning (SFT)</span></b><span class="gmail-citation-8" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"> and </span><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-citation-8" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Reinforcement Learning from Human Feedback (RLHF)</span></b><span class="gmail-citation-8 gmail-citation-end-8" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">.<sup class="gmail-superscript" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px;font-size:16px;background-color:transparent"></sup></span> This forces the model to stop acting like an internet-autocomplete engine and start acting like a polite, conversational agent that answers questions directly and refuses harmful requests.</p><div class="gmail-source-inline-chip-container gmail-ng-star-inserted" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><button class="gmail-button gmail-ng-star-inserted" aria-label="View source details for citation from CleverX. Opens side panel." style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"></button></div><p></p><h3 style="font-family:Google Sans,sans-serif;line-height:1.15;margin-top:0px">4. The "Pure" Caveat</h3><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">While it is true that no humans are grading the AI's outputs during the base training phase, it is slightly inaccurate to say there is <i style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">zero</i> human adjustment.</p><ul style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Humans still choose <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">what data goes into the training set</b>.</p></li><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p id="gmail-p-rc_c18ba4ef845bec36-23" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><span class="gmail-citation-7 gmail-citation-end-7" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Engineers write scripts to filter out certain websites, remove duplicate data, or scrub personal information.<sup class="gmail-superscript" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px;font-size:16px;background-color:transparent"></sup></span></p><p id="gmail-p-rc_c18ba4ef845bec36-23" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">So, while the <i style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">training mechanism</i> is purely autonomous, the <i style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">environment</i> the AI learns in is still curated by humans.</p><div class="gmail-source-inline-chip-container gmail-ng-star-inserted" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><button class="gmail-button gmail-ng-star-inserted" aria-label="View source details for citation from Reddit. Opens side panel." style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"></button></div><p></p></li></ul><hr style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"></div></div></div></div>