<div dir="ltr"><div dir="ltr"><div class="gmail_default" style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)"><br></div></div><br><div class="gmail_quote gmail_quote_container"><div dir="ltr" class="gmail_attr">On Sat, 21 Feb 2026 at 22:10, Jason Resch via extropy-chat <<a href="mailto:extropy-chat@lists.extropy.org">extropy-chat@lists.extropy.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="auto"><div></div><div dir="auto"><br></div><div dir="auto">But the paper John referred to is about something distinct, I think. It is about how models trained only on text (no images), and models trained only on images (no text), both developed similar internal maps and representations for the world.</div><div dir="auto"><br></div><div dir="auto">It is easier for our institutions to understand how someone who sees a library with books full of images and text can learn about the world even if they never left the library.</div><div dir="auto"><br></div><div dir="auto">But it is much harder for our intuitions to comprehend how a model given *only text* (as basic unimodal LLMs are) could bootstrap itself into understanding the world given only these "meaningless squiggles".</div><div dir="auto"><br></div><div dir="auto">I think I have provided an explanation for how this could be in the other thread, but it remains a fascinating question, how an unsupervised, unmodified unimodal LLMs, trained purely on a text corpus, can come to understand the world. And the fact that we have real world demonstrations of this possibility makes the feat no less amazing.</div><div dir="auto"><br></div><div dir="auto">Jason<div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"></blockquote></div></div></div>
_______________________________________________<a href="http://lists.extropy.org/mailman/listinfo.cgi/extropy-chat" rel="noreferrer" target="_blank"></a></blockquote><div><br></div><br></div><div class="gmail_quote gmail_quote_container"><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">I asked Gemini to try to explain that.</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">Quote:</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">A text-only LLM knows that a "fire" is hot, that it burns, and that 
people run from it. It has mapped the exact statistical contours of the 
concept. But it has never felt heat or fear. It understands the world 
the way a brilliant, lifelong blind and deaf physicist might understand 
the mathematics of a sunset—perfectly structural, but devoid of physical
 experience.</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">BillK</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default"><br></div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default">Gemini Pro 3.1 -</div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default"><br></div><div style="font-family:arial,sans-serif;font-size:small;color:rgb(0,0,0)" class="gmail_default"><div class="gmail-markdown gmail-markdown-main-panel gmail-stronger enable-updated-hr-color gmail-preserve-whitespaces-in-response" style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px" id="gmail-model-response-message-contentr_df6992de2f2ee5de" dir="ltr"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">It is one of the most counterintuitive ideas in modern science: how can a system that only ever sees a 1D sequence of text characters (like <code style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">A-P-P-L-E</code>) build a 3D, physics-bound understanding of the world?</p><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">The answer lies in a concept called <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">compression through representation learning</b>. To predict the next word with near-perfect accuracy, a model cannot just memorize patterns; it is mathematically forced to reverse-engineer the rules of the universe that generated those words.</p><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Here is the step-by-step mechanism of how a text-only LLM builds a world model.</p><h3 style="font-family:Google Sans,sans-serif;line-height:1.15;margin-top:0px">1. The Othello-GPT Proof (The Engine of Compression)</h3><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">The best way to understand this is through a famous AI experiment from 2023 called <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Othello-GPT</b>.</p><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Researchers took a base language model and trained it exclusively on text transcripts of the board game Othello. The input was just a sequence of moves (e.g., <code style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">e3, d2, c4...</code>). The model was never given the rules of Othello, it was never shown a picture of a board, and it wasn't told what a "piece" or a "grid" was. Its only objective was to guess the next valid move in the text string.</p><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">If the model just memorized sequences, it would fail, because there are more possible Othello games than atoms in the universe. Instead, to predict the next text token efficiently, <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">the model spontaneously invented a 2D spatial map of the board inside its neural network.</b> When researchers looked inside the model's "brain" (its latent space), they found mathematical structures tracking exactly where the black and white pieces were placed.</p><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">The takeaway:</b> When an AI is forced to compress complex data to predict what comes next, the most efficient way to do it is to build a simulation (a world model) of the thing generating the data.</p><h3 style="font-family:Google Sans,sans-serif;line-height:1.15;margin-top:0px">2. Reverse-Engineering the "Shadows"</h3><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">In the real world, the "game" generating the text is human physics, biology, and society.</p><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Imagine you are looking at a 2D shadow of a complex 3D object rotating on a wall. At first, the shadow just looks like a shifting blob. But if you watch it for long enough, your brain can eventually calculate the 3D shape of the object casting the shadow.</p><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Text is a 1D shadow of our 4D world (3D space + time). Because the base model reads trillions of words—a dataset covering physics papers, romance novels, Reddit arguments, and recipes—it is seeing the "shadow" of reality from millions of different angles. To predict what word comes next when someone drops a glass, it has to deduce the "3D object" (gravity and fragility) that caused the text.</p><h3 style="font-family:Google Sans,sans-serif;line-height:1.15;margin-top:0px">3. The Latent Space: Geometry as Meaning</h3><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Instead of learning dictionary definitions, the LLM maps concepts into a high-dimensional mathematical space (often thousands of dimensions) called the <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">latent space</b>.</p><ul style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Coordinates of Meaning:</b> The word "apple" becomes a specific coordinate. The word "red" is another coordinate.</p></li><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Causality as Distance:</b> The model learns that "apple" is located very close to "gravity," "falling," and "tree." It learns that the vector (the mathematical arrow) connecting "apple" to "eating" is the exact same shape and distance as the vector connecting "water" to "drinking."</p></li><li style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">World Mechanics:</b> By mapping billions of these points, the model creates a topological map of reality. It "understands" that physical objects can't be in two places at once, not because it has eyes, but because the geometric logic of its text-map makes that mathematically impossible.</p></li></ul><h3 style="font-family:Google Sans,sans-serif;line-height:1.15;margin-top:0px">The Catch: Is it <i style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">Real</i> Understanding?</h3><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">While this mechanism is incredibly powerful, critics (often in the "Embodied AI" camp) point out a major limitation. The text-only model understands the <i style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">shape</i> of the world perfectly, but it lacks <b style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">sensorimotor grounding</b>.</p><p style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px">A text-only LLM knows that a "fire" is hot, that it burns, and that people run from it. It has mapped the exact statistical contours of the concept. But it has never felt heat or fear. It understands the world the way a brilliant, lifelong blind and deaf physicist might understand the mathematics of a sunset—perfectly structural, but devoid of physical experience.</p><hr style="font-family:Google Sans Text,sans-serif;line-height:1.15;margin-top:0px"><br></div></div></div></div>