<div dir="ltr"><div class="gmail-group gmail-w-full gmail-text-gray-800 gmail-dark:text-gray-100 gmail-border-b gmail-border-black/10 gmail-dark:border-gray-900/50 gmail-bg-gray-50 gmail-dark:bg-[#444654]" style="border-width:0px 0px 1px;border-style:solid;border-color:rgba(0,0,0,0.1);box-sizing:border-box;width:1444.35px;font-family:Söhne,ui-sans-serif,system-ui,-apple-system,"Segoe UI",Roboto,Ubuntu,Cantarell,"Noto Sans",sans-serif,"Helvetica Neue",Arial,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol","Noto Color Emoji";font-size:14px"><div class="gmail-text-base gmail-gap-4 gmail-md:gap-6 gmail-md:max-w-2xl gmail-lg:max-w-2xl gmail-xl:max-w-3xl gmail-p-4 gmail-md:py-6 gmail-flex gmail-lg:px-0 gmail-m-auto" style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:auto;display:flex;padding:1.5rem 0px;font-size:1rem;line-height:1.5rem;max-width:48rem"><div class="gmail-relative gmail-flex gmail-w-[calc(100%-50px)] gmail-flex-col gmail-gap-1 gmail-md:gap-3 gmail-lg:w-[calc(100%-115px)]" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex"><div class="gmail-flex gmail-flex-grow gmail-flex-col gmail-gap-3" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex"><div class="gmail-min-h-[20px] gmail-flex gmail-flex-col gmail-items-start gmail-gap-4 gmail-whitespace-pre-wrap" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex;min-height:20px;white-space:pre-wrap"><div class="gmail-markdown gmail-prose gmail-w-full gmail-break-words gmail-dark:prose-invert gmail-light" style="border:0px solid rgb(217,217,227);box-sizing:border-box;max-width:none;font-size:1rem;line-height:1.75;width:652.997px"><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px 0px 1.25em">In a scenario where there is no dictionary or translation available and only the statistical patterns between words in the books can be used, a computer with significant computational power could potentially learn the language to some extent. This process would involve using unsupervised machine learning techniques and analyzing the co-occurrence patterns of words within the texts. However, the resulting understanding may not be complete or entirely accurate.</p><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:1.25em 0px">Here are some steps the computer might take to learn Thai from the books:</p><ol style="border:0px solid rgb(217,217,227);box-sizing:border-box;list-style-position:initial;margin:1.25em 0px;padding:0px 0px 0px 1rem;display:flex"><li style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px;padding-left:0.375em"><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px">Identify recurring patterns: Analyze the text corpus to find recurring patterns, such as common phrases, word sequences, or character combinations. These patterns may provide clues to the structure of the language, such as word boundaries, grammatical rules, or common sentence structures.</p></li><li style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px;padding-left:0.375em"><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px">Cluster similar words: Using unsupervised learning techniques, such as clustering algorithms, the computer can group words that frequently occur in similar contexts. This can help identify words that have similar meanings or serve similar functions in sentences.</p></li><li style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px;padding-left:0.375em"><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px">Infer grammar rules: By analyzing the patterns and relationships between words, the computer might be able to infer some basic grammar rules of Thai. For example, it may identify word order patterns, agreement structures, or tense markers.</p></li><li style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px;padding-left:0.375em"><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px">Create a semantic network: Based on the relationships between words and their contexts, the computer can start building a semantic network that represents the relationships between different words and their meanings. This network can help identify synonyms, antonyms, and other semantic relationships between words.</p></li><li style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px;padding-left:0.375em"><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px">Refine understanding: As the computer processes more text, it can refine its understanding of the language, improving its ability to identify patterns and relationships between words. This process can continue iteratively, with each cycle providing a more accurate understanding of the language.</p></li></ol><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:1.25em 0px">While these steps may allow the computer to derive some meaning from the text, there are limitations to this approach. Without any prior knowledge or context about the Thai language, culture, or the specific content of the books, the computer's understanding of the language may be incomplete or contain inaccuracies. Additionally, some aspects of the language, such as idiomatic expressions or culturally-specific references, may be difficult or impossible for the computer to learn solely from statistical patterns.</p><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:1.25em 0px 0px">In summary, while a computer can potentially learn some aspects of a language through statistical analysis of text, the resulting understanding may be limited and not entirely accurate. Access to dictionaries, translations, or other linguistic resources would greatly improve the accuracy and completeness of the language learning process.</p></div></div></div><div class="gmail-flex gmail-justify-between" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex"><div class="gmail-text-gray-400 gmail-flex gmail-self-end gmail-lg:self-center gmail-justify-center gmail-mt-2 gmail-gap-3 gmail-md:gap-4 gmail-lg:gap-1 gmail-lg:absolute gmail-lg:top-0 gmail-lg:translate-x-full gmail-lg:right-0 gmail-lg:mt-0 gmail-lg:pl-2 gmail-visible" style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin-top:0px;display:flex;padding-left:0.5rem"><button class="gmail-p-1 gmail-rounded-md gmail-hover:bg-gray-100 gmail-hover:text-gray-700 gmail-dark:text-gray-400 gmail-dark:hover:bg-gray-700 gmail-dark:hover:text-gray-200 gmail-disabled:dark:hover:text-gray-400" style="border-width:0px;border-style:solid;border-color:rgb(217,217,227);font-family:inherit;font-size:16px;font-weight:inherit;line-height:inherit;margin:0px;padding:0.25rem;background-image:none;border-radius:0.375rem"></button><button class="gmail-p-1 gmail-rounded-md gmail-hover:bg-gray-100 gmail-hover:text-gray-700 gmail-dark:text-gray-400 gmail-dark:hover:bg-gray-700 gmail-dark:hover:text-gray-200 gmail-disabled:dark:hover:text-gray-400" style="border-width:0px;border-style:solid;border-color:rgb(217,217,227);font-family:inherit;font-size:16px;font-weight:inherit;line-height:inherit;margin:0px;padding:0.25rem;background-image:none;border-radius:0.375rem"></button></div></div></div></div></div><div class="gmail-group gmail-w-full gmail-text-gray-800 gmail-dark:text-gray-100 gmail-border-b gmail-border-black/10 gmail-dark:border-gray-900/50 gmail-dark:bg-gray-800" style="border-width:0px 0px 1px;border-style:solid;border-color:rgba(0,0,0,0.1);box-sizing:border-box;width:1444.35px;font-family:Söhne,ui-sans-serif,system-ui,-apple-system,"Segoe UI",Roboto,Ubuntu,Cantarell,"Noto Sans",sans-serif,"Helvetica Neue",Arial,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol","Noto Color Emoji";font-size:14px"><div class="gmail-text-base gmail-gap-4 gmail-md:gap-6 gmail-md:max-w-2xl gmail-lg:max-w-2xl gmail-xl:max-w-3xl gmail-p-4 gmail-md:py-6 gmail-flex gmail-lg:px-0 gmail-m-auto" style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:auto;display:flex;padding:1.5rem 0px;font-size:1rem;line-height:1.5rem;max-width:48rem"><div class="gmail-w-[30px] gmail-flex gmail-flex-col gmail-relative gmail-items-end" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex;width:30px"><div class="gmail-relative gmail-flex" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex"><span style="border:0px;box-sizing:border-box;display:inline-block;overflow:hidden;width:initial;height:initial;background:none;opacity:1;margin:0px;padding:0px;max-width:100%"><span style="border:0px;box-sizing:border-box;display:block;width:initial;height:initial;background:none;opacity:1;margin:0px;padding:0px;max-width:100%"><img alt="" aria-hidden="true" style="border: 0px; box-sizing: border-box; display: block; vertical-align: middle; height: initial; max-width: 100%; width: initial; background: none; opacity: 1; margin: 0px; padding: 0px;"></span><img alt="Giovanni Santostasi" src="https://chat.openai.com/_next/image?url=https%3A%2F%2Flh3.googleusercontent.com%2Fa%2FAGNmyxb_fMn05lxQvUqKvLioXvZtJTW9RIhl3ANKU0ilOg%3Ds96-c&w=64&q=75" class="gmail-rounded-sm" style="border: none; box-sizing: border-box; display: block; vertical-align: middle; height: 0px; max-width: 100%; border-radius: 0.125rem; inset: 0px; padding: 0px; margin: auto; width: 0px; min-width: 100%; min-height: 100%; max-height: 100%;"></span></div></div><div class="gmail-relative gmail-flex gmail-w-[calc(100%-50px)] gmail-flex-col gmail-gap-1 gmail-md:gap-3 gmail-lg:w-[calc(100%-115px)]" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex"><div class="gmail-flex gmail-flex-grow gmail-flex-col gmail-gap-3" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex"><div class="gmail-min-h-[20px] gmail-flex gmail-flex-col gmail-items-start gmail-gap-4 gmail-whitespace-pre-wrap" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex;min-height:20px;white-space:pre-wrap">Is there a real life example of the above in real life, in particular in the attempt to understand a dead language?</div></div><div class="gmail-text-gray-400 gmail-flex gmail-self-end gmail-lg:self-center gmail-justify-center gmail-mt-2 gmail-gap-3 gmail-md:gap-4 gmail-lg:gap-1 gmail-lg:absolute gmail-lg:top-0 gmail-lg:translate-x-full gmail-lg:right-0 gmail-lg:mt-0 gmail-lg:pl-2 gmail-visible" style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin-top:0px;display:flex;padding-left:0.5rem"><button class="gmail-p-1 gmail-rounded-md gmail-hover:bg-gray-100 gmail-hover:text-gray-700 gmail-dark:text-gray-400 gmail-dark:hover:bg-gray-700 gmail-dark:hover:text-gray-200 gmail-disabled:dark:hover:text-gray-400 gmail-md:invisible gmail-md:group-hover:visible" style="border-width:0px;border-style:solid;border-color:rgb(217,217,227);font-family:inherit;font-size:16px;font-weight:inherit;line-height:inherit;margin:0px;padding:0.25rem;background-image:none;border-radius:0.375rem"></button></div><div class="gmail-flex gmail-justify-between" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex"></div></div></div></div><div class="gmail-group gmail-w-full gmail-text-gray-800 gmail-dark:text-gray-100 gmail-border-b gmail-border-black/10 gmail-dark:border-gray-900/50 gmail-bg-gray-50 gmail-dark:bg-[#444654]" style="border-width:0px 0px 1px;border-style:solid;border-color:rgba(0,0,0,0.1);box-sizing:border-box;width:1444.35px;font-family:Söhne,ui-sans-serif,system-ui,-apple-system,"Segoe UI",Roboto,Ubuntu,Cantarell,"Noto Sans",sans-serif,"Helvetica Neue",Arial,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol","Noto Color Emoji";font-size:14px"><div class="gmail-text-base gmail-gap-4 gmail-md:gap-6 gmail-md:max-w-2xl gmail-lg:max-w-2xl gmail-xl:max-w-3xl gmail-p-4 gmail-md:py-6 gmail-flex gmail-lg:px-0 gmail-m-auto" style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:auto;display:flex;padding:1.5rem 0px;font-size:1rem;line-height:1.5rem;max-width:48rem"><div class="gmail-w-[30px] gmail-flex gmail-flex-col gmail-relative gmail-items-end" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex;width:30px"><div class="gmail-relative gmail-h-[30px] gmail-w-[30px] gmail-p-1 gmail-rounded-sm gmail-text-white gmail-flex gmail-items-center gmail-justify-center" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex;height:30px;width:30px;border-radius:0.125rem;padding:0.25rem;background-color:black"></div></div><div class="gmail-relative gmail-flex gmail-w-[calc(100%-50px)] gmail-flex-col gmail-gap-1 gmail-md:gap-3 gmail-lg:w-[calc(100%-115px)]" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex"><div class="gmail-flex gmail-flex-grow gmail-flex-col gmail-gap-3" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex"><div class="gmail-min-h-[20px] gmail-flex gmail-flex-col gmail-items-start gmail-gap-4 gmail-whitespace-pre-wrap" style="border:0px solid rgb(217,217,227);box-sizing:border-box;display:flex;min-height:20px;white-space:pre-wrap"><div class="gmail-markdown gmail-prose gmail-w-full gmail-break-words gmail-dark:prose-invert gmail-light" style="border:0px solid rgb(217,217,227);box-sizing:border-box;max-width:none;font-size:1rem;line-height:1.75;width:652.997px"><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:0px 0px 1.25em">Yes, there have been attempts to use computational methods to decipher dead languages, such as Linear B, Ugaritic, and most famously, the Indus script. While some of these efforts have produced insights into the structure and content of these languages, many challenges remain, and the decipherment of these scripts is still an ongoing process.</p><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:1.25em 0px">One of the most successful examples of deciphering a dead language is the work of Michael Ventris and John Chadwick on Linear B, an ancient script used in Bronze Age Crete and Greece. Linear B was deciphered in 1952 by Ventris, an architect and amateur linguist, who used a combination of statistical analysis, pattern recognition, and knowledge of ancient Greek to crack the code. Ventris and Chadwick's work on Linear B laid the foundation for modern computational methods in decipherment.</p><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:1.25em 0px">In the case of the Indus script, which is still undeciphered, researchers have employed computational methods to analyze the statistical patterns in the script and gain insights into its possible structure and content. For example, Rajesh P.N. Rao, an Indian-American computer scientist, has used machine learning techniques, such as Markov models and clustering algorithms, to analyze the Indus script and compare it to other known languages. While these efforts have not yet led to a complete decipherment, they have provided valuable insights into the possible structure of the script and have helped to inform further research.</p><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:1.25em 0px">While there has been progress in using computational methods to decipher dead languages, it is important to note that these methods have limitations. In many cases, a deep understanding of the cultural, historical, and linguistic context is essential for accurate decipherment. Furthermore, deciphering a dead language often requires collaboration between researchers from various fields, including linguistics, archaeology, history, and computer science.</p><p style="border:0px solid rgb(217,217,227);box-sizing:border-box;margin:1.25em 0px 0px">In summary, computational methods have been employed in attempts to decipher dead languages, and in some cases, have provided valuable insights. However, the decipherment process is complex and requires a combination of computational techniques, expert knowledge, and interdisciplinary collaboration.</p></div></div></div></div></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sat, Mar 25, 2023 at 3:49 PM Jason Resch via extropy-chat <<a href="mailto:extropy-chat@lists.extropy.org">extropy-chat@lists.extropy.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr">Hi Gordon,</div><div dir="ltr"><br></div><div>Thanks for sharing this video. I watched and and found the following points of interest:</div><div dir="ltr"><br><div><b>1. She said they can't possibly be understanding as they are only seeing a sequence of characters and predicting distributions and what these models do is not the same thing as understanding language.</b></div><div>My Reply: These models demonstrate many emergent capabilities that were not things that were programmed in or planned. They can answer questions, summarize texts, translate languages, write programs, etc. All these abilities emerged purely from being trained on the single task of predicting text. Given this, can we be certain that "understanding" is not another one of the emergent capabilities manifested by the LLM?</div><div><br></div><div><b>2. She uses the analogy that the LLM looking at characters would be the same as a human who doesn't understand Cherokee looking at Cherokee characters.</b></div><div>My Reply: This is reminiscent of Searle's Chinese Room. The error is looking at the behavior of the computer only at the lowest level, while ignoring the goings-on at the higher levels. She sweeps all possible behavior of a computer under the umbrella of "symbol manipulation", but anything computable can be framed under "symbol manipulation" if described on that level (including what atoms, or neurons in the human brain do). This therefore fails as an argument that no understanding exists in the higher-level description of the processing performed by the computer program.</div><div><br></div><div><b>3. She was asked what a machine would have to do to convince her they have understanding. Her example was that if Siri or Alexa were asked to do something in the real world, like turn on the lights, and if it does that, then it has understanding (by virtue of having done something in the real world).</b></div><div>My Reply: Perhaps she does not see the analogy between turning on or off a light, and the ability of an LLM to output characters to a monitor as interacting in the real world (turning on and off many thousands of pixels on the user's monitor as they read the reply).</div><div><br></div><div><b>4. She admits her octopus test is exactly like the Turing test. She claims the hyper-intelligent octopus would be able to send some pleasantries and temporarily fool the other person, but that it has no real understanding and this would be revealed if there were any attempt to communicate about any real ideas.</b></div><div>My Reply: I think she must be totally unaware of the capabilities of recent models like GPT-4 to come to a conclusion like this.</div><div><br></div><div><b>5. The interviewer pushes back and says he has learned a lot about math, despite not seeing or experiencing mathematical objects. And has graded a blind student's paper which appeared to show he was able to visualize objects in math, despite not being sighted. She says the octopus never learned language, we acquired a linguistic system, but the hyper intelligent octopus has not, and that all the octopus has learned is language distribution patterns.</b></div><div>My Reply: I think the crucial piece missing from her understanding of LLMs is that the only way for them to achieve the levels of accuracy in the text that they predict is by constructing internal mental models of reality. That is the only way they can answer hypotheticals concerning novel situations described to them, or for example, to play chess. The only way to play chess with a LLM is if it is internally constructing a model of the board and pieces. It cannot be explained in terms of mere patterns or distributions of language. Otherwise, the LLM would be as likely to guess any potential move rather than an optimal move, and one can readily guarantee a chess board position that has never before appeared in the history of the universe, we can know the LLM is not relying on memory.  </div><div><br></div><div><b>6. The Interviewer asks what prevents the octopus from learning language over time as a human would? She says it requires joint-attention: seeing some object paired with some word at the same time.</b><br></div><div>My Reply: Why can't joint attention manifest as the co-occurrence of words as they appear within a sentence, paragraph, or topic of discussion?</div><div><br></div><div><b>7. The interviewer asks do you think there is some algorithm that could possibly exist that could take a stream of words and understand them in that sense? She answers yes, but that would require programming in from the start the structure and meanings of the words and mapping them to a model of the world, or providing the model other sensors or imagery. The interviewer confirms: "You are arguing that just consuming language without all this extra stuff, that no algorithm could just from that, really understand language? She says that's right.</b></div><div>My Reply: We already know that these models build maps of things corresponding to reality in their head. See, for example, the paper I shared where the AI was given a description of how rooms were connected to each other, then the AI was able to visually draw the layout of the room from this textual description. If that is not an example of understanding, I don't know what possibly could be. Note also: this was an early model of GPT-4 before it had been trained on images, it was purely trained on text.</div><div><br></div><div><b>8. She says, imagine that you are dropped into the middle of the Thai library of congress and you have any book you could possibly want but only in Thai. Could you learn Thai? The Interviewer says: I think so. She asks: What would you first do, where would you start? She adds if you just have form, that's not going to give you information. She then says she would have to find an encyclopedia or a translation of a book we know.</b></div><div>My Reply: We know there is information (objectively) in the Thai library, even if there were no illustrations or copies of books we had the translations to. We know the Thai library contains scruitable information because the text is compressible. If text is compressible it means there are discoverable patterns in the text which can be exploited to reduce the amount of bits needed to represent it. All our understanding can be viewed as forms of compression. For example, the physical laws that we have discovered "compress" the amount of information we need to store about the universe. Moreover, when compression works by constructing an internal toy model of reality, we can play with and permute the inputs to the model to see how it behaves under different situations. This provides a genuine understanding of the outer world from which our sensory inputs are based. I believe the LLM has successfully done this to predict text, it has various internal, situational models it can deploy to help it in predicting text. Having these models and knowing when and how to use them, I argue, is tantamount to understanding.</div><div><br></div><div><br></div><div>Jason</div><div><br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sat, Mar 25, 2023 at 4:30 PM Gordon Swobe via extropy-chat <<a href="mailto:extropy-chat@lists.extropy.org" target="_blank">extropy-chat@lists.extropy.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">I mentioned Emily Pender in another thread. She is Professor of Linguistics and Faculty Director of the Master's Program in Computational Linguistics at University of Washington.<br><br>In the other thread, I made the mistake of introducing her with her Octopus thought experiment which I soon realized from the responses here is easily misinterpreted outside of the context of her general thesis and the academic paper in which she introduced it. <br><br>As I learned from this interview, she and her colleague Koller wrote that paper in response to a twitter debate in which she found herself arguing with non-linguists who insist that language models understand language. Like me, she is critical of such claims. She considers them "hype."<br><br>The relevant material starts at the 26 minute mark.<br><br><a href="https://www.youtube.com/watch?v=VaxNN3YRhBA" target="_blank">https://www.youtube.com/watch?v=VaxNN3YRhBA</a><br> <br></div>
_______________________________________________<br>
extropy-chat mailing list<br>
<a href="mailto:extropy-chat@lists.extropy.org" target="_blank">extropy-chat@lists.extropy.org</a><br>
<a href="http://lists.extropy.org/mailman/listinfo.cgi/extropy-chat" rel="noreferrer" target="_blank">http://lists.extropy.org/mailman/listinfo.cgi/extropy-chat</a><br>
</blockquote></div></div>
_______________________________________________<br>
extropy-chat mailing list<br>
<a href="mailto:extropy-chat@lists.extropy.org" target="_blank">extropy-chat@lists.extropy.org</a><br>
<a href="http://lists.extropy.org/mailman/listinfo.cgi/extropy-chat" rel="noreferrer" target="_blank">http://lists.extropy.org/mailman/listinfo.cgi/extropy-chat</a><br>
</blockquote></div>