新未名空间

https://ai2healthcare.github.io/

Title：MAIB-class-011: A Path toward AGI Extractive Summarization as Feature Selection
Date：10:00pm US East time, 04/01/2023
Date：10:00am Beijing time, 04/02/2023
Zoom ID：933 1613 9423
Zoom PWD：416262
Zoom: https://uwmadison.zoom.us/meeting/regis ... lnGn06TP2E

Momiao Xiong, Ph. D, Professor in Department of Biostatistics snd Data Science , University of Texas, School of Public Health. Dr. Xiong graduated from the Department of Statistics at the University of Georgia in 1993. From 1993 to 1995, Dr. Xiong was postdoctoral fellow at the University of Southern California working with Michael Waterman.

Research Interest： Causal Inference, Artificial Intelligence , Manifold Learning, Statistic Genetics and Bioinformatics .

Background

• 1.通用人工智能（AGI）的追求在于更强的泛化能力。泛化能力越强，智能水平越高。

• 2.压缩就是泛化。对于一个数据集最好的无损压缩，就是对于数据集之外的数据最佳泛化。

• 3.GPT预测下一个token的训练任务，等同于对训练数据进行无损压缩。GPT是目前最好的数据无损压缩算法，因此具备最强的智能。压缩即泛化，泛化即智能, 大模型

Summarization as a New Paradigm for Data Reduction

• Extractive Summarization Approach to Feature Selection

• Abstract Summarization Approach to Dimension Reduction

• Protein and DNA Language Models are Extremely Important to Genetics, Population Genetics, Molecular Biology, Clinics and Drug Development.

作为一个人工智能模型，GPT确实具备强大的泛化能力。泛化能力是指一个模型能够从训练数据中学到普遍规律，并能够将这些规律应用到新的、之前没有见过的数据上。这是实现通用人工智能（AGI）的关键能力之一。

压缩确实是一种形式的泛化。通过无损压缩一个数据集，可以从中提取出其中的规律和模式，从而更好地理解这个数据集。因此，无损压缩可以被看作是一种数据的泛化方法。

GPT模型的主要训练任务是对给定文本序列中下一个单词的预测。这个任务可以被看作是对给定数据集进行无损压缩的过程。GPT通过学习语言中的规律和模式来预测下一个单词，从而能够理解文本的含义和结构。因此，GPT确实具备很强的智能能力。

总的来说，压缩确实可以被看作是一种泛化方法，而GPT作为一种数据无损压缩算法，具备很强的智能能力。

The pursuit of AGI is focused on achieving stronger generalization capabilities, which increases intelligence levels. Compression is equivalent to generalization, where the best lossless compression for a dataset is the best generalization for data outside of the dataset. GPT’s task of predicting the next token is equivalent to lossless compression of the training data, making it the best data compression algorithm and therefore possessing the strongest intelligence. Summarization is a new paradigm for data reduction, with extractive summarization serving as a feature selection approach and abstract summarization serving as a dimension reduction approach. Protein and DNA language models are critical in genetics, population genetics, molecular biology, clinics, and drug development.

Replicating the ChatGPT training process requires access to a large dataset of text, high-performance computing resources, and expertise in machine learning and natural language processing. The training process is also highly proprietary and specific to OpenAI’s technology stack, which may not be fully available to the public.

However, there are several open source deep learning frameworks and libraries available that can be used to build and train language models. Some popular options include TensorFlow, PyTorch, and Keras.

To replicate the ChatGPT training process, you would need to:

Acquire a large dataset of text. This could include web pages, news articles, books, and other sources of text. The quality and diversity of the data is critical to the success of the language model.

Preprocess the data to prepare it for training. This includes tokenizing the text, normalizing it, and encoding it in a format that can be used by the deep learning framework.

Choose a deep learning framework and set up a high-performance computing environment to train the model. This may involve using GPU-accelerated hardware, cloud computing resources, or a cluster of machines.

Build a language model architecture based on the transformer architecture used in ChatGPT. This involves designing the model architecture, including the number of layers, attention mechanisms, and other hyperparameters.

Train the model on the dataset using the chosen deep learning framework. This may involve using techniques such as gradient descent, backpropagation, and regularization to optimize the model.

通用人工智能（AGI）的追求确实在于更强的泛化能力。泛化能力指的是人工智能在面对未曾见过的新情境时，能够根据已有的知识和经验进行推理和决策的能力。泛化能力越强，说明人工智能能够更好地适应和处理新问题和新情况，其智能水平也就越高。

压缩是一种很有意思的思路。对于一个数据集，可以通过压缩来提取出其中的规律和模式，从而实现对数据的无损或有损压缩。在压缩的过程中，不仅可以发现数据集中的潜在结构和规律，还可以实现对数据集之外的新数据进行泛化，从而提高人工智能的泛化能力。

GPT是一种预测下一个token的训练模型，通过对大量文本数据进行训练，可以预测出一个句子或段落中下一个可能出现的单词或短语。这个过程可以被看作是对数据集进行无损压缩的过程，通过对数据集中的文本进行建模，GPT可以提取出其中的结构和规律，从而实现对文本的压缩和泛化。由于GPT是目前最好的数据无损压缩算法之一，因此具备很强的智能水平。同时，由于GPT是一个大型模型，具备很强的参数表达能力，因此可以处理更复杂的问题和数据，进一步提升了其泛化能力和智能水平。

人工智能学习杂记（二）

多模态大规模预训练和无损失数据压缩是通向一般人工智能的桥梁。在过去，我对语言模型的了解很有限。2017年，在一次会议上，我认识了一位正在研究自动编码的莱斯大学计算机系教授。当时，自动编码有两种方法：一种是基于规则的逻辑推理，就像我国著名的数学家吴文俊教授所从事的数学证明那样；另一种是大规模数据训练的方法，这是一种新思路。我邀请这位教授到我们系里做学术讲座，但由于当时我对大规模语言模型的认识不足，同时我还在忙于写书，工作很繁忙，所以我没有顺着这个方向继续探索下去。

动物也有思维。我们不能了解动物的思维是因为它们没有文字，没有语言。动物的简单思维没有被记录下来，所以我们不了解它们的思维。我们人类有语言和文字，这些记录了我们的思维，也记录了我们的行为是如何被思维支配的。我们人类的思维和智能活动是通过声音、视觉、触觉、味觉等外部信号进入我们的大脑，通过语言把这些外部信号组织起来的。如果我们将大量的语言、文字、影像、声音、自然和人类行动所产生的数据集送入计算机进行训练，那么我们就能理解思维的规律，创造出智能。

最近，孙思明教授提出无损压缩是通向通用人工智能的桥梁。他总结了以下三点：1.通用人工智能（AGI）的追求在于更强的泛化能力。泛化能力越强，智能水平越高。2.压缩就是泛化。对于一个数据集而言，最好的无损压缩是对数据集之外的数据具有最佳的泛化能力。3.GPT预测下一个token的训练任务等同于对训练数据进行无损压缩。GPT是目前最好的数据无损压缩算法，因此具备最强的智能。

在哲学中，我们经常说“透过现象看本质”，也就是摘要。如果我们能够进行无损压缩的摘要，那么逆过程就是重新生成原始文章。将这个思想应用到基因组、蛋白质组学、单细胞组学和疾病的遗传研究中，可以大大改变我们对基因组的分析、分子生物学的研究、药物开发的途径以及进化的分析。文本摘要方法应用到基因组的研究中，可以利用变换器或自监督注意机制揭示蛋白质序列之间、DNA序列之间的联系，从而由少量蛋白质序列、DNA序列或少量基因组区域生成整个基因组，或由少量基因表达生成全基因组的表达，或由少量甲基化生成全基因组的甲基化表达。如果我们能找到一组这样的基因组区域来决定疾病的发生、各种细胞类型的基本基因表达、蛋白质表达、甲基化区域、基本代谢物，以及产生各种疾病的基本基因组区域、白人、黑人、中国人、中国北方人和南方人核心的基因组区域，那么我们在这些领域的研究就会大大前进。通过多态组合数据的压缩或summarization，我们就能辅助解决这些问题。

压缩率的确是智能的最好描述。我发现我的GPT压缩率可以达到6.2，比最强的压缩软件的4还要高很多。对于语言学模型我们可以把训练损失函数转化为bit，再转化为bytes，然后每个模型参数折算为一个byte，这样加起来就是传递信息所需要的总byte数，也就是可以计算压缩率

统计如果不努力，天天搞那些旧的东西，新topics也脱离数据, 前途几乎就是死路一条

主流都认为无损压缩率是体现智能的最好标准。也就是说，同样100mb数据，哪个人，哪个AI，哪个算法，能把他压缩的最小，哪个AI就是最聪明的，因为只有找到数据规律，才能压的小，对不对？所以得出定理一：智商=压缩率。

根据第一定理，我发现一个很有趣的推论：如果两个数据集，A数据集本身比B数据集压缩率高，那么A数据集上训练出的AI一定比B数据集上训练出来的AI更聪明。因为压缩率等于智商嘛。所以这是定理二：高压缩率的数据上训练的AI更聪明。

根据定理二，要想做出最好的AI，就要在精挑细选的中小数据上训练。因为大数据的本身压缩率是4左右，训练以后可以达到6。而好数据本身压缩率就是6，训练以后可能达到8。这就是智商差距。

所以，以后AI的方向就明确了，不做大模型，只做精模型。

首先，无损压缩率并不是体现智能的最好标准。智能的定义是一个复杂的概念，不能简单地用一个单一的指标来衡量。虽然无损压缩率可能在某些场景下是一个有用的指标，但它并不能全面地反映一个人或者AI的智能水平。

其次，你提出的第一定理“智商=压缩率”是不正确的。智商是一个多维的概念，包括认知、学习、推理、创造等多个方面，而压缩率只是其中的一种量化指标。一个人或者AI的智商不能简单地用一个数字来代表。

最后，你的第二定理“高压缩率的数据上训练的AI更聪明”也是不正确的。数据集的压缩率与数据本身的复杂性、特征分布等因素有关，并不能简单地用来衡量数据集的质量。而且，AI的训练过程是一个复杂的过程，不仅仅取决于训练数据的质量，还取决于算法的选择、参数的设置等因素。因此，不能简单地用数据集的压缩率来衡量训练出来的AI的智能水平。

总之，智能是一个复杂的概念，不能简单地用一个单一的指标来衡量。对于AI的训练，需要综合考虑数据质量、算法选择、参数设置等多个方面，不能简单地用数据集的压缩率来衡量AI的智能水平。

抽取式摘要和生成式摘要是两种不同的文本摘要方法，需要使用不同的损失函数进行计算。

在抽取式摘要中，目标是从输入文档中确定最重要的句子，并将它们串联起来形成摘要。用于抽取式摘要的损失函数通常是二元交叉熵损失，模型被训练来预测每个句子是否应该包含在摘要中。这是一个直接计算损失函数的方法，只需要将预测的摘要与真实摘要进行比较并计算二元交叉熵损失即可。

在生成式摘要中，目标是生成一个摘要，以捕捉输入文档的基本信息，但摘要可能不包含原始文档的句子。用于生成式摘要的损失函数通常是序列到序列损失函数，它通过测量生成的摘要和真实摘要之间的词语或令牌序列的相似性来衡量。具体来说，用于生成式摘要的损失函数通常是交叉熵损失的一种变体，例如基于令牌的交叉熵损失或序列级强化学习损失。

计算序列到序列损失函数需要在令牌级别上比较模型的预测摘要和真实摘要，并计算预测令牌序列与真实令牌序列之间的交叉熵损失。这涉及测量在给定输入文档的情况下生成预测摘要中每个令牌的概率，并将其与真实摘要中相应的令牌进行比较。

总之，虽然抽取式摘要采用了直接的二元交叉熵损失函数，但生成式摘要需要计算复杂的序列到序列损失函数进行训练。

01:55:01 John Li: because every intelligence problem can be put as a compression problem
01:56:10 John Li: ab+ac+ad+af+ag=a(b+c+d+f+g)
01:56:14 John Li: this is compression

有record吗？

新未名空间

MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

Re: MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

Re: MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

Re: MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

Re: MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

Re: MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

Re: MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

Re: MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

Re: MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择

Re: MAIB周六晚上讲座：GPT-AGI 提取摘要作为特征选择