MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

生物制药相关,包括biotech和pharma,股票分析,工作内推,简历评估,职业规划,研发交流,FDA资讯等

版主: Tlexander

回复
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

Speaker: Dr. Lei Xiong (熊磊) @ MIT, Massachusetts Institute of Technology
Title: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction
Date:10:00pm US East time, 03/25/2023
Date:10:00am Beijing time, 03/26/2023
Zoom ID:933 1613 9423
Zoom PWD:416262
URL: https://uwmadison.zoom.us/meeting/regis ... lnGn06TP2E
Title:
SCALE: Single-cell ATAC-seq analysis via latent feature extraction
Bio:
熊磊,MIT 博士后,博士毕业于清华大学生命学院。主要研究方向是利用深度学习技术开发单细胞基因组分析工具。主要工作发表在Nature Communications期刊上。
Background:
细胞异质性是生命的普遍特征,广泛影响着包括发育、神经和肿瘤等生命现 象。对于多细胞个体而言,尽管所有细胞的基因组是相同的,但是由于调控基因 表达的表观基因组不同,使得不同细胞的基因差异表达,从而呈现出不同形态功 能。因此,从表观基因组层面理解并揭示细胞异质性的机制非常重要。 单细胞技术可以准确高效地分离出单个细胞,并结合高通量测序技术,可以 检测单细胞精度的 DNA、RNA 和蛋白质等层面的细胞差异,广泛应用于细胞异质 性的研究。近年来不断发展的单细胞 ATAC-seq(scATAC-seq)技术借助 Tn5 转座 酶在单细胞水平上特异性地标记并检测染色质的开放区间,揭示了基因表观调控 层面的细胞间的差异。 然而,由于高通量技术的限制,无法有效检测每一个单细胞的所有信号;此 外,二倍体基因组的染色质上开放位点一般最多只有两个拷贝,而整个基因组的 能检测到开放位点的数目有几十万之多,导致许多信号丢失。因此,单细胞 ATAC-seq 数据具有异常的高维度和稀疏性等特点,使得数据分析变得极具挑战。 在本论文中,我们结合了变分自编码器和高斯混合概率模型,开发了对单细 胞ATAC-seq数据进行分析的方法,叫做Single-cell ATAC-seq analysis via Latent feature Extraction(SCALE)。首先,SCALE准确对单细胞ATAC-seq数据的概率 分布进行建模,并通过提取隐层特征的方式,将高维的数据降维至低维空间,解 决了维度灾难问题。由于相同类型的细胞数据类似,我们引入高斯混合模型对细 胞聚类并通过共享参数,学习同类型细胞的共有特征,实现了同类型细胞之间互 相填补缺失信息,从而解决了数据稀疏性问题。 我们在不同实验方法、实验平台来源的不同质量的数据集上验证了 SCALE 在 包括可视化、聚类、填补缺失值等方面的性能都显著地优于其他方法。此外,我 们还发现 SCALE 提取的特征不但可以用来解释细胞类群的生物学功能,还可以用 来揭示单细胞 ATAC-seq 实验中的潜在的批次效应。网址:https://github.com/jsxlei/SCALE
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

本文介绍了单细胞ATAC-seq技术在细胞异质性研究中的应用,以及该技术在数据分析中的挑战。为了解决数据高维度和稀疏性的问题,作者提出了一种新的分析方法SCALE,该方法使用变分自编码器和高斯混合模型对单细胞ATAC-seq数据进行建模和分析。SCALE能够准确地对单细胞ATAC-seq数据进行建模,降低数据的维度,并通过共享参数学习同类型细胞的共有特征,从而填补缺失信息。实验证明,SCALE在可视化、聚类和填补缺失值方面的性能都优于其他方法。此外,SCALE还可以揭示单细胞ATAC-seq实验中的潜在批次效应。
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

单细胞ATAC-seq技术在细胞异质性研究中具有广泛应用前景,未来的发展机遇和重要性包括:

深入理解细胞异质性的机制:单细胞ATAC-seq技术可以高通量地检测单个细胞基因组的开放区间,揭示不同类型细胞之间的表观遗传学差异,从而深入理解细胞异质性的机制。

为疾病研究提供新的视角:单细胞ATAC-seq技术可以揭示在发育、生长和疾病过程中基因组的动态变化。因此,它将为疾病的早期诊断和治疗提供新的视角。

推动基因组学和表观基因组学的发展:单细胞ATAC-seq技术可以为基因组学和表观基因组学研究提供更加准确和全面的数据。未来,该技术将有助于解决基因组学和表观基因组学领域中的许多重要问题。

促进个性化医疗的发展:单细胞ATAC-seq技术可以为个性化医疗提供更为准确的数据,例如,识别癌症细胞中的表观基因组变化,从而为患者提供更为精准的治疗方案。

提高数据分析的准确性和效率:单细胞ATAC-seq技术的高维度和稀疏性数据分析仍然面临挑战。未来,需要发展更加高效和准确的数据分析方法,以推动该技术的应用和发展。
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

单细胞 ATAC-seq 和 scRNA-seq 都可以提供单个细胞的基因表达信息,但是它们所提供的信息不同,可以互相补充。因此,将这两种技术的数据整合起来可以提供更全面和深入的单细胞转录组学和表观基因组学信息,有助于深入理解细胞异质性和功能。

下面是一些常见的单细胞 ATAC-seq 和 scRNA-seq 数据整合分析方法:

1.多模态因子分析 (MMFA): MMFA 可以同时分析多个单细胞数据集,并将它们在同一低维表示中进行比较。该方法可以将细胞的 ATAC-seq 和 RNA-seq 数据进行整合,并在低维空间中显示它们之间的关系。

2.变分自编码器(VAE):VAE是一种无监督学习方法,可以对单细胞 ATAC-seq 和 RNA-seq 数据进行整合。通过训练一个联合的 VAE,可以将两种数据类型映射到同一空间中,从而在低维空间中对它们进行比较和可视化。

3.整合聚类分析(iCluster):iCluster 是一种常用的单细胞数据整合方法,可以将不同细胞类型的 ATAC-seq 和 RNA-seq 数据分别聚类,然后将它们进行整合,从而更好地解释单细胞异质性和功能。

4.SingleCellSignalR:SingleCellSignalR是一种单细胞信号通路分析工具,可以将单细胞 RNA-seq 和 ATAC-seq 数据进行整合,从而对单个细胞的信号通路进行推断。

总之,单细胞 ATAC-seq 和 scRNA-seq 数据整合分析有助于更全面和深入地理解细胞异质性和功能,这对于许多生物学领域的研究都具有重要的意义。
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

单细胞 ATAC-seq 可以对生物制药产生辅助作用的方式主要有两个方面:

了解细胞类型和状态

生物制药的研究中,通常需要了解药物在不同细胞类型中的表达情况和调控机制。单细胞 ATAC-seq 可以检测到不同细胞类型之间基因组的开放程度和调控区域的变化,从而揭示细胞类型和状态的差异。结合 scRNA-seq 数据,可以进一步确定药物的作用靶点和影响的细胞类型,为生物制药的研究和开发提供重要的辅助信息。

优化药物筛选和评估

生物制药的研究中,药物筛选和评估是非常重要的环节。单细胞 ATAC-seq 可以检测到基因组的开放程度和调控区域的变化,这些变化可以反映药物对细胞的影响。与传统的药物筛选方法相比,单细胞 ATAC-seq 可以提供更加全面和准确的信息,从而优化药物筛选和评估的效率和精度。

综上所述,单细胞 ATAC-seq 可以为生物制药的研究和开发提供重要的辅助信息,从而加速药物的开发和上市。
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

Latent feature extraction 是指从原始数据中提取出一组隐含特征,这些特征可以用来更好地描述数据,并且可以用于各种机器学习和数据分析任务。以下是几种常见的 latent feature extraction 方法:

主成分分析(PCA):PCA 是一种线性降维方法,可以将高维数据转化为低维数据,并尽量保留数据的原始信息。PCA 通过找到最大方差的主成分来实现这一点。

独立成分分析(ICA):ICA 也是一种线性降维方法,但与 PCA 不同的是,ICA 假设原始数据是由多个相互独立的成分组成的。ICA 的目标是将原始数据分解成这些独立的成分。

因子分析(FA):FA 是一种非线性降维方法,可以将高维数据转化为低维数据,并且可以考虑到潜在因素之间的相关性。FA 假设原始数据是由潜在因素和随机误差组成的。

自编码器(Autoencoder):自编码器是一种非线性降维方法,可以用来学习原始数据的高维表示,并将其转化为低维表示。自编码器通常由一个编码器和一个解码器组成,编码器将原始数据映射到低维空间,解码器将低维表示还原成原始数据。

t-SNE:t-SNE 是一种非线性降维方法,可以将高维数据转化为低维数据,并且可以保留数据的局部结构。t-SNE 通过最小化高维空间和低维空间之间的 KL 散度来实现这一点。

这些方法各有优缺点,并且在不同的数据和任务上表现也不同。选择合适的方法需要考虑数据的特征和具体的任务需求。
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

自编码器(Autoencoder)是一种无监督学习的神经网络模型,其目的是将输入数据压缩到一个低维编码(latent code)中,然后从编码中重建原始数据,以实现数据的重构或降维。

自编码器的基本结构包括编码器和解码器两个部分。编码器将输入数据映射到一个低维编码中,该编码通常比原始数据的维度小很多。解码器则将编码映射回原始数据空间,并尝试重建原始数据。

训练自编码器的目标是最小化输入和重建数据之间的差异,可以使用各种不同的损失函数,如均方误差(MSE)或交叉熵(cross-entropy)。通过降低损失函数,自编码器学习压缩输入数据,并从压缩的表示中重建原始数据。

自编码器的应用非常广泛,包括图像处理、语音信号处理、推荐系统等。其中,最常见的应用是图像压缩和图像去噪。自编码器还可以用于特征提取和降维,可以作为监督学习模型的前处理步骤,从而提高监督学习的性能。
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

选择损失函数的方法和标准因任务而异。以下是一些常见的选择方法和标准:

根据任务类型选择:不同的任务类型需要不同的损失函数。例如,分类任务通常使用交叉熵损失函数,回归任务通常使用均方误差损失函数。

根据数据类型选择:不同类型的数据需要不同的损失函数。例如,对于图像数据,像素值通常在0到255之间,因此损失函数应该考虑到这个范围。

根据模型类型选择:不同类型的模型需要不同的损失函数。例如,对于生成对抗网络(GAN),损失函数通常由两部分组成:生成器的损失函数和判别器的损失函数。

根据任务目标选择:损失函数应该与任务目标相匹配。例如,如果任务目标是最大化准确率,则可以选择交叉熵损失函数。

根据模型训练过程选择:有时候,损失函数的选择可能会影响模型训练过程。例如,均方误差损失函数可能会导致梯度消失问题,因此在这种情况下可以选择其他类型的损失函数。

总之,选择适当的损失函数是深度学习中非常重要的一步。在选择时需要考虑到任务类型、数据类型、模型类型、任务目标和模型训练过程等因素。
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

自编码器(Autoencoder)是一种无监督学习算法,可以用于降维、特征提取、数据去噪、生成等任务。它由编码器(Encoder)和解码器(Decoder)两部分组成,可以用图形化的方式表示为:

下面是自编码器的组成框架和每个部分的解释:

输入层(Input Layer):自编码器的输入数据。

编码器(Encoder):由多个隐藏层(Hidden Layer)组成,用于将输入数据映射到潜在空间(Latent Space)中的编码。

潜在空间(Latent Space):编码器输出的编码所在的空间,是一个低维的表示。

解码器(Decoder):由多个隐藏层组成,用于将编码映射回原始数据空间,从而重构输入数据。

输出层(Output Layer):自编码器的输出数据,应该与输入数据尽可能接近。

在训练自编码器时,通常采用重构误差(Reconstruction Error)作为损失函数,也称为重建损失(Reconstruction Loss),即输入数据和输出数据之间的均方误差(Mean Squared Error,MSE),或者交叉熵损失(Cross Entropy Loss),目标是最小化重构误差,从而学习到更好的特征表示。

自编码器可以通过调整编码器和解码器的层数和神经元数量、激活函数、损失函数等超参数来进行优化和改进。例如,可以添加正则化项、使用卷积自编码器、变分自编码器(Variational Autoencoder,VAE)等改进版的自编码器来解决一些实际问题。
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

The SCALE (Single-Cell ATAC-seq Latent feature Extraction) method is a computational approach used for the analysis of single-cell ATAC-seq data. The method was developed to address the challenges of analyzing the high-dimensional, sparse and noisy data generated by single-cell ATAC-seq experiments.

SCALE uses a non-linear dimensionality reduction method called Non-negative Matrix Factorization (NMF) to extract the latent features from the single-cell ATAC-seq data. The NMF method decomposes the high-dimensional data into a lower-dimensional representation of latent features, which capture the underlying structure and variability in the data.

The SCALE method consists of three main steps:

1. Data preprocessing: In this step, the raw single-cell ATAC-seq data is processed to generate a count matrix, where each row represents a genomic region and each column represents a single cell. The count matrix is then filtered to remove low-quality cells and noisy genomic regions.

2. Latent feature extraction: The filtered count matrix is then subjected to NMF, which extracts a set of latent features that capture the variability in the data. The number of latent features is determined using a cross-validation approach.

3. Clustering and analysis: The latent features are then used to cluster the cells based on their epigenetic profiles. The clustering results can be visualized using t-SNE or UMAP plots. The differential accessibility analysis can also be performed to identify the genomic regions that are differentially accessible between the cell clusters.

The SCALE method has been shown to outperform other methods for single-cell ATAC-seq analysis, particularly in identifying rare cell types and detecting subtle differences in cell states. It has been applied to various biological systems and has provided insights into the epigenetic regulation of cellular processes.
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

马上开始
Tlexander楼主
论坛点评
论坛点评
帖子: 2747
注册时间: 7月 22, 2022, 5:34 pm

Re: MAIB讲座第11期: SCALE: Single-cell ATAC-seq analysis via latent feature extraction

帖子 Tlexander楼主 »

回复

回到 “生物制药(Pharmaceutical)”