当前位置：首页 > 数码 > 了解变分智能编码器-生成反抗网络-VAE-Transformer-GAN-生成式人工智能模型的类型-分散模型-NeRF-和神经辐射场 (变分原理是什么)

了解变分智能编码器-生成反抗网络-VAE-Transformer-GAN-生成式人工智能模型的类型-分散模型-NeRF-和神经辐射场 (变分原理是什么)

admin1年前 (2024-04-17)数码114

为义务选用正确的Gen模型须要了解每个模型经常使用的技术及其特定才干，上方请了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。

以前，大少数人工智能模型都专一于更好地处置、剖析和解释数据。直到最近，在所谓的生成神经网络模型方面的打破带来了一系列用于创立各种内容的新工具，从照片和绘画到诗歌、代码、电影剧本和电影。

顶级AI生成模型概述

钻研人员在2010年代中期发现了新的生成AI模型的前景，过后开发了变分自编码器（VAEs）、生成反抗网络（GAN）和分散模型（Diffusion）。2017年问世的转换器（Transformers）是一种打破性的神经网络，可以大规模剖析大型数据集以智能创立大型言语模型（LLM）。2020年，钻研人员引入了神经辐射场（NeRF），这是一种从3D图像生成2D内容的技术。

这些极速开展的生成模型是一项正在启动的上班，由于钻研人员所做的调整理论会造成渺小的提高，而且清楚的停顿并没有放缓。模型架构在不时变动，新的模型架构将继续开发，在加州大学伯克利分校任教的怀特说。

每个模型都有其特殊的才干，目前，分散模型（Diffusion）在图像和视频分解畛域体现意外杰出，转换器模型（Transformers）在文本畛域体现良好，GAN长于用正当的分解样原本扩大小数据集。但是选用最佳模型一直取决于特定的用例。

一切的模型都不相反，人工智能钻研人员和ML（机器学习）工程师必定为适当的用例和所需的性能选用适宜的一个，并思考模型在计算、内存和资本方面或者存在的限度。

特意是转换器模型，推进了生成模型的最新停顿和兴奋。人工智能模型的最新打破来自对少量数据的预训练模型，以及经常使用自我监视学习来训练没有明白标签的模型，数字化转型咨询公司UST的首席人工智能架构师AdnanMasood说。

例如，的生成式预训练转换器系列模型是该类别中最大，最弱小的模型之一，比如模型之一GPT-3蕴含175亿个参数。

顶级生成式AI模型的关键运行

Masood解释说，顶级生成AI模型经常使用不同的技术和方法来生成新数据。关键配置和用途包括：

上方让咱们更具体地引见每种方法。

VAE于2014年开发，旨在经常使用神经网络更有效地编码数据。

人工智能剖析平台Sisense的AI担任人YaelLev示意，VAE学会更有效地示意信息。它们由两局部组成：一个编码器（encoder），使数据更小，另一个解码器（decoder），使数据复原到原始方式。它们十分适宜从较小的信息中创立新示例，修复喧闹的图像或数据，在数据中发现意外内容并填充缺失的信息。

但是，VAE也偏向于发生含糊或低品质的图像，UST的Masood说。另一个疑问是，潜在空间（用于捕捉数据结构的低维空间）盘根错节且具有应战性。这些弱点或者会限度VAE在高品质图像或对潜在空间的明晰了解至关关键的运行中的有效性。VAE的下一次性迭代或者会并重于提高生成数据的品质，提高训练速度并探求其对顺序数据的实用性。

GANs于2014年开发，用于生成真切的面部和打印数字。GAN将创立实在内容的生成神经网络与用于检测虚伪内容的判别神经网络统一起来。逐渐的，两个网络融合发生与原始数据不可辨别的生成图像普华永道全球人工智能担任人AnandRao说。

GAN理论用于图像生成、图像编辑、超分辨率、数据增强、格调传输、音乐生成和深度伪造创立。GAN的一个疑问是，它们或者会遭受形式解体，其中生成器发生有限和重复的输入，使它们难以训练。Masood说，下一代GAN将专一于提高训练环节的稳固性和融合性，将其实用性扩大到其余畛域，并开发更有效的评价目的。GAN也很难优化和稳固，并且对生成的样本没有明白的控制。

分散模型由斯坦福大学的一组钻研人员于2015年开发，用于模拟和反转熵和噪声。分散技术提供了一种模拟现象的方法，例如盐等物质如何分散到液体中，而后逆转它，此相反模型还有助于从空白图像生成新内容。

分散模型是以后图像生成的首选，它们是盛行的图像生成服务的基本模型，例如Dall-E2，StableDiffusion，Midjourney和Imagen。它们还用于管道中生成语音、视频和3D内容。此外，分散技术还可用于数据插补，其中预测和生成缺失数据。

许多运即将分散模型与LLM配对，用于文本到图像或文本到视频生成。例如，StableDiffusion2经常使用对比言语-图像预训练模型作为文本编码器，它还减少了用于深度和更新的模型。

Masood预测，对稳固分散等模型的进一步改良或者并重于改良负面揭示，增强以特定艺术家格调生成图像的才干，并改善名人图像。

Transformers

转换器模型是由Brain的一个团队于2017年开发的，旨在改善言语翻译，它们十分适宜以与给定顺序不同的顺序处置信息，并行处置数据并经常使用未标志的数据扩大到大型模型。

它们可用于文本摘要、聊天机器人、介绍引擎、言语翻译、常识库、超共性化（经过偏好模型）、情感剖析和命名实体识别，以识别人、地点和事物。它们还可用于语音识别，如OpenAI的耳语，视频和图像中的对象检测，图像字幕，文本分类优惠和对话生成。

虽然 Transformers 具有多配置性，但它们确实存在局限性。它们的训练老本或者很高，并且须要大型数据集。由此发生的模型也相当大，这使得识别偏向或不准确结果的起源变得具有应战性。马苏德说：它们的复杂性也使得解释其外部运作变得艰巨，阻碍了它们的可解释性和透明度。

Transformer模型架构

NeRF于2020年开发，用于将光场的3D示意捕捉到神经网络中，第一次性实施十分缓慢，须要几天时间才干捕捉第一个3D图像。

但是，在2022年，英伟达的钻研人员找到了一种在大概30秒内生成新模型的方法。这些模型可以示意3D对象-具有相当的品质-以几兆字节为单位，而其余技术可以占用千兆字节。它们有宿愿能够带来更有效的技术来捕捉和生成元宇宙中的3D对象。英伟达钻研总监亚历山大·凯勒（AlexanderKeller）说，NeRFs最终或者对3D图形的关键性与数码相机对现代摄影的关键性一样关键。

Masood说，NeRF在机器人，市区测绘，自主导航和虚构理想运行方面也显示出渺小的后劲。但是，NERF的计算老本依然很高，将多个NERF组分解更大的场景也很具有应战性，当天NeRF惟一可行的用例是将图像转换为3D对象或场景。虽然存在这些限度，Masood预测NeRF将在基本图像处置义务中找到新的角色，例如去噪，去含糊，上采样，紧缩和图像编辑。

GenAI生态系统启动时

关键的是要留意，这些模型正在启动中，钻研人员正在寻求改良单个模型以及将它们与其余模型和处置技术相结合的方法。Lev预测，生成模型将变得愈加通用，运行程序将扩大到传统畛域之外，用户还可以更有效地指点AI模型，并了解它们如何更好地上班。

在多模态模型上也有上班正在启动中，这些模型经常使用检索方法来调用针对特定义务优化的模型库。他还宿愿生成模型能够开发其余配置，例如启动API调用和经常使用外部工具，例如，依据公司的呼叫中心常识微调的LLM将提供疑问的答案并口头缺点扫除，例如重置客户调制解调器或在疑问处置时发送电子邮件。

理想上，当天盛行的模型架构最终或者会在未来被更高效的物品所取代。当新架构出现时，兴许Diffusion和Transformer模型将不再有用，怀特说。咱们在Diffusion上看到了这一点，由于它们的引入使得长短期记忆算法和RNN（递归神经网络）对人造言语运行的方法不太无利。

有人预测，生成AI生态系统将演化为三层模型，基础层是一系列基于文本、图像、语音和代码的基础模型，这些模型摄取少量数据，基于大型深度学习模型构建，并结合了人类判别。接上去，特定于行业和配置的畛域模型将改善医疗保健、法律或其余类型的数据的处置。在顶层，公司将经常使用专有数据及其主题专业常识来构建专有模型。这三个层将推翻团队开发模型的方式，并将迎来模型即服务的新时代。

如何选用生成式AI模型：首要留意事项

依据Sisense的Lev的说法，在模型之间启动选用时的首要思考要素包括以下内容：

您要处置的疑问。 选用已知实用于您的特定义务的模型。例如，将转换器用于言语义务，将NeRF用于3D场景。

数据的数量和品质。 Diffusion须要少量良好的数据才干反常上班，而VAE则在数据较少的状况下上班得更好。

结果的品质。 GAN更适宜明晰和具体的图像，而VAE更适宜更平滑的结果。

训练模型的难易水平。 GAN或者很难训练，而VAE和Diffusion更容易。

计算资源要求。 NeRF和Diffusion都须要少量的计算机才干才干反常上班。

须要控制和了解。 假设您想更好地控制结果或更好地了解模型的上班原理，VAE或者比GAN更好。

生成式是什么意思

生成式的意思是指一种基于模型的方法，用于生成新的数据、文本、图像等。

它是机器学习和人工智能领域中的重要概念，通过训练模型，使其能够自动地产生符合特定条件或规则的新样本。

1.生成式模型的基本原理

生成式模型是一种基于概率理论的模型，其目标是学习输入数据的分布情况，然后通过该分布来生成新的数据样本。生成式模型通常使用概率分布函数来描述样本之间的关系，并使用这些分布函数进行采样操作，生成新的数据。

2.生成式模型的应用领域

生成式模型在众多领域中都有广泛的应用，例如自然语言处理、计算机视觉、音频处理等。在自然语言处理中，生成式模型可以用于生成文章、对话以及机器翻译等任务；在计算机视觉领域，生成式模型可以用于图像生成、图像修复等任务；在音频处理领域，生成式模型可以用于语音合成和音乐生成等任务。

3.生成式模型的常见算法

生成式模型有许多常见的算法，其中最为常见的包括：生成对抗网络、变分自编码器、自回归模型等。生成对抗网络是一种包含生成器和判别器两个网络的框架，通过互相博弈的方式使得生成器能够逐渐生成更逼真的样本。

变分自编码器是通过学习输入数据的潜在分布来进行生成的模型，它结合了自编码器和概率建模的思想。自回归模型则是通过建立样本自身的条件概率分布来进行生成，例如语言模型中的N-gram模型和LSTM模型。

总结：

生成式是一种基于模型的方法，用于生成新的数据、文本、图像等。它通过训练模型学习输入数据的分布情况，然后使用该分布来生成新的样本。生成式模型在自然语言处理、计算机视觉、音频处理等领域中有广泛的应用。

常见的生成式模型算法包括GAN、VAE、自回归模型等。评价生成式模型的指标主要包括多样性、质量和相似度。生成式模型在面临挑战的同时，也有着广阔的发展前景。

生成式模型入门： GAN 与 VAE——“以假乱真”的哲学

在图像处理中，比较常见的任务有识别、检测、追踪等，这些任务的模型通常在训练阶段通过参数估计学得如何提取输入图像的特征，并建立输入图像与输出之间的映射，在应用阶段之间提取输入图像的特征，以得到相应的结果。

但有这样一类特殊的模型，其参数估计的目的不是通过提取特征来建立输入输出之间的映射，而是学习训练数据的分布，从而模型在应用阶段能够生成与训练数据相似的图像，通常这些图像与真实图像极为相似，我愿称之为“以假乱真”的哲学，这类模型就是生成式模型。

基于特定分布进行数据生成，是近年来机器学习领域研究和落地，通常由由模型通过学习一组数据的分布，然后生成类似的数据。在机器学习领域，主流的生成模型共有 4 类：

这 4 类模型是基于不同的原理构建的，在本文中，我将介绍最常被用到的两类模型—— GAN 和 VAE。

生成式对抗网络（Generative adversarial net, GAN）是一种基于对抗学习的深度生成模型，最早由 Ian Goodfellow 在《Generative Adversarial Nets》提出，一经提出就成为了学术界研究的热点，Ian Goodfellow 也因此被人称为“GANs 之父”（没错，就是那个写了花书的大佬ヾ(≧▽≦*)o ）。

想必看过金庸小说的同学们都知道，“老顽童”周伯通有一样异于常人的本领——左右互博，有了这样一门武功，一来只有自己一个人也能玩得不亦乐乎，二来自己一个人就能切磋武艺。那是不是神经网络也可以通过这种方式来“修炼功夫”？对抗学习就是基于这样的思想。

GAN 的思想很简单，总结起来就是以假乱真、相互对抗，而它的做法也是非常之简单粗暴，同时（或者说交替）训练两个网络，通过两个网络之间的博弈，从而达到互相促进的作用。

在 GAN 的整体框架中，用于训练的模型由两个网络组成，一个网络是生成器 G（generator），用于数据的生成；另一个网络是判别器 D （discriminator），用于对生成器生成的数据和训练数据进行真假判别。就拿图像生成为例，在图像生成模型的训练过程中：

在训练过程中，生成器和判别器就像是两个相互博弈的人，生成网络 G的目标就是尽量生成真实的图像去欺骗判别网络 D ，而 D的目标就是尽量把 G生成的图片和真实的图片分别开来。通过相互对抗，生成网络的生成能力和判别网络的判别能力将越来越强，最终当模型收敛时，我们将得到一个生成效果较好的生成器。

为了描述 GAN 如何完成这个博弈过程，我们先定义 GAN 目标函数：让我来解释一下这个公式：

借用论文里的一张图来说明这个过程，如下图：

在实际实现中，两个网络的更新是交替进行的，这导致在超参数调节不合适时，会出现参数更新不平衡的问题，不过这个问题不是这篇博客讨论的重点，暂且挂起不谈。

其训练过程如下图所示（来自原论文）：

可以看到，在每一轮迭代中：

GAN 依然存在一些缺点，比如说训练不稳定，生成过程不可控，不具备可解释性等，于是后来出现了若干改进的版本。

当卷积神经网络再视觉领域大放光彩后，有人尝试将卷积操作融合到 GAN 中，也就是接下来要讲的深度卷积对抗生成网络（DCGAN）。

DCGAN 在《UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS》被首次提出，是基于 GAN 的基本框架构建的生成模型，相比于 GAN ，它有了如下的改进：

DCGAN 的网络结构如下图：

DCGAN的训练过程与 GAN 相同，不过由于网络结构的改变，相比于 GAN ，DCGAN 的训练相对平衡，并且对局部特征的提取和还原能力较 GAN 强。但由于 DCGAN 属于早期的 GANs ，所以依然存在部分 GAN 的问题，在 DCGAN 后 GAN 又有了若干改进版，由于数量较多、有的比较水，这里就暂且挂起，不多叙述。

如果说 GAN 在数据生成模型领域为我们选择了一条简单粗暴的道路，那接下来要讲的模型则为我们提供了更加巧妙的办法。

变分自编码器（variational autoencoder, VAE）采用变分推断的方式来构建，与其他自编码器类似，变分自编码器也是由编码器和解码器组成，其本质是对一个含隐变量的函数进行密度估计。在训练过程中， VAE 的主要目的是进行极大似然估计，为了使得隐变量服从某一分布，在参数估计的过程中采用了变分推断的思想。

假设我们现在需要在某系统中，估计模型的后验概率，而这个的计算非常复杂，其中是隐变量，是显变量。

针对这一问题，在变分推断中，我们希望望找到一个相对简单好算的概率分布，使它尽可能地近似我们待分析地后验概率，以求我们能够用来近似。所以，为了度量两个概率分布和之间的距离，我们需要用到的一个工具就是 KL 散度。

KL 散度（Kullback-Leibler divergence）即相对熵，两个概率分布间差异的非对称性度量。如果两个分布越接近，那么 KL 散度越小，如果越远，KL 散度就会越大。对于两个分布和，其 KL 散度的公式为：

假设我们有一个判别任务，现有一个等待判别的事物，这个事物有一个类别，我们需要建立一个模型使得的概率尽可能大，即让尽可能地接近。

如果我们使用生成式模型去解决这一问题，就需要用贝叶斯公式将这个问题转换成：让我们再考虑一下数据生成问题，则问题可以转换成：当我们有式子左边的，应该如何生成一个符合某种的（其中为符合某种分布的隐变量）？

一个解决方式是：每次随机生成一个，用计算概率，如果概率满足，则结束，如果不满足，则继续随机生成。但这种方式在某些情况下是不现实的，特别是右部的公式难以直接计算得到，所以，我们需要采用其他可行的方法来解决这一问题。这时就可以用到变分推断的思想结合自编码器，假设隐变量服从某种分布来解决这一问题。

由于公式（2）中，右部的积分公式难以计算，我们可以用一个变分函数去代替。在 VAE 中，这个函数将采用编码器实现），当编码器能够将数据能够完美地将真实数据编码成服从一定分布的隐变量时，那解码器就能将服从这一分布的隐变量解码成接近真实数据的生成数据，从而解码器将能作为生成器使用，这便是 VAE 的基本思想。

为了能采用去代替，我们需要使得两个分布布尽可能地相近，于是乎我们选择了 KL 散度这个指标用来衡量两者的相近程度，于是有：左右整理一下，我们可以得到：我们知道在给定的情况下，是个固定值，而我们的目的是最大化，所以我们需要让等号右边那部分尽量大，所以，为了找到一个好的，使得它和尽可能地相近，我们需要：

为了将数据编码到隐变量，我们需要假设隐变量服从某种分布。通常我们假设服从高斯分布，则计算公式为：为了计算方便，我们再进行一个比较强的假设，假设隐变量服从标准正态分布，即服从均值为，方差为单位矩阵的高斯分布，则：接下来，我们就能通过构建编码器，得到一个由输入求解隐变量的函数，利用梯度下降法，可根据公式（6）对网络参数进行优化，使得编码器近似接近我们想要拟合的函数。

而对于公式（4）的第一项，我们可以通过构建一个从再变回的解码器，通过梯度下降法进行解码器参数优化，从而实现对的极大似然估计，我们将得到一个将符合高斯分布的隐变量变成生成数据的生成器。

条件变分自编码器（CVAE）是 VAE 的变种。VAE 是无监督学习，但是当我们需要网络能够根据我们的需要生成特定的图片，需要加入标签 y 辅组训练，这就是 CVAE。

CVAE 可以看作是有监督学习的 VAE 。将公式（4）的右部变为：在这里，自编码器需要重构的是而不是 , 所以最终的生成器能够根据标签进行采样而生成对应的数据。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: 生成式AI