当前位置：首页 > 数码 > 解锁图像与语言之间的桥梁-AI-PaLI-用-谷歌视觉语言模型 (解锁图像与语音同步)

解锁图像与语言之间的桥梁-AI-PaLI-用-谷歌视觉语言模型 (解锁图像与语音同步)

admin1年前 (2024-04-15)数码91

在视觉语言模型 (VLM) 领域，随着模型参数不断增加，性能也在不断提高。较小规模的模型仍然具有重要意义，因为它们更易于训练和部署，并且对环境更友好。

PaLI 的发展

谷歌研究院于去年推出了 PaLI（Pathways Language and Image），这是一个多模态大模型。PaLI 的关键结构之一是复用大型单模态基干进行语言和视觉建模，实现了优于许多先前模型的性能。

PaLI-3：有竞争力的性能，仅需 5B 参数

谷歌在较小规模建模领域继续取得进展，推出了 PaLI-3，这是 PaLI 系列的第三代模型。通过优化训练方法，PaLI-3 以仅 5B 的参数实现了有竞争力和新的 SOTA 结果。该方法包括：在图像文本数据上进行对比预训练用于多模态训练的改进混合数据集更高分辨率的训练

5B PaLI-3 模型概览

下图展示了 5B PaLI-3 模型的概览： [插入 PaLI-3 模型概览图]

改进的效果

PaLI-3 在需要视觉定位文本理解和目标定位的任务上实现了新的 SOTA，包括 RefCOCO 数据集上的 8 个视觉定位文本理解任务和参考表达分割任务。它还展示了出色的分类视觉任务性能。

与分类预训练基线的比较

研究人员还进行了消融实验，将 PaLI-3 与分类预训练的 ViT 基线模型进行比较。结果证实了对比预训练视觉编码器在有噪声的图像文本数据上的可行性。

扩展到多语言

除了 5B PaLI-3 模型外，研究人员还构建了一个参数扩展到 2B 的 SOTA 多语言对比视觉模型，采用了最近提出的 SigLIP 方法。

架构

PaLI-3 的架构遵循 Chen et al. (2023b;a) 的方法：ViT 模型将图像编码为标记，然后将其与文本输入一起传递到编码器-解码器结构的 transformer，从而生成文本输出。

视觉组件

研究人员使用 SigLIP 训练方法，从对比预训练的 ViT-G/14 模型初始化 PaLI-3 的视觉基干。

完整 PaLI 模型

ViT 图像编码器的输出在池化之前形成视觉标记，并将其线性映射并添加到嵌入的输入文本标记中。然后将这些标记传递到 3B UL2 编码器-解码器模型中，以生成文本输出。

训练

训练过程包括多个阶段：阶段 0：单峰预训练：图像编码器按照 SigLIP 训练协议进行训练；文本编码器-解码器是一个 3B UL2 模型，按照混合降噪程序进行训练。阶段 1：多模态训练：将图像编码器与文本编码器-解码器相结合，使用来自多种来源的大规模图像文本数据集进行多模态训练。

结果

PaLI-3 在各种基准测试中实现了有竞争力和新的 SOTA 结果，包括：视觉定位文本理解（VLU）： RefCOCO-VLU：8 个任务的新 SOTA Flickr30K VLU：新 SOTA 目标定位： Reference Expression Segmentation (RES) 数据集：新 SOTA COCO 语目标分割数据集：与 SOTA 相当分类视觉任务： ImageNet 分类：90.4% 的准确率 CUB-200-2011 分类：91.3% 的准确率

结论

PaLI-3 展示了通过优化训练方法，可以实现更小规模、更强大且更通用的视觉语言模型。这些模型在各种视觉语言任务中具有广泛的应用前景，包括图像字幕、视觉问答和图像生成。本文链接

智慧树人工智能基础答案2023

智慧树人工智能基础答案2023如下：

第一章测试

1、（）被称为“人工智能之父”。（）A：亚瑟·塞缪尔B：约翰·冯·诺依曼C：约翰·麦卡锡D：唐纳德·赫布答案：C

2、2016年3月9日至15日，谷歌AlphaGo机器人在围棋比赛中以比分（）击败了世界冠军李世石。（）A：4：1B：4：2C：5：0D：3：2答案：A

3、约瑟夫·魏岑鲍姆教授开发的（）,实现了计算机与人通过文本进行交流。（）A：ELIZAB：谷歌Allo C：微软小冰D：苹果Siri答案：A

4、在1986年，罗斯·昆兰提出了（）概念，这是机器学习另一个主流的闪光点。（）A：感知机B：决策树C：BP D：随机森林答案：B

5、首次提出“人工智能”是在（）年。（）A：1946 B：1916 C：1956D：1960答案：B

6、人工智能发展的驱动力包括（）。（）A：资本与技术深度耦合，助推行业应用快速兴起B：深度学习研究成果卓著,带动算法模型持续优化C：数据处理技术加速演进，运算能力实现大幅提升D：人机物互联互通成趋势，数据量呈现爆炸性增长答案：ABCD

7、人工智能产业链关键技术，主要分哪三个核心层（）。（）A：技术层B：基础层C：中间层D：应用层答案：ABD

8、克劳德·香农提出用二进制替代十进制运算，并将计算机分成了5大组件。（）A：对B：错答案：B

9、专家系统是一个含有大量的某个领域专家水平的知识与经验智能计算机程序系统，能够利用人类专家的知识和解决问题的方法来处理该领域问题、简而言之，专家系统是一种模拟人类专家解决领域问题的计算机程序系统。（）A：对B：错答案：A

第二章测试

1、机器学习是人工智能的（）。（）A：基础B：根本C：核心D：其他都正确答案：C

2、目标检测是对目标进行识别和（）。（）A：标注B：定位C：检测D：学习答案：B

3、深度学习的核心是（）。（）A：分割B：神经网络C：分类D：提取特征答案：B

4、自然语言处理是人类与计算机之间的（）（）。A：其他都是B：朋友C：跳板D：桥梁答案：D

5、知识图谱的概念是（）。（）A：网络在2012年提出来的。B：网络在2010年提出来的。C：Google在2010年提出来的。D：Google在2012年提出来的。

答案：D

6、机器学习从学习方式上分类哪种方式需要人工标注（）。A：强化学习B：无监督学习C：半监督学习D：监督学习答案：CD

7、基于深度学习的目标检测应用有（）。（）。A：遥感检测B：行人检测C：人脸检测D：车辆检测答案：ABCD

8、自然语言处理的具体应用有（）。A：其他都是B：智能问答C：情感分析D：机器翻译答案：ABCD

9、知识图谱的应用有（）。A：智能搜索B：深度问答C：智能推荐D：反欺诈系统

答案：ABCD

10、YOLO算法的全称是you only look once。（）A：错B：对答案：B

第三章测试

1、在图像识别技术的过程中，分类器设计和决策的关键是（）。A：信息的获取B：分类决策C：特征抽取和选择D：图像预处理答案：C

2、AI的英文缩写是（）。A：ArtificialIntelligenceB：ArtificialInformation C：AutomaticIntelligenceD：AutomaticInformation答案：A

3、人工智能指的是（）。A：人的智能B：自然智能C：通用智能D：机器智能答案：D

4、图像识别技术的应用领域包括（）。A：工农业B：军事领域C：航空卫星领域D：医学领域E：公共安全答案：ABCDE

5、声音的指标包括（）A：时长B：频率C：周期D：振幅答案：BCD

6、音频数字化的步骤包括（）A：采样B：解码C：量化D：编码答案：ACD

7、语音识别系统主要可分为（）部分A：训练B：识别C：深度学习D：采样答案：AB

8、机器学习、深度学习能够自动学习与求解问题相关的有效图像特征。（）A：对B：错答案：A

9、刷脸认证时，要求用户摇摇头，眨眨眼，属于生物识别，防止恶意用户用静态图片骗过系统。（）A：错B：对答案：B

10、声音的存储早于图像技术。（）A：对B：错答案：B

第四章测试

1、我国《汽车自动驾驶化分级》国家推荐标准于（）正式实施。A：2022年12月20日B：2022年3月1日C：2021年12月20日D：2019年3月1日答案：B

2、自动驾驶的终极目标是（）A：半自动驾驶B：驾驶支援C：有条件自动化驾驶D：无人驾驶答案：D

3、全球卫星导航系统包括（）。A：俄罗斯的GLONASS B：台湾的CMOS C：美国的GPS D：中国的北斗卫星答案：ACD

4、自动驾驶汽车中，可采用（）来感知周围环境。A：超声波B：轮胎C：雷达D：摄像头答案：ACD

5、无人机系统包括（）子系统。A：动力系统B：飞控系统C：飞机机体D：通讯链路E：导航系统答案：ABCDE

6、目前市面出售的电动汽车，都是无人驾驶汽车。（）A：错B：对答案：A

7、高精地图也称为自动驾驶地图、高精地图绝对位置精度接近1m,相对位置精度在厘米级别。（）A：错B：对答案：B

8、飞控系统是无人机系统最核心的技术之一，是无人机的控制中心。（）A：错B：对答案：B

第五章测试

1、金融业在（）尝试应用多种人工智能的方法。A：风险管理B：预防诈骗C：财务咨询D：过程自动化E：客户服务答案：ABCDE

2、金融风险管理包括（）A：识别风险B：风险计算C：风险控制D：规避风险答案：ACD

3、人工智能会取代人类，特别是在金融领域。（）A：错B：对答案：A

4、聊天机器人可以解答客户咨询类问题。（）A：错B：对答案：B

5、疾病风险预测主要是指通过基因测序与检测提前预测疾病发生的风险。（）A：对B：错答案：A

第六章测试

1、大数据技术的起源（）。（）A：电信B：互联网C：金融D：公共管理答案：B

2、大数据最显著的特征是是（）。（）A：数据规模大B：数据类型多样C：数据处理速度快D：数据价值密度高答案：A

3、当前，大数据产业发展的特点是（）。（）A：增速很慢B：规模较大C：增速很快D：规模较小E：多产业交叉融合答案：BCE

4、Hadoop的核心功能特点主要包括：（）。（）A：有丰富的计算引擎B：文文件系统高可靠性C：分布式架构D：多用户环境答案：ABCD

5、大数据技术有哪些主要特点：（）。（）A：多样性B：高速性C：海量性D：易

变性答案：ABCD

6、电商网站的用户浏览行为记录、购买行为记录，社交网站的用户行为数据记录、用户关系数据，通信行业的用户通信行为记录、上网行为记录，APP

应用的用户行为数据，交通部门的海量探测数据、路况监控数据，政府部门的民生数据，舆情数据等，这些都是真实、物化、具体的大数据。（）A：对B：错答案：A

第七章测试

1、将基础设施作为服务的云计算应用服务类型是（）。（）A：SaaS层B：服务

层C：PaaS层D：laaS层答案：D

2、将平台作为服务的云计算应用服务类型是（）。（）A：PaaS层B：SaaS层C：服务层D：laaS层答案：A

3、将软件作为服务的云计算应用服务类型是（）。（）A：PaaS层B：服务层

C：SaaS层D：laaS层答案：C

4、下列关于公有云和私有云描述不正确的是（）。（）A：公有云是云服务提供商通过自己的基础设施直接向外部客户提供服务B：私有云是为企业内部使用而构建的计算架构C：公有云能够以低廉的价格，提供有吸引力的服务给最终用户，创造新的业务价值D：服构建私有云比使用公有云更便宜答案：D

5、云计算的服务类型主要分为（）。（）A：私有云B：智能云C：混合云D：公有

云答案：ACD

6、未来云计算服务面向哪些客户（）。（）A：个人B：政府C：教育机构D：企业

答案：ABCD

7、云计算是一种按使用量付费的模式，这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算机资源共享池，这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互。（）A：错B：对

答案：B

0、R云计算就是让我们像使用自来水、电力、燃气一样，使用IT资源。用户拧开龙头（终端），IT资源就像自来水一样喷涌而出，供用户使用（）A：错B：对答案：B

第八章测试

1、2017年，美国（）该计划的目标是支持基础研究，从而加快美国在协作型机器人开发和实际方面的进程。（）A：人工智能与国际安全B：人工智能、

自动化和经济C：国家机器人计划2、0 D：人工智能未来法案答案：C

2、2018年，欧盟发布（）该计划以“人工智能欧洲造”为主题，提出设计伦理和设计安全两大关键原则，旨在使欧盟成为人工智能技术的世界领先地区。

（）A：人工智能合作宣言B：促进人工智能在欧洲发展和应用的协调行动计划C：欧盟2030自动驾驶战略D：欧盟人工智能战略答案：B

5、()2018年，欧盟发布（）就人工智能可能引发的社会、经济、伦理道德和法

律等重要问题开展合作，确保欧洲在人工智能研发和应用上具有强大竞争力。（）A：欧盟2030自动驾驶战略B：促进人工智能在欧洲发展和应用的协调

行动计划C：欧盟人工智能战略D：人工智能合作宣言答案：D

4、2018年，欧盟发布（）旨在秉持以人为本的人工智能发展理念，推动欧盟人工智能领域的技术研发、道德规范制定以及投资规划。（）A：促进人工智能在欧洲发展和应用的协调行动计划B：人工智能合作宣言C：欧盟2030自动驾驶战略D：欧盟人工智能战略答案：D

5、2018年，日本（）肯定了人工智能的重要作用，同时也强调了重视其负面影响，主张在推进人工智能技术研发时，综合考虑其带来的影响，构建能够使人工智能有效且安全的“AI-Ready社会”。（）A：日本再兴战略B：日本机器人战略：愿景、战略、行动计划C：人工智能技术战略D：以人类为中心的人工智能社会原则答案：D

6、2016年，我国（）提出了支持人工智能领域软硬件开发及规模化应用（）A：促进人工智能和实体经济深度融合B：“十三五”国家战略性新兴产业发展规划的通知C：政府工作报告D：新一代人工智能发展规划答案：B

7、2018年，我国国务院（）提出加强新一代人工智能研发应用。（）A：“十三五”国家战略性新兴产业发展规划的通知B：新一代人工智能发展规划C：政府工作报告D：促进人工智能和实体经济深度融合答案：C

8、我国人工智能机器视觉的独角兽企业有（）。（）A：云从科技B：旷视科技C：商汤科技D：依图科技答案：ABCD

第九章测试

1、深度学习是（）领域中一个新的研究方向深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。（）A：机器学习B：智能学习C：搜索技术D：多媒体学习答案：A

2、聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过（）。（）A：图灵测试B：人类测试C：机器测试D：智能测试答案：A

3、YOLO将对象检测重新定义为一个（）。它将单个卷积神经网络（CNN）应用于整个图像，将图像分成网格，并预测每个网格的类概率和边界框。（）A：物理问题B：回归问题C：测试问题D：模型问题答案：B

4、人脸图像中包含的模式特征十分丰富，分别为（）。（）A：颜色特征B：模板特征C：直方图特征D：结构特征答案：ABCD

5、常见的深度学习廊架有（）。A：TensorFlowB：PythonC：PaddlePaddle D：Pytorch答案：ACD

6、人脸检测在实际中主要用于人脸识别的预处理，即在图像中准确标定出人脸的位置和大小。（）A：错B：对答案：B

7、人脸识别的优势在于其自然性和不被被测个体察觉的特点。（）A：错B：对答案：B

8、YOLO能够处理实时视频流，延迟小于25毫秒。它的精度是以前实时系统的两倍多。同样重要的是，YOLO遵循的是“端到端深度学习”的实践。（）A：对B：错答案：A

9、飞桨是集核心框架、工具组件和服务平台为一体的技术先进、功能完备的开源深度学习平台，已被中国企业广泛使用，（）A：错B：对答案：B

10、TensorFlow由微软团队开发和维护。（）A：对B：错答案：B##第一章测试

11、最早在达特茅斯会议室提出人工智能概念的科学家是（）。A：麦卡锡B：冯·诺依曼C：香农D：图灵答案：A

12、人工智能的英文缩写是（）。A：ArtificialIntelligenceB：AutomaticInformationC：ArtificialInformationD：AutomaticIntelligence答案：A

13、人工智能就是人形机器人。（）A：对B：错答案：B

14、计算驱动导致人工智能的发展走入低谷的主要原因是计算能力有限。（）A：错B：对答案：B

15、下面的哪些属于人工智能领域的应用。（）A：刷脸支付B：扫地机器人C：讯飞语音识别D：小爱音箱E：答案：ABCDE

智慧树网人工智能

1、国家和教育部对人工智能普及教育高度重视，了解人工智能基础知识是人工智能新时代的需求；

2、人工智能极大影响了人类社会交流方式、思维方式和解决问题的方法，需要普及人工智能相关知识以应对变革的到来；

3、目前各行各业“人工智能+专业”的发展趋势必然会扩大对人工智能类复合人才的需求，需要各行各业的学习者了解和使用人工智能技术。

ai是什么技术？

ai技术是新兴科学技术。 AI技术的研究领域包括机器人、语言识别、图像识别、自然语言处理和专家系统等。 AI的目的就是希望让计算机能像人类一样进行学习和思考。 ai技术将给数字经济的创新发展提供强大动力。在内容生产层面，生成性AI、数字虚拟人等AI技术和机器学习模型将带来内容生产的变革，可以自主生成文本、图像、音频、视频、虚拟场景等各类数字内容，这将推动生成性AI的蓬勃发展，打造新的数字内容生成与交互形态。此外AI和生成性AI带来的内容生产变革也将让VR/AR、元宇宙等未来互联网应用成为可期待的现实。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。