转自:财联社
《科创板日报》12月11日讯(裁剪 宋子乔)日前,加州大学究诘东说念主员和英伟达共同发布了新的视觉言语模子“NaVILA”。亮点在于,NaVILA模子为机器东说念主导航提供了一种新有策画。
NaVILA模子的关联论文
视觉言语模子(VLM)是一种多模态生成式AI模子,莽撞对文本、图像和视频领导进行推理。它通过将大言语模子(LLM)与视觉编码器相汇聚,使LLM具有“看”的才智。
传统的机器东说念主作为时时依赖于事先画图的舆图和复杂的传感器系统。而NaVILA模子不需要事先的舆图,机器东说念主只需“听懂”东说念主类的当然言语指示,汇聚及时的视觉图像和激光雷达信息,及时感知环境中的旅途、阻截物和动态指标,就不错自主导航到指定位置。
不仅开脱了对舆图的依赖,NaVILA还进一步将导航手艺从轮式膨胀到了足式机器东说念主,但愿让机器东说念主搪塞更多复杂场景,使其具备逾越阻截和自合适旅途规画的才智。
在论文中,加州大学究诘东说念主员使用宇树Go2机器狗和G1东说念主形机器东说念主进行了实测。凭证团队统计的实测论断,在家庭、户外和职责区等真确环境中,NaVILA的导航得胜率高达88%,在复杂任务中的得胜率也达到了75%。
G1东说念主形机器东说念主经受作为指示:立即左转并直行,踩上垫子连接前进,直到接近垃圾桶时停驻来
据先容,NaVILA模子的特质在于:
优化准确性与遵守:NVILA模子在考试资本上裁减了4.5倍,微调所需内存减少了3.4倍。在预填充妥协码的延伸上实在裁减了2倍(这些数据是与另一个大型视觉模子LLaVa OneVision进行相比得出的)。
高辩认率输入:NVILA模子并欠亨过裁减像片和视频的大小来优化输入,而是使用高辩认率图像和视频中的多个帧,以确保不丢失任何细节。
压缩手艺:英伟达指出,考试视觉言语模子的资本稀奇高,同期,微调这么的模子也稀奇铺张内存,7B参数的模子需要卓绝64GB的GPU内存。因此英伟达弃取了一种名为“先膨胀后压缩”的手艺,通过将视觉信息压缩为更少的token,来减少输入数据的大小,并将像素进行分组,以保留费力信息,均衡模子的准确性与遵守。
多模态推理才智:NVILA模子莽撞凭证一张图片或一段视频回应多个查询,具有高大的多模态推理才智。
在视频基准测试中,NVILA的施展卓绝了GPT-4o Mini,而况在与GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的相比中也施展出色。NVILA还在与Llama 3.2的对比中赢得了幽微得手。
英伟达暗示,当今尚未将该模子发布到Hugging Face平台上,其首肯会很快发布代码和模子,以促进模子的可复现性。
(科创板日报 宋子乔)
连累裁剪:陈钰嘉 云开体育