头号玩家的绿洲这回真的实现了,开发者下一步还要挑战英伟达
发布时间:2024年11月30日 20:31
Author电子工坊
截至目前,全世界最畅销的游戏是哪款?
自从 2010 年诞生以来,《我的世界》在全球卖出了超过 3 亿份,打破了《俄罗斯方块》的纪录,成为世界上最畅销的游戏。
Image 2
《我的世界》
密集的真人玩家互动、高度开放性和自由度,让《我的世界》如今成为了 AI 公司们各种耍宝的一方热土。
你也许还记得之前 OpenAI 训练出了机器人玩家。
OpenAI 用大量人类游戏视频,预训练了一个神经网络,让其成功学会制作“金刚石”游戏工具。要制作这个工具包含 24000 个游戏操作,即使是熟练的《我的世界》玩家也需要超过 20 分钟才能完成。
更夸张的事情在上个月发生,一款名为 Oasis 的“游戏”使用了 OpenAI 的开源数据集,几乎一比一地复刻了《我的世界》的界面——然而,Oasis 并不依赖游戏引擎或者手工编写的代码,它的每一帧画面都由 AI 模型生成。
Image 8
Oasis游戏界面丨Etched
Oasis 这个名字来自于欧内斯特·克莱恩 (Ernest Cline)的科幻小说《头号玩家》。被更多人熟知,是在2018 年,斯皮尔伯格将其改编成了电影。小说中,Oasis 是个虚拟的游戏世界,人们为了逃避混乱的现实,大部分时间都投入在这个足以乱真的世界中。
Oasis 已经成为试图打造虚实难辨的体验的代名词。取名倒是足以见得它开发者的野心。声称“世界上第一款可玩的 AI 生成游戏”,真实体验到底如何?
不像绿洲,倒更像是《盗梦空间》
先说结论,眼下,你就可以通过浏览器就可以免费玩到 Oasis;但相信我,你玩不下去,或者说,没法玩……
与《我的世界》游戏操作类似,玩家可以在游戏里行走、跳跃、打破方块、打开库存和使用物品。Oasis 也理解复杂的游戏机制,如建筑、照明物理、库存管理、对象理解等。
Image 15
放置非立方体块
Image 17
模型理解照明物理
Image 19
与动物互动
Image 21
吃饭恢复健康
但不同的是,Oasis 的每一帧画面都是AI实时生成的。
尽管“AI 生成游戏”听起来很唬人,但从本质上来说,Oasis 和 Sora、Runway 使用技术类似,依赖于基于 Transformer 架构的扩散模型。
Image 25
基于DiT的潜在扩散主干架构、基于ViT的变分自编码器、加速的轴向、因果、时空注意力机制、以及克服长序列模型发散问题的新策略丨Etched
不过那些文生视频产品的提示词是“文本”,像 Sora 根据文本一次性生成 60 秒的视频。Oasis 根据的“提示词”是玩家的键盘、鼠标操作和之前帧,生成下一帧。
也就是说,Oasis 生成画面也是逐帧的,因为在模型架构和推理技术方面的进步,使得 Oasis 延迟尽可能小,小到画面连贯起来(这与早期动画的原理类似,静止的图像以一定频率变化之后,因为视觉暂留的缘故,人会觉得画面动了起来),就能让 Oasis 产生“可交互、可操作”的效果。
Image 29
《运动中的马》, Eadweard Muybridge,1879
发布3天左右,Oasis 的用户数量就突破了 100 万。汹涌而来的玩家使得服务器一度崩溃,即使到现在也不太稳定,甚至经常出现服务器断连的情况。
Image 32
79小时内Oasis玩家数量增长情况|Decart
抛开不稳定的服务器和 10 分钟的限制不谈。从游戏体验而言,Oasis 基本还处于“不可玩”的状态。
玩家很快会发现,随着时间的推移,游玩 Oasis 会呈现一种劣质版《盗梦空间》的体验——敲碎一个砖块或者转动鼠标换个视野,地图就可能完全变成另外一个样子。
以自回归方式生成的每一帧都会累积细小的错误,随着时间的推移,这些错误就会像雪球一样越滚越大,使得画面很快就会和原始图像南辕北辙。
如何用 AI 生成一个连续的世界,克服幻觉,这其实是一个整个 AI 业界都在面临的难题。
为了改善这点,开发人员使用了一种称为“动态噪声”的技术。简单来说,他们在生成每个帧的早期阶段有意为图像数据添加一些随机噪声,以防止错误积累。随着 AI 模型对图像进行细化,这种人工噪声会逐渐被去除,使得画面保持与前一帧的一致性。
开发者也承认,第一个版本只是用于研究和概念验证,表明 AI 模型有潜力做到——跟那些视频生成工具一样,他们还无法解决生成连续画面的问题。
下一步,造芯片,赢过英伟达
Oasis 的开发者,是以色列初创公司 Decart 和硅谷芯片设计公司 Etched。
Etched 开发了一款名为 Sohu(搜狐?)的专用 AI 芯片,将 Transformer 架构刻录在芯片中。目前,Oasis 以 480p 的分辨率运行在英伟达的 H100 GPU 上。Etched 声称,相比英伟达,Sohu 会将性能提升 20 倍,可以以 4k 的分辨率处理 1000 亿参数的大模型。
Image 43
Etched认为,Sohu芯片的性能会是H100的20倍丨Etched
当然,Sohu 的开发也还处于早期阶段,Etched 的说法目前无法得到证实。纽约大学电气和计算机工程教授 Siddharth Garg 就表示了质疑。他说,鉴于市场上顶级 GPU 的 AI 专业化程度,“对仅通过更智能或更专业的设计就能实现 10 倍的改进持怀疑态度。”
Dean Leitersdorf 毕业于以色列理工学院,在 2022 年结识了哈佛毕业生 Robert Wachen。受到OpenAI的启发,Wachen 在 2022 年联合创立了Etched,Leitersdorf 在2023年联合创立了 Decart。
在他们的设想中,Etched 会像英伟达一样构建下一代硬件,Decart 则像 OpenAI 一样开发运行在硬件上的模型。
Leitersdorf 表示,他们的目标是创造一个生成式体验的新时代。“你的屏幕可以变成一个门户——进入某个不需要编码、可以即时更改的虚构世界。”
Image 49
“你的屏幕可以变成一个门户——进入某个不需要编码、可以即时更改的虚构世界。”丨Oasis
就像 LLMs 跨越了复杂的人类语言体系,让机器学会用人话和我们沟通。Oasis 大抵是想克服视觉障碍,学会像人类一样看世界,以及世界的运行机制,并以我们的视觉和交互习惯展示环境。
Leitersdorf 称,像 Oasis 这样的模型可以用于需要交互式视频的各种环境,例如娱乐、教育工具,甚至是 AI 驱动的创意媒体。
目前,风险投资公司红杉资本已经领投了 Decart2100 万美元的种子轮融资,用真金白银表示了他们对于 Decart 愿景的认可。
作者:TTT
编辑:沈知涵
封面图来源:Oasis
果壳AI组 出品
产品
缤商APP用户后台
关于我们
公司简介加入我们
用户协议
隐私政策
联系我们
合作:135-8566-0971
客服:021-61673695
邮箱:support@bincial.com
地址:上海市浦东新区御桥路1220弄3号
DownloadAPP
视频号
WeChat
公众号
抖音
快手
Copyright© 上海播知科技有限公司 沪ICP备2023012989号-4