我让Siri通过Vision Pro“窥探”我的生活,这是否预示着未来趋势?
2 天前 / 阅读约6分钟
来源:CNET
苹果Vision Pro头显搭配VisionOS 27开发者预览版,Siri具备视觉智能,可识别现实与虚拟物品。用户可通过语音指令让Siri描述眼前事物,还能将全景照片转为3D背景。目前功能尚不完善,但预示未来智能眼镜发展方向。

VisionOS 27开发者测试版已与Vision Pro上的Siri实现了令人惊叹的交互。这张图片是我利用英国悬崖边的全景照片生成的沉浸式背景。图片来源:Scott Stein/CNET

在我的办公室里,书架上陈列着我的魔术道具。而一旁,则是巴黎景色的全景窗户——当然,这只是虚拟的景致。当我戴上苹果的Vision Pro头显,这些混合现实的画面便巧妙地叠加在我真实的窗户之上。墙上,还挂着一个虚拟时钟,为这空间增添了几分科技感。

书架是实实在在的,而巴黎的窗户和墙上的时钟则只存在于虚拟之中。然而,当我召唤Siri时,它以一个发光球体的形态出现在我面前,却能洞察这一切。当我询问它眼前有何物时,Siri的文本框便详尽地描述出所有内容。

初次戴上Vision Pro,并在VisionOS 27的开发者预览版中体验无所不见的Siri AI时,我既感到惊讶又觉得似曾相识。在三星的Galaxy XR头显中,我也有过类似的体验,其Gemini Live模式能够识别你的房间以及打开的虚拟应用和窗口。我还佩戴过众多智能眼镜,当我漫步时,它们会利用具备摄像头感知能力的AI为我介绍周遭的世界。

正如我所预料,苹果将于今年秋天推出一系列搭载全新增强版Siri的设备,从Apple Watch到iPhone再到iPad,并将视觉智能功能拓展至iPhone以外的设备。然而,Vision Pro上的Siri无疑是最具吸引力,也或许是最具野心的。它能够按照指令洞察你视野中的一切,宛如一个贴心的感官伙伴。

在这个几天前才在苹果全球开发者大会(WWDC)上揭晓的非常早期的预览版中,虽然并非尽善尽美,但它已经足够出色,足以让我们窥见未来的无限可能。是的,如今看来,具备这种功能的眼镜完全有可能成为现实。与此同时,Vision Pro的辅助功能也将变得饶有趣味。

Siri能够识别我的书架、我虚拟的巴黎景色窗户,还有我的虚拟时钟。图片来源:Scott Stein/CNET

Siri的发光球体,从一开始就蓄势待发

与通过相机应用启动的iOS和iPadOS视觉智能模式不同,Vision Pro的Siri只需你轻声说出“嘿,Siri”并提问,便能洞察事物。

Siri以一个3D发光球体的形态出现,宛如幽灵般飘浮在我的房间中。你可以随意将它拖放到任何位置,但看到这个发光的球体通过VisionOS的空间图形引擎在我的书桌或房间上投射出斑斓的光影效果,那种奇妙的感觉难以言表。

我能够说:“嘿,Siri,我面前有什么?”它便会触发视觉智能功能,发出一声新奇的啁啾声,然后利用眼动追踪技术,在我眼睛注视的区域周围迅速进行视觉扫描。它的扫描范围极为广泛:能够看到我面前书架上琳琅满目的书籍,还有我摆放在那里的所有小玩偶和玩具。它甚至还给我念出了几本书的书名,比如《漩涡》和《神奇书》。

AI的反馈是在相机对我眼前的景象(无论是真实的还是虚拟的)拍摄一张静态图像之后进行的。这与Meta眼镜或三星Galaxy XR上其他基于相机的AI的快速响应节奏颇为相似。

但它并不具备那些眼镜和头显所拥有的实时模式。它是一次请求拍摄一张。

Siri认出了我杂乱无章的书架。Siri的球体在现实世界的事物附近也会发光,还可以捏住并拖动。图片来源:Scott Stein/CNET

识别真实与虚拟的界限

在我的书桌上,Siri能够准确识别出一个红色的虚拟现实头显(Virtual Boy)和一个Steam Deck,两者均为实物。随后,我试着让它看我虚拟的巴黎景色窗户和墙上的时钟小部件,还有摆满魔术道具的书架,它也同样一一识别出来。

在这个早期的测试版中,除非我关闭Siri或将球体移动以重新尝试,否则Siri往往会停留在某个特定视图一段时间并进行分析。或者,我想,这只是我在慢慢适应它的节奏。

但我已经开始思考如何利用这种视觉感知能力来快速处理工作了。我让Siri总结一个关于我最近剧本创作的笔记应用,只需开口询问,它便迅速总结了要点。我还向它询问了关于我在MacBook上通过虚拟显示器打开的浏览器窗口的问题。(此刻,当我通过Mac在Vision Pro上撰写这篇文章时,它告诉我,我有一个打开的Google Docs窗口,正在撰写关于Siri识别真实和虚拟物体的文章。)

只是出于好奇,我想知道Siri对我的Virtual Boy和Steam Deck有何看法。图片来源:Scott Stein/CNET

将自己的照片转化为全景3D背景

我还尝试了VisionOS 27中的新全景照片转换效果,它能够将你图库中的任何全景照片变成一个3D环绕背景,供你在工作时使用。

效果虽不及苹果自己的沉浸式环境那般完全3D环绕,它们不会移动,也没有环境音效。但它们更像是非常大的超级环绕3D窗口,我的办公室边缘仍然依稀可见。

尽管并非我所有的全景照片都能成功转换(毕竟现在还很早;我相信这个问题会得到解决),但它看起来确实别具一格。我调出了一张疫情期间去看望母亲时在她后院拍摄的照片,此刻,它就像是我再次回到了那里一样,温馨地迎接我。如果Vision Pro能像我在Meta Quest上那样,从多张照片中添加完全沉浸式的高斯泼溅捕捉效果,那就更加完美了。

我不禁开始遐想,苹果未来推出的智能眼镜将如何利用具备视觉感知能力的Siri来提供辅助功能。但我想,我还是有些过于超前了。目前,你需要一台价值3499美元的Vision Pro才能体验这些功能。但是,当苹果推出像谷歌和Xreal的Project Aura那样更小巧、更实惠的AR眼镜时呢?当其他应用能够接入Siri的框架时呢?未来的发展无疑将充满无限趣味。我觉得,我只是在窥探未来的一角而已。