“小兔子”发布新功能,离超级智能硬件更近一步了么?

发布时间:2024-12-31 09:50

Rabbit公司创始人兼CEO吕骋(Jesse Lyu)在社交平台X上公布了R1语音转录功能演示,R1能够被用于做笔记,包括回访、下载和AI摘要等功能。

多知网3月14日消息,Rabbit公司创始人兼CEO吕骋(Jesse Lyu)3月11日公布了R1语音转录功能演示,R1能够被用于做笔记,包括回访、下载和AI摘要等功能。

只需一句简短的语音命令就能启动记录,单击按钮即可结束,目前仍处于技术演示早期阶段,吕骋表示还需要稍作完善。

Rabbit R1是一个通体明亮的橙红色,体积与便签纸相当,重量115克、可以轻松揣进口袋的“掌机”,这也是CES的第一个准爆款。

所谓“爆”,有几个原因:

1、低调上场——Rabbit在CES本没有搭建公开展台,现场发布会到场人数也是寥寥,但它的直播视频放出后,立刻引爆科技、AI圈的关注和探讨。

2、剑指手机——这款设备可以在脱离手机、不打开任何软件的前提下,完成不同场景的各种指令,现场演示的包括叫车、放歌、订餐、订酒店,甚至直接帮用户 PS 修图或者 Midjourney 上生成图片。

3、大模型落地——其自研的Rabbit OS底层是“大型动作模型”(LAM),类似通用控制器;独有的训练模式,用户可以教设备如何执行某项操作,人机互为教练。

4、超低价——199美元门槛低,现已开始预售,这也比之前热度久久不退的AI Pin发售时间要早。Rabbit R1美国订单计划在今年3月底发货,国际订单则更晚,但当天已经预定出1万套,两周预定6万套。

5、过往“最狂创业者”之一——曾经的明星智能硬件公司渡鸦创始人吕聘,以Rabbit的创始人兼首席执行官Jesse再次回归。

……

在一张网传的吕聘朋友圈中,他曾感慨到:“七年一轮回,重返 CES。七年前,raven H 被《华尔街日报》评为 CES 2018 最佳产品;七年后的 Rabbit R1 秀色可餐,是一款值得细细体验的产品。”

吕骋在CES后在《This Week Startup》节目上与硅谷知名天使投资人 Jason Calacanis 曾有一段90分钟的对话。

提到在CES上的爆火,吕骋坦言并没有预料到这样的状况,“我们预计第一天可能会销售 500 台,早期市场采用者可能会有 3000 台,这可能就是全部了。”

对于盈利模型的质疑,吕骋也坦言这是被最常问道的问题。

“首先,我可以告诉你,我们非常努力地在设计和硬件成本之间寻找完美的平衡,尽管我不能告诉你一个非常确切的硬件成本数字,因为我不允许分享,但我们确实从硬件上赚钱。”

“根据我观察到的和我在过去职业中学到的,硬件的毛利润非常低。如果你看手机,毛利润可能在 -25%~7%或8%之间,仅此而已。尽管如此,大多数人仍然试图通过硬件来赚钱,显然是订阅。”

……

以下为对话原文:

Jason Calacanis:上周我们讨论了 Rabbit R1 ,它是 CES 上最值得关注的新产品之一,这是在拉斯维加斯举办的消费电子展览,也许你们在 X/ Twitter 上看过它的演示视频,这是一个看起来非常酷的产品,是一款便携式 AI 伴侣,可以放在口袋里。

它上面有一个用于导航的轮子,有一个可以翻转的摄像头,还有一个LED屏幕,我猜的,还有一个明亮漂亮的橙色,是我最喜欢的颜色,它是当场的明星产品。

他们进行了很棒的演示,今天我们邀请创始人来谈谈这个产品。在某些方面,它真的有点复古,但它拥有自定义的 LLM 和 200 美元的价格,让所有人都兴奋不已。

他们已经卖出了超过 6 万台这样的设备。在过去的五天里,他们每天都在卖出大约 1 万台。Rabbit 创始人 Jesse Lyu 就在这里,公司位于加利福尼亚州圣莫尼卡。

Jesse,你好吗?见到你很高兴。你是否预料到你的设备会引发这种反应?你是否认为它会成为最热门的产品,除了 LG 首款无线透明的 OLED 电视外?

很多人对这款透明电视也感到兴奋,我甚至不知道透明电视有什么用途。如果它靠在墙上,我们能看到墙后面吗?对我来说这毫无意义。那么,这是什么感觉?你是否预料到这种情况?

吕骋:一点也没有。说实话,我们对观众非常谨慎,也对你坦诚以待,我们预计第一天可能会销售 500 台,早期市场采用者可能会有 3000 台,这可能就是全部了。但我们确实准备好了,如果需要的话,可以加大订单。

我们也有备选计划,但我是团队中最保守的一个。我们的市场团队和设计团队可能比我们更有信心,但对我来说,我非常保守。

有一件事我必须提到的是,我喜欢这个产品。第一个原型实际上是一个带屏幕的Raspberry Pi。因为我们是一个非常小众的团队,我们去年早些时候推出了一个 Web 版本 ,供一小部分用户测试 LLM 的一个功能,即提前播放 Spotify ,结果很好。

我喜欢这个产品,因为我大约 4 个月前拥有了第一个原型,它的外观和手机差不多。大约 8 个月前拥有了预制的手工原型。我一直在捣鼓它。另一方面,我有点担心,也许我们只是一群极客,这只是我们自己的小玩意儿。

Jason Calacanis:为自己制造能带来快乐的东西,至少你知道你有一个客户,就是你自己,然后你只需要弄清楚是否还有其他客户。

让我们从这个疯狂的价格开始,这个设备售价200美元。我看了一下,没有订阅费用。如果你想在里面插入 LTE 卡,你需要有一个数据订阅,

如果你想加入 5G,那就是你的事情了,只需购买 Google 的数据卡,大概每个月 20~30 美元,它们相当便宜。如果这个设备只卖 200 美元,硬件又如此精美,你如何打算从中盈利呢?我在想,你如何将这个做成一项业务?

吕骋:我想从商业角度来看,这是最常被问到的问题之一。

首先,我可以告诉你,Jason,我们非常努力地在设计和硬件成本之间寻找完美的平衡,尽管我不能告诉你一个非常确切的硬件成本数字,因为我不允许分享,但我们确实从硬件上赚钱。

根据我观察到的和我在过去职业中学到的,硬件的毛利润非常低。如果你看手机,毛利润可能在 -25%~7%或8%之间,仅此而已。尽管如此,大多数人仍然试图通过硬件来赚钱,显然是订阅。

与 eSIM 相比,选择制作相同的托盘有两个原因,一是我们希望进一步削减设备的硬件成本,因为 eSIM 需要更昂贵的部件,而相同的托盘则不需要,但更重要的是,我们希望将产品销售到多个目的地,而不是像在美国。

我们需要与运营商进行谈判,比如 Verizon、T-Mobile 或 ATT 等。我们进展得太快,没有时间坐下来与这些公司一年时间的谈判,而现在他们主动联系我们,这非常好,所以这都是战略性的决策。

首先,我想纠正一点。实际上看了你上一集关于我们的节目,我们没有制造任何 LLM 。我们使用的是神经符号模型,它不是一个 LLM ,通常我们说的是 GPT、Bard、Grok 等,这些都是基于 Transformer 的,它们需要大量的云端 GPU 来进行训练并获得正确的结果。

没有哪家初创公司能够突然间制作自己的 LLM ,就算筹集到 3000 万美元的资金也不行,所以就记录而言,我们没有这样做。我们与所有最好的语言模型和小型语言模型合作。如果有开源语言模型,将来我们也会考虑。

基本上,我们建立了一个内部评估系统,以持续监测所有主要供应商的性能,可以灵活切换,这就是 RabbitOS 的工作原理,但我们专注于 LAM (Large Action Model)。

我们确切知道,语言模型或 Transformer 是为更好地理解语言而设计的,但至少目前在完成任务方面表现非常糟糕,而且我们不喜欢与 API 一起工作,因为 API 有很多问题。

首先,你要赌所有人都会为你提供 API ,事实并非如此。对于 OpenAI 来说,鼓励或大公司鼓励所有人为他们构建 API 更容易,但对于初创公司来说,很难说服突然间有 2000 个供应商在你的 API 中按照你的格式工作。

即使你拥有所有的 API ,往往它们也不能完全复制 App 的全部功能。比如,我的上一家公司 Raven(渡鸦科技)工作时曾与 Uber 的 API 合作过,他们的 API 只能完成 10 项任务中的 3 项,要说服他们做出 App 的全部功能非常困难,因为他们没有激励,所以我们不喜欢 API 。

这就是为什么我们想要一种通用解决方案,也为通用解决方案创建了一个 AI 。无论是 Android App 、iOS App 、Windows App ,无论是什么 App ,我们都要构建一个通用解决方案,知道语言模型并不是为触发动作而设计的。

因此,我们实际上使用了神经符号(Neuro-symbolic)来开始。我们实际上开始与数据标注公司合作。根据我们自己的评估,我们开始收集真正的人与不同种类的软件进行互动,比如 Uber 、 Spotify 等常见的 App 。

我们大约在两年半前开始了这个过程。开始收集真正的人与各种软件互动的数据,然后我们建立了一个神经符号算法,它就是今天的 LAM ,你可以将所有这些剪辑放入 LAM 中,并要求我们的模型逐帧读取这些剪辑。

Jason Calacanis:随着时间的推移, LAM 了解了页面上的像素,它知道这是一个 App ,知道我在 App 中点击了什么地方,所以当有人对 Rabbit 说:“给我订一辆 Uber 豪华车。当我回家时,我希望有五个家庭份量的寿司准备好,包括一些卷和一些素食选项。” 它会知道如何做到这一点,因为你已经训练了它很多次,观看了成百上千次在一个 App 中的互动。

你需要多少互动次数?我是否正确描述了你正在做的事情?

吕骋:你描述得很正确。首先,我们不会记录用户的操作。我们有一个测试小组,我们为他们分配任务。我们实际上与数据标注合作伙伴一起工作,以确保所有的剪辑都是有目的地收集的,而不会侵犯任何人的隐私。

我们从来不会设置东西来记录用户的屏幕。但是,你的理解是正确的。我们实际上已经在 Rabbit 研究上发布了整篇论文,其中包含幕后的内容。你可以去那里看一看那篇论文。

我们从真正的人类与这些 App 互动中收集了数据。事实是,这是非常具有讽刺意味的,因为神经符号在 CPU 上运行效果比 GPU 好,所以与 OpenAI 或任何 LLM 相比,我们的云部署非常合理,我们不会谈论数以百万计的现金,甚至不会谈论数百万美元。

我们有足够好的 GPU 集群和足够好的 CPU 云计算。我们不是按请求收集数据。只是要求人们随意玩耍,比如我们收集数据的方式。所以部署的任务可能是:“你有 10 分钟的时间在 Spotify 上,尽情尝试,做尽可能多的事情。我不会告诉你必须播放这首歌,点击这里,做那个,你可以自由探索 10 分钟。”

神经符号算法是传统 RPA 的最大不同之处。如果你熟悉 RPA,它基本上是在记录屏幕操作,当然了,但然后部署一个预 先编程的顺序来导航你的鼠标、光标到x、y 坐标位置,基于绝对坐标。

Jason Calacanis:你是说 RPA?

吕骋:没错。

Jason Calacanis:当你编程一个机器人时,你实际上可以拿起机器人手臂,然后将它移动到拾取东西,放入这个盒子中,然后再拾取不同的物体,放入盒子 B 中, 它记录了这个,学到了这个,然后可以一遍又一遍地执行这个操作。

你实际上完成了这个任务,这几乎就像是向猴子展示如何剥香蕉,然后它按照你的方式剥香蕉。猴子看,猴子学,基本上是这样?

吕骋那就是RPA,但是神经符号将其推进了一步,因为我们不是通过屏幕的绝对坐标来识别所有这些元素,而是从符号方法直接提取和自动标记一些元素,并进行推理。这意味着如果一个 App 彻底改变了UI,也没有关系。

Jason Calacanis:明白了。所以当 Spotify 重新设计它的 App ,将播客从标签中移出,然后将标签放在顶部,或者放在汉堡下拉菜单中,它仍然知道那是“播客”这个词,以及在 Spotify 中找到播客的地方。

吕骋:完全正确。因为基本的逻辑是,这些现代软件都是为人类眼睛处理信息而设计的,它们必须有一些设置,它们必须有一些符号和文本,还有搜索栏之类的东西。

与仅仅在 GPT-4 之上构建硬件相比,这对我们来说是一个优势。首先,我想澄清一点,我们不制作任何 LLM,我们与 LLM 合作,但我们还创建了 LAM ,这是一种神经符号方法。

当我告诉 Rabbit :“为我订购一份寿司,五口之家,这么多食物,等等。” 它知道如何使用 Uber Eats App 或 Doordash App 。现在, Rabbit 设备然后向云端的某个地方发送这个请求。

Jason Calacanis:这个请求我已经通过一个 Web 界面进行了身份验证,我已经验证了我的 Uber Eats、Doordash 账户。它知道我喜欢的寿司餐厅,然后开始了订餐过程。然后我想,它回到我这里,说:“只是想确认一下,这是你要的吗?”

我说是的。然后它会做什么?它弹出一个云端的仿真器,然后你有一个具有我的登录身份验证的 Web 仿真器,这是如何工作的?

吕骋:首先,让我们从认证开始。因为如果你考虑这个设备,它与以前的一代设备的工作方式完全不同,因为它没有预先安装任何软件。它没有预先安装任何东西。它只是一个 AI ,你可以选择启用什么样的服务。你可以选择这个设备有多复杂,有多高级。

如果你只说:“这是一个看起来很酷的 iPod ,我只想用它来听音乐。”然后你解锁音乐功能,选择任何供应商,它只会播放音乐。

但是明天,如果你想开始点餐,你必须解锁那个功能,登录过程你的理解是正确的,我们有一个 Web 门户,有点像我们自己的迷你版本的 IQ/icloud,如果你理解的话,它有助于所有的身份验证设置和功能管理。

你去网站上,你基本上选择你想要解锁的任何服务,因为再说一遍,对于 LAM 来说, Spotify 、YouTube Music、Apple Music 都没有区别,它们都是接口。事实上,Expedia 和 YouTube Music 甚至没有区别,它们都是接口。

我们给你自由选择你想要解锁的首选服务,你去那里,然后你点击“连接到 Spotify ”按钮,然后接下来会将你重定向到 Spotify 登录界面,我们不保存你的凭证,我们不触碰它们。

你点开 Spotify、 Uber 或者 Doordash,通过它们登录,然后我们会识别出这个账户已经与 RabbitOS 连接了,然后发生的是,在我们的云端,有一个非常创新的结构。

我们有一台超级计算机,当 Jason 与他的 Rabbit 谈论从 Doordash 订购汉堡时,发生的事情是,首先我们会看到 Jason 是否登录到了 Doordash 或 Uber Eats,然后我们看到 Jason 选择了 Doordash,接着在那台超级计算机上 LAM 与 Doordash 的 App 或网站进行虚拟互动,你看不到这一切,因为突然之间这一切都完成了,因为这是 AI。

然后,我们将重新渲染 Rabbit 的主题界面,为你提供结果,你也不是直接与主机互动,你只是与它对话,意图传递给 LLM。

Jason Calacanis:你想做这个,然后 LAM 在虚拟环境中执行,然后重新渲染结果到你的设备上。这就是它的工作原理。你是否需要得到 Spotify 的许可才能这样做,或者你一旦在数据上训练了它,就可以做到这一点?我是说,获得许可是不错的,但听起来你可以不需要。

吕骋:是的。当然,得到这些人的许可是不错的,或者我不应该说许可,我们应该开发一种更好的商业模式。对我来说,这有点像是早期,乔布斯给索尼打电话,说:如果从明天开始,因为我们有了这个设备,每首歌要 9 美分,我觉得这有点像是类似的情况。

首先,我们不是在创建新用户,我们不是在创建垃圾用户,不是在创建预付用户UIU,你是 Jason,在你的身份验证下使用他们的接口来使用他们的服务,就像你在手机或电视上使用一样。

我们花了很多时间来研究条款和协议,并试图理解。对我们来说,除非他们关闭他们的接口,这是不可能发生的,因为我们没有违反任何规定,甚至没有创建虚假用户花费。有很多浪费。

我不知道你是否看到了 Sunbird 的短信绕过 Android,有很多奇怪的方法可以设置它,但我们没有设置任何这些。

Jason Calacanis:这很有道理,因为对于他们来说,这只是他们的用户通过基本上是声音界面的方式与他们的 App 进行交互,并在屏幕上进行一些确认。

在你发布的 1.0 版本或者你发布的 0.1 版本的阶段,这个互动是如何工作的?如果餐馆要花两个小时才能送货,或者他们停止送货。

吕骋:这是一个很好的问题,这是我们正在努力解决的一个新问题,有一部分我们确切地知道,如果是直接操作,就会直接触发服务,如果你想听“幸运”,那就是了,播放“幸运”。

如果你想要立刻到那里,那很容易,但我们还发现了一些情况。我没有在我的主题演讲中展示的一些原因,我通过 Expedia 为整个旅行计划预订了一些内部的东西或一些与我想象的,与我想象的相当相关的东西。我们基本上想为你创建一个方式,让你一遍又一遍地检查。

确切是这样。你们每个人都有这个意思,我自己也有这个意思。所以,我们需要分开类别。有一些情况下,你想让 Uber 送你回家,那就是简单的。

如果在未来有更复杂的文本,你应该能够在你的 Rabbit Hole Web 门户上看到一份关于实际文件的副本,这就是我们想要设计的方式。你总是可以得到一个门户来检查,更合法的东西,备份和你的笔记,你的会议摘要,所有这些东西都会同步到白色门户上,这就是为什么我把它更像是我们的迷你版本的云,它实际上很小。

Jason Calacanis:它是完全半部 iPhone ,与 iPhone 15 的厚度相同。

吕骋:因为我有一个非常小的手,很多人都误解了实际大小。我们实际上在辩论是否应该取消屏幕,因为对我们来说,这是一个缺点。

Jason Calacanis:iPod Shuffle 是一款非常小的产品。所以它只是变成了一个小的录音机,或者无论你可以将它制作成手表,你可以将它制作成任何数量的东西。确切地说,带我参观一下形式工厂,你用一个真的很棒的设计公司为你设计了这个,也许你可以谈谈你是如何使用它来设计它的,以及设备背后的灵感,因为它看起来既现代又复古。

吕骋:这是标志性的。我不确定是否有信心说它已经成为标志性的,但我看到很多人为我们制作了机箱和其他东西的框架。这是一个很好的开始,至少这是我和 Teenage Engineering 之间的一个很棒的故事,我尊敬他们,他们是我的英雄公司。

大约 15 年前,我开始了与复古合成器有关的工作。当他们推出便携式合成器 OP1 时,我立刻买了下来,但制作成本非常昂贵,一开始花了几个月时间筹集资金。

首先,Teenage Engineering 不是一家设计公司,不是一个积极寻求合作并收取设计费用的公司,他们是一个非常专注于音乐技术消费品的公司,已经存在了将近 十几二十年了,非常了不起的团队。

我告诉我的团队,当我还在 Raven 的时候,如果这些家伙给我一个机会,让我去为他们工作,我会去的。时间回到 2017 年,当我正在进行 Raven 硬件项目时,我突然意识到,也许我可以说服他们与我合作,而不是我为他们工作,因为我想挑选最好的。

在我心目中,他们是最好的,所以我就写了封电子邮件,联系了他们,三天后,我就坐在斯德哥尔摩的他们办公室里,然后 Yasper 是 Teenage Engineering 的 CEO 和 Co-founder。

我们都拿出了一个笔记本和一支铅笔,然后开始画东西。在这个过程中,他问我关于,你最喜欢的艺术家是谁?你最喜欢的汽车设计是什么,还有一些 Web Chat 的问题,令我惊讶的是,我们几乎在一切事情上都有完全相同的口味,就像他问我的所有问题,他向我展示了他的黑胶唱片收藏,我向他展示了我的黑胶唱片收藏,完全一样,而且顺序也相同,他说,我喜欢这个,我喜欢那个。

我们谈论了一些事情,然后一拍即合。整个过程就像魔术一样,我想我从来没有在任何媒体或社交网络上谈论过这个,但我们实际上建立了一个秘密的 Instagram 账号。

我们没有电子邮件通信,没有电话,什么都没有。我们只是开始在 Instagram 上发布草图和视觉效果。然后,我们就像互相点赞,互相留言。就是这样,所以我们做到了。

Jason Calacanis:这是一个公开的账号还是私人账号?

吕骋:是一个私人账号,公开的评论。

Jason Calacanis:这是一个有趣的方式。

吕骋:因为时间太长了,也许以后我可以分享一些早期的作品。但我想说的是,这是两组直觉性很强的人,我们互相认识,然后有很强的协同作用。

2018 年,我正式成为他们董事会的董事,然后我对公司有了更好的了解,我明白他们需要非常专注于他们当前的路线图,他们有很多事情要完成。但我开始看到对他们工业设计的更广泛的认可,过去的 3、4 年里,我非常高兴。

Teenage 也是一家叫做 Nothing 的公司的共同创始设计合作伙伴,我不知道你听说过一家叫做 Nothing 的公司吗?他们制造手机 —— Nothing Phone。

我们也是 Nothing 的 Co-founder ,就像整个 Teenage 一样,我们帮助 Nothing 建立了最初的整个设计语言和一切,然后当我们开始做 R1 的时候,情况正好相反,我们想要创造一些酷炫的东西。当然,我们要看的第一件事是谁在那里,我们看到了一些强大的竞争对手,比如 Humane、AI-Pin、ex Apple 的人,对团队表示极大的尊重。

我告诉自己,我有点说服自己,你正在提供一种全新一代的交互软件。对我来说,提供一种没有人知道如何使用的科幻小工具实在是太冒险了。

在我的理论中,硬件从来不是首选的选择。你不是因为想制造一个炫酷的硬件而制造硬件。大多数情况下,如果你这样做,它会彻底失败。我学到了很多好的案例,我也经历了很多好的案例,你有一个很好的软件,你想要专门的硬件来让它变得更好,它总是围绕着软件,总是围绕着内部的东西。

如果你有一个非常前卫、非常新颖的软件,你想在硬件上降低风险,至少在第一代的时候是这样。对我来说, R1 是通过必要性选择硬件的结果,而不是通过偏好选择硬件。

如果我想做硬件,我可能想做很多其他的机型,就像你说的,怎么样一个花哨的玻璃?怎么样什么什么的?我们首先意识到的第一件事是,我们想建立一个良好的位置,以便我们可以与所有这些大公司和即将推出的竞争对手竞争。同时,我们也想提供一些可以与你的文化、回忆和现有工作流程产生共鸣的东西,你不需要菜单来理解如何使用它。

吕骋:首先,对于任何单个直接操作,我现在更倾向于使用 Rabbit 。为什么呢?因为当我开始尝试完成任务时,它的速度就像思维的速度一样,我已经具备了这种速度。而且我觉得这几乎比找到那个模拟按钮还要快、更直观,甚至可以不看它,直接说话,而且 AI 的准确性足够好,执行速度也足够快。

我来给你一些快速参考。我总是在多个屏幕上,每天工作时都会同时处理很多事情,也许还要和其他人交流,如果我有什么我不知道的东西,这肯定更快。忘了闹钟,就说搜索方面,这绝对更快。然后我不得不设置一个新的标签页或者去 Chrome 开始输入。

Jason Calacanis:你有操作按钮,有点像无线电,你按下按钮,然后定义这个词,我不需要思考,差不多 6 或 7 个步骤。

吕骋:甚至不用那么多,一些非常高级的数字,让你快得多,我给你一个实际的例子。我正在和我们现有的一位投资人之一开会,他们会问一些关于销售和其他公司的一些数字的性能比较。

我一般不知道,我不知道去年一个公司的收入是多少。如果你考虑一下,我在 Google 上搜索,有 200 个标签页,哪一个是准确的?哪一个是正确的?这就是为什么我们设置了战略合作伙伴活动,只是为了增强这一部分,这就是单单搜索。

另一件事是音乐。 我可以告诉你,你会喜欢这个的,因为它可以播放音乐,这是第二代经典 iPad,具有相同级别甚至更简单的控制。我昨天实际上有幸与 Tony Fadell 通了电话,我们通话了三个多小时,光是播放音乐,这在过去的八个月里肯定是我的首选。除了搜索,可能有 70% 的时间都在听音乐。

很多人仍然不明白。我开始在 Twitter 上发布一些东西,有一个场景我使用了视觉功能,基本上我双击相机旋转并指向你想指向的任何东西。我使用视觉来查看一个 Discord,因为 Rabbit 。过去的三天,我们已经有了 5000 名会员,而我是那里的客服人员。

Jason Calacanis:作为创始人来听客户支持热线,那里才是离用户最近的地方。

吕骋:我尽量回复尽可能多的信息,但我开始迷失了,因为信息太多了。我实际上在与其他人的视频通话中,然后我简单地指向相机,说,这里的人在谈论什么?很多人不明白怎么用,很多人认为,你有眼睛,你不是盲人,这太愚蠢了,你为什么要这么做?

实际上我正在做其他事情,没有时间滚动鼠标查看 50 页的内容,即使当前版本的视觉 GPT 和我们自己的视觉模型需要更快,实际上在发布之前需要更快,我正在推动它,经过 4~5 秒钟,它会说,这是一个结论。人们正在讨论 Rabbit R1 如何可能浪费工作,它给我提供了报告。

Jason Calacanis:通常情况下,你可能会有一个受过大学教育的人,你会告诉他总结每天客户支持线上发生了什么?或者你可能会指着它,让 LLM 去做报告,这里你只需迅速拍个照片。

我也遇到这个问题。这个周末我在滑雪,一直试图用 Siri 来更改我的音乐,只是降低音量或更改曲目或播放不同的播放列表都非常痛苦,你说的是成功需要 5~10 秒, Siri 弄错了,然后你必须重新操作,然后你的音乐会被切断。

你说你按下这个按钮,然后很快地现在的响应时间,所有这些智能音响系统,你提到了几次 Raven,你曾经卖给了百度,那是你的第一家公司,我想,或第二个公司。你一定学到了很多关于声音命令的响应时间,等待那 4~5 秒钟等它醒来并理解你在做什么是多么可怕。这是你正试图解决的问题,就是前 5 秒,你如何解决这个问题?

吕骋:如果分解一下,延迟来自两个部分。LAM 很快。如果你去查看我在 Twitter 上发布的演示,就会发现它很快。播放一首歌是瞬间完成的。

如果你问一些随机的通用问题,我们有一项技术,基本上是通过 LAM 来制作流式令牌,使它非常快速。如果你问橙子和橘子之间有什么区别?任何不需要最新信息的事情,500 毫秒以内,如果你尝试在刚开始使用 OpenAI ,那么任何搜索最新信息都会开始变慢。

我最近没有尝试过,我觉得最近又有所改进,但通常情况下,我们谈论的是与500 毫秒相比,2~3 秒的时间。但视觉部分是延迟最大的地方。

我们谈论的是大约 8~10 秒左右,但这不是我们的问题。这实际上是目前行业中最快的速度,我们正在不懈努力地寻找进一步缩短时间的方法。

现在延迟的主要原因真的只是搜索最新信息,仅此而已。如果你只是触发 LAM 的东西,那就很快。

让我告诉你一些挫折。首先,我不想携带两个设备,没有人想携带两个设备。我不是要说服人们这只是性感,所以也许你想携带。

目前我们所能做的是,我们知道它不能成为一个 App 。与你的 iPhone 相同的足迹。它实际上非常轻,只有 110g 那么 110g 是什么感觉?从你的冰箱,拿两块没煮过的排骨,就是这样,它足够轻,以至于每次我放进口袋里,都会忘记它。

我感谢自己设计的模拟按键,因为我不需要真的把它拿出来看屏幕,我伸手到口袋里,觉得那个按钮。那实际上是我大多数时间使用它的方式,只需连接我的 Airpods 或其他蓝牙设备或汽车系统,我真的不需要看它。

我伸手去摸,但还有很多事情我宁愿去手机上查看,至少目前是这样。首先是重要的社交功能。至少在这一代中,这并不是为了连接所有你的朋友,闲聊并了解发生了什么,这更注重于解决任务。不幸的是,这部分我必须回到手机上,另一部分是专业的群聊。

Jason Calacanis:如果你想加入 Signal、WhatsApp 或其他通讯工具的群聊,它还不能完全替代。

吕骋:我们可以,它有个托盘,有 SIM 卡,它是一部手机。我们不是在努力成为一部手机,但它有能力做到手机所有功能。另一件事是,也许这只是事实,手机实际上是一个内容消费设备,如果你想一下 AppStore 上增长最快的 App ,那就是 TikTok、Netflix、 Instagram 等等。

iPhone 有一个更好的屏幕,我不得不承认这一点。这就是为什么,当我开始考虑激光投影仪时,我不确定,因为我看到了 Humane 的演示,手势发送消息,我可能不会这样做。

当我 2013 年开始 Raven 时,我实际上是与 Sri 几个人合作的,似乎是斯坦福大学,后来成立了 Nuance,Nuance 孵化了 Siri,所以有一个很长的历史,但我记得非常清楚的是,当我第一次拜访 Siri 时,口授大约在 74% 左右,以本土英语为基础,这是非常糟糕的,但它很快就上升了。

另一个问题是意图理解。我们正在谈论的是 Transformer 之前的时代,然后在 Raven 时,我们非常努力地开展自然语言处理或 NLP 工作,那是 Transformer 之前的最佳技术。我猜想问题不是因为我们没有考虑我们可以设计算法的方式,只是当时我们没有足够强大的计算能力,比如 GPU 可以运行它,所以如果你说意图识别,它真的很痛苦,非常消耗人力,因为本质上 Alex 以及以前的每一代智能音箱,就好像你正在为这个所谓的 AI 组装一个菜单,然后你基本上是在硬编码,这是 70 种与扬声器交流的方式,这意味着你想听这首曲目,有一堆句子可以描述相同的意图,NLP 是帮助我们理解和组装这个菜单的方式,很多事情都不太理想。

我完全理解对 R1 的怀疑,这是一个语音优先的设备,因为我们都是同一代消费者,仍然患有从早期非常糟糕体验的 PTSD。

Jason Calacanis:确切地说,这正是 Siri 让人们感到沮丧的地方,Alexa 更好一些,但在手机上的应用程度没有 Google 那么高, assistant 从来没有真正流行起来,我们只是假定它不好。

事实上,现在情况好多了,即使是使用 ChatGPT 的 App 也是如此。我现在用 iPhone 15,它有一个动作按钮,类似于你在 Rabbit 上所做的,我把它连接到了 ChatGPT 的语音界面,当我按下它时,它在 App 中进入了那个对话模式,这非常好。

在美国,它会迅速运行,你什么时候会知道你已经制作出一个可以挑战口袋中的手机的产品?你会赢得回家拿哪个设备的比赛,如果你忘记了你的手机,你会回去拿它。如果你忘记了你的钱包,你不会回去拿,你会说,我忘记了我的钱包。我的电话上有一些支付选项,如果你没有它,你得回去拿,当你达到这个里程碑时,我必须掉头回去拿我的 Rabbit。

吕骋:首先,挑战是一项雄心勃勃的任务。我们从来没有自己设定,至少在心态上,我们从来没有自己设定,就像 Rabbit 的整个目的是要杀死 iPhone 一样。

不管它是什么。另一方面,我们深刻理解,特别是由于我的经验,我的公司被卖给了百度,我们有一个非常独特的工作关系,仍然保持着 Raven,但我已经看到足够多了,不仅是百度,还有微软,所有其他公司,大公司是如何运作的。

我们目前的看法是,我们不认为我们有信心挑战它,但我们也不想等待。就像你可以成为用户,我在 Twitter 上发布了产品,成为弄潮儿、旁观者,还是陪跑者?你只能成为这三种的一种。

我们不是说有多少雄心勃勃,或者妄想,我有一个非常明确的总体计划,这不是创业公司的性质。我有很强的信心的一件事情是,对于所有这些基于 App 的操作系统的当前一代,要想改进是不可能的,因为技术不是,根本操作系统的转变,它永远不会是一种改进,它总是重新运作,它总是相关的。

问题不在于技术。很多工程师在工程师的角度上有不同的看法,他们认为只是这样做 Siri 就变成了 R1 ,那里就成了 RabbitOS。

不是这样的,问题是他们赚钱的动机背后,他们建立了一个拥有数十亿开发者和数十亿 App 的整个 AppStore,突然间没有 App 了,这怎么可能?

我看不到一个非常顺利的过渡,它怎么能够如此迅速地改变?我们认为应该等一等,进一步降低风险。我认为,考虑到 R1 是 iPod ,对于我们正在讨论的一定数量的请求来说,它是比 iPod 稍微宽泛的要求,因为 iPod 确实只是为了取代 Walkman,但在 iPod 时代,你仍然用黑莓电话,我用黑莓 8900,我有我的 iPod,你有两个裤袋。

Jason Calacanis:每个裤袋放一个。

吕骋:完全正确。它有点像固定形状,如果你穿牛仔裤,你甚至不想摸它,你只是放在那里。但我们有 R1,这是我们对未来结构的第一次尝试或方法,未来软件将如何与人类一起工作?你如何与软件互动?也许在一年半到两年内,我们会有一个更好的答案。

Jason Calacanis:返回搜狐,查看更多

责任编辑:

网址:“小兔子”发布新功能,离超级智能硬件更近一步了么? https://mxgxt.com/news/view/608141

相关内容

《超级明星兔八哥和崔弟 崔弟智救老奶奶》【价格 目录 书评 正版】
明星跨界玩科技,看智能硬件领域的璀璨“星光”
【明星企业巡礼】打造长三角首个智能硬件全产业链资源对接平台 中城智能硬件加速器助力制造迈向“智造”
Krea AI发布了super slow-mo(超级慢动作)的功能…
红旗布局新能源,换了玩法
离职被理想汽车挖走的iQOO产品经理宋紫薇要开智能软件发布会了
全新EMUI带来极致智能体验,华为nova5 Pro大有看头
明星代言,Sleepace联合太空棉领导品牌赛诺发布智能床垫
科技巨头和体育明星纷纷投资进场,现在还不布局智能健身只怕就要晚了
因为布雷迪你可能看了假超级碗

随便看看