OpenAI技术直播第六弹:ChatGPT“睁眼看世界” AI陪伴/AI教育新标杆?
《科创板日报》12月13日讯(编辑 宋子乔) 技术分享日第六天,OpenAI给出了更贴近“本心”的东西——ChatGPT开启高级语音模式:实时视频通话、屏幕共享和图像上传。
为什么说更贴近“本心”?
OpenAI CEO Altman此前在接受Salesforce专访时透露,自己最喜欢的AI电影是《她》(《Her》,一个男人爱上他的AI虚拟助手的故事),“对话语言界面的想法具有令人难以置信的预见性。”The Information在报道中称,Altman希望最终开发出一种类似该电影中的AI助理那样,能够快速响应的虚拟助手。
《Her》里的机器人女友代表着具身智能的终极形态,可以与人无障碍交互。
此前,ChatGPT的DAN模式(Do anything now的简称)允许AI以更加随意的方式与用户对话,其“人味儿”之重已经让人惊艳,不仅可以低延迟交流,还能模仿人类语气,提供情绪价值。这次,ChatGPT不仅能听会说,还解锁了视觉能力,通过摄像头“睁眼看世界”。
此次分享直播中,CEO Sam Altman并没有出现,而是由包括OpenAI的首席产品官Kevin Weil、OpenAI产品经理Jackie Shannon、负责多模态的OpenAI技术团队成员Michelle Qin和Rowan Zellers在内的四位员工来介绍了更新的功能。
高级语音模式的实时视频通话功能最为出彩。在OpenAI的团队成员依次与ChatGPT视频打过招呼并有了一定的认识后,有人发问:带着驯鹿角的同事叫什么?ChatGPT用圣诞老人限定语音给出了准确答案,展现“记忆”能力。

接下来,团队演示了ChatGPT如何教人操作手冲咖啡设备,只需给ChatGPT打一通“视频通话”,它能根据你面前的器具,手把手教你完成每一个步骤。在整个演示过程中,ChatGPT的声音自然而亲切,还调整了语气,甚至像人类一样大笑。

屏幕共享功能则是通过屏幕共享的方式,让ChatGPT来“看”你的屏幕,也是一种实时视频理解能力。用户只需点击右下角的高级语音模式图标,在下拉菜单中选择分享屏幕,就能获得针对性的帮助。
OpenAI团队成员与其共享成功后,让ChatGPT浏览了自己的短信并要求指导回复,ChatGPT展现了“高情商”的一面,建议夸赞对方的圣诞装饰。


据介绍,高级语音模式支持超过50种语言,9种逼真输出语音选项,且每种语音都有自己独特的语气和特征。而其背后的GPT-4o不仅可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。
支持50多种语言的ChatGPT能够实时理解现实世界的场景,不仅让ChatGPT作为AI陪伴工具的体验感大幅提升,也为更高效强大的AI教育工具作出了示范。
上述功能即日起在ChatGPT移动应用中推出,在接下来的一周内,这些功能将向所有团队用户以及大多数Plus和Pro用户开放。
网址:OpenAI技术直播第六弹:ChatGPT“睁眼看世界” AI陪伴/AI教育新标杆? https://mxgxt.com/news/view/1924242
相关内容
前OpenAI研究员Andrej Karpathy创办Eureka Labs 用AI技术革新教育领域ChatGPT 画明星,AI 与艺术的完美结合
OpenAI CEO谈AI画图明星DALL·E 2:技术突破不多,地气接了不少
AI 口语陪练:教育领域的新变革
谷歌加持,百度出来的AI大神要干掉ChatGPT?
OpenAI开放ChatGPT API,成本直降90%
OpenAI 扩展 ChatGPT AI 深度研究连接器,集成微软OneDrive
DeepSeek超ChatGPT成全球增长最快AI应用!
OpenAI或被卖给竞争对手,宫斗的根源是ChatGPT
采访山姆奥特曼:OpenAI与马斯克的AI之争,不仅是技术的角力(附完整视频)
随便看看
- 乐坛公认的5位歌神,林志炫垫底张学友第三,只有他至今无人超越
- 华语乐坛“吹捧”的三位歌手,邓紫棋那英上榜,第一位争议最大
- 陈皮银针:华语乐坛实力影响力综合排名top20 No.1 邓丽君 No.2 周杰伦 No.3 张学友 No.4罗大佑 No.5 刘欢 No.6 李宗盛 No.7 王菲 No.8 崔健 No.9 黄家驹 No.10 周华健 No.11 刘德华 No.12 张国荣 No.13 窦唯 No.14 齐秦 No.15林忆莲 No.16 张惠妹 No.17 那英 No.18 王力宏 No.19 谭咏麟 No.20梅艳芳
- 华语乐坛唱功最好5位歌的手,张学友仅排第二,第一当之无愧!
- 杜德伟“起来”巡演上海站即将开售 一场浓缩40载的音乐旅程
