ChatGPT重磅升级:可以看图、说话,几秒作出合成语音

据OpenAI官网9月25日消息，OpenAI宣布在接下来的两周内，将在ChatGPT中向Plus和Enterprise用户推出语音和图像。语音将在iOS和Android上推出（在您的设置中选择加入），图像将在所有平台上提供。

图片来源：OpenAI官网

用语音与ChatGPT交流

语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，ChatGPT 就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。

例如，让ChatGPT听一段小猫咪的文本故事，然后选择人类语音便可以一键完成转录。完成后，用户可以下载这段语音。

OpenAI称，这项新的语音技术能够从几秒钟的真实语音中制作出逼真的合成语音，为许多有创意和无障碍的应用打开了大门。然而，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物或实施欺诈。OpenAI 表示，这种模型不会被广泛开放，而是会受到严格的控制和限制。

图像输入功能：可以向ChatGPT提问图片

图像输入功能则类似于 Google Lens，用户可以拍摄自己感兴趣的事物，并上传到 ChatGPT 中。ChatGPT会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。

用户可以向ChatGPT展示一张或多张图片，提问相关的问题。例如，发送一张坏掉的烧烤炉图片，然后询问无法启动原因；拍摄一张冰箱中的食材，询问多种菜品制作方案。

带视觉的GPT-4（GPT-4V）使用户能够指示GPT-4分析用户提供的图像输入，OpenAI称，这是我们广泛提供的最新功能。将额外的模态（如图像输入）纳入大型语言模型（LLM）被一些人视为人工智能研究和开发的关键前沿。多模式LLM提供了一种可能性，即通过新颖的接口和功能扩大纯语言系统的影响，使其能够解决新任务，并为用户提供新颖的体验。在该系统卡中，我们分析了GPT-4V的安全特性。我们在GPT-4V安全方面的工作建立在GPT-4的基础上，在这里我们深入研究了专门针对图像输入所做的评估、准备和缓解工作。

基于视觉的模型也带来了新的挑战，从对人的幻觉到在高风险领域依赖模型对图像的解释。在进行更广泛的部署之前，我们与红色团队成员一起测试了该模型在极端主义和科学熟练度等领域的风险，以及一组不同的阿尔法测试人员。我们的研究使我们能够在几个关键细节上保持一致，以便负责任地使用。

OpenAI还放出了一段视频，是和ChatGPT商量着修自行车，不断问 ChatGPT：这里是扳手吗？是调整这里吗？甚至还把说明书拍照发给ChatGPT求解释。

图片来源：OpenAI官网

OpenAI表示还采取了技术措施，大幅限制了ChatGPT分析和直接陈述他人的能力，因为ChatGPT并不总是准确的，这些系统应该尊重个人隐私。

据中国基金报，国盛证券分析称，Chatgpt即将开放图生文及语音对话功能，AI技术持续迭代再翻新一页。

二级市场上，近期AI板块的走强，离不开行业利好的刺激。

7月13日，网信办等七部门联合公布《生成式人工智能服务管理暂行办法》。8月31日起，百度文心一言、讯飞星火等大模型正式向公众开放。9月5日，WPS AI正式面向社会开放，率先应用在WPS智能文档。

9月21日，微软举行了秋季发布会，在发布会上微软宣布将于本月26日发布Windows 11的下一个大更新23H2，据介绍本次系统更新将会有超过150项新功能，包括新的人工智能驱动的Windows Copilot功能。

国盛证券认为，Copilot发布进度超预期，AI办公的扩展速度及价值空间均远超预期。同时，国内AIGC监管已走上正轨、软件应用价值亟待释放。

天风证券表示，看好光模块为AI最强板块：光模块板块基本面一直以来利好不断。2024年800G预期大规模放量至千万只级别，海外、国内400G需求不断上调至800G同等规模。2025年800G需求持续且1.6T时代开启，光模块景气持续3年，供应格局没有变化。