AI 领域风起云涌：谷歌与 OpenAI 的一周激战

发布时间:2024-12-27 01:26

　　哎，这周AI界可真热闹啊!谷歌和OpenAI都放大招了，让人看花了眼。咱们先从谷歌的“大动作”说起。

　　谷歌新出的V2 AI视频模型，我试了试，感觉简直太牛了!这模型生成的视频超级逼真，对物理和动作的理解都提升了好几层楼。你给它个提示，它就能给你四个选项，找到满意的视频简直易如反掌。虽然具体啥时候上线还不清楚，但感兴趣的朋友可以去Google Labs抢个位置，加入等候名单。还有，谷歌还升级了文本到图像再到视频的模型，还有那个Imegen 3，现在生成的图像亮堂堂的，构图也高级多了。

　　谷歌还推出个新玩意儿叫Whisk，能把你上传的图片混在一起，做出超酷的效果。你给它个风格，上传图片，它就给你变出独一无二的作品。现在这个工具完全免费，就在Google Labs等着你呢。

　　Google NotebookLM也更新了，现在能让你和文档对话，还能把文档变成播客!你上传文本、PDF，甚至YouTube链接，它就能给你生成播客。你还可以边听边提问，这个功能现在对所有用户开放，而且不收费。

　　谷歌在Gemini Advanced平台上也推出了新模型，高级会员就能用他们最先进的大型语言模型。还有个实验模型叫Gemini 2.0 Flash thinking，推理能力更强。你可以在Google AI Studio免费试一试，看看跟OpenAI的01模型比咋样。

　　YouTube也新出了个功能，让创作者可以选择让第三方公司用他们的视频训练AI模型。你可以选择同意、不同意，或者只让特定公司用你的内容。

　　OpenAI这边也不闲着，一口气发布了12天的新产品或新功能。

　　第7天，他们推出了ChatGPT的项目功能，跟Claude的差不多。你可以创建不同的项目，每个项目都有自己专属的指令和文件，处理任务方便多了。

　　第8天，搜索功能对所有用户开放了，不管你是免费版还是付费版，都能在网上搜索答案。

　　第9天，他们宣布01预览模型可以在API中使用，开发者可以用在自己的软件里。

　　第10天，推出了1-800-CHATGPT，你可以通过电话跟ChatGPT聊天。不过，目前这个功能只在美帝能用。

　　第11天，还推出了ChatGPT的Mac应用程序，可以在Mac上用更多工具。

　　谷歌和OpenAI的竞争，让我们能体验到更多酷炫的AI工具。

　　还有个我最近发现的AI视频工具叫Invideo AI。它能帮你生成场景，编译成视频，还能加音频，一个平台就搞定。你给它个提示，它就给你生成脚本、视频、音效、音乐，甚至能用你自己的声音配音。还有超多模板，做各种类型的视频超方便。

　　说说程序员们关心的事。GitHub Copilot现在有个免费套餐，可以直接在VS Code里用。微软本周也推出了一些新功能，比如实时字幕里的实时翻译，还有Bing图像创建器的更新。

　　Meta那对Ray-Ban眼镜又升级了，这次可是大动作啊!它们现在能实时拍视频，跟之前Project Astra的玩意儿有点像，但更屌的是，它们还装了个聊天GPT，眼镜都能跟你实时翻译对话啦。意思就是，你随时随地都能跟Meta的AI小助手聊天，还能记得你们之前的对话内容。最神奇的是，你不用再说“嘿Meta”来唤醒它，直接问问题就能开聊了。这简直是把OpenAI的高级功能和视觉功能直接塞进了你的眼镜里。我还没体验到，但已经迫不及待想试试了。哎，它还能识别周围播放的歌曲，就像Shazam一样。

　　Instagram也来凑热闹，说要给咱们带来一些AI新功能。他们正在搞一个AI视频编辑工具，以后咱们拍视频都能换衣服、换背景，还能加特效。Instagram的CEO Adam Moseri说，他们想给创作者们更多工具，让创意无限放大。虽然现在还只是试验阶段，但他们计划明年就搬到Instagram上。

　　AI视频这块，Pika推出了2.0版本，新增了“素材”功能，你上传点照片和东西，AI就能帮你制作视频。我试了一下，效果一般，但我觉得只要方法对，肯定能做出超酷的视频。Pika还免费开放了2.0版本的权限，大家可以试试看。

　　Cling这家公司也发布了1.6模型，据说响应更快，视觉效果更棒。Runway还推出了一个新平台，能帮你找到用AI创作艺术和视频的大神。

　　Odyssey公司展示了一个能生成3D场景的模型，比如70年代的室内、21世纪的办公室、地下车间啥的。而且，他们还把这些场景弄到了虚幻引擎里。

　　还有个叫Genesis的项目，是个生成物理引擎，能造4D动态世界。你给它个提示，比如“悟空在桌面上冲刺”，它就能生成动画。这玩意儿还能训练机器人，自动生成策略和数据。

　　福特公司还研究了个AI模型，能模拟水滴落在啤酒瓶上的过程，还能展示水滴受到的各种力，甚至微观模式。这模型能在各种电脑上跑。

　　AI图像方面，Leonardo更新了，推出了Phoenix 1.0模型，还有Midjourney的情绪板功能和Magnific的超现实AI图像模型。

　　11Labs推出了Flash文本转语音模型，能在7.5毫秒内生成语音，真的要实现实时语音交互了。佛罗里达大西洋大学的研究人员还开发了个AI系统，能读手语，对聋哑人士来说是个大好消息。

　　Atronic和DeepMind合作，把AI和硬件结合在一起。Nvidia还推出了一款微型超级计算机Jetson Nano，给机器人提供动力。

　　总之，这周AI界热闹非凡，新功能、新模型层出不穷。我都迫不及待想看看2025年会出什么新花样了。

上一篇：雷军2002年度演讲整理从低谷到重生的故事下一篇：崖山悲歌：一个王朝的背影与千古绝唱

AI 领域风起云涌：谷歌与 OpenAI 的一周激战

关于我们

相关文章

雷军2002年度演讲整理从低谷到重生的故事

苹果智能：噱头还是未来？

马斯克是如何度过至暗时刻的

聊聊 AI 阴影下的程序员生存技能

量子计算新突破：Google Willow量子芯片的重大进展

古月僧和作者蘑菇的对话

联系方式

联系地址

AI 领域风起云涌：谷歌与 OpenAI 的一周激战

关于我们

相关文章

雷军2002年度演讲整理 从低谷到重生的故事

苹果智能：噱头还是未来？

马斯克是如何度过至暗时刻的

聊聊 AI 阴影下的程序员生存技能

量子计算新突破：Google Willow量子芯片的重大进展

古月僧和作者蘑菇的对话

雷军2002年度演讲整理从低谷到重生的故事