AI 领域风起云涌:谷歌与 OpenAI 的一周激战
哎,这周AI界可真热闹啊!谷歌和OpenAI都放大招了,让人看花了眼。咱们先从谷歌的“大动作”说起。
谷歌新出的V2 AI视频模型,我试了试,感觉简直太牛了!这模型生成的视频超级逼真,对物理和动作的理解都提升了好几层楼。你给它个提示,它就能给你四个选项,找到满意的视频简直易如反掌。虽然具体啥时候上线还不清楚,但感兴趣的朋友可以去Google Labs抢个位置,加入等候名单。还有,谷歌还升级了文本到图像再到视频的模型,还有那个Imegen 3,现在生成的图像亮堂堂的,构图也高级多了。
谷歌还推出个新玩意儿叫Whisk,能把你上传的图片混在一起,做出超酷的效果。你给它个风格,上传图片,它就给你变出独一无二的作品。现在这个工具完全免费,就在Google Labs等着你呢。
Google NotebookLM也更新了,现在能让你和文档对话,还能把文档变成播客!你上传文本、PDF,甚至YouTube链接,它就能给你生成播客。你还可以边听边提问,这个功能现在对所有用户开放,而且不收费。
谷歌在Gemini Advanced平台上也推出了新模型,高级会员就能用他们最先进的大型语言模型。还有个实验模型叫Gemini 2.0 Flash thinking,推理能力更强。你可以在Google AI Studio免费试一试,看看跟OpenAI的01模型比咋样。
YouTube也新出了个功能,让创作者可以选择让第三方公司用他们的视频训练AI模型。你可以选择同意、不同意,或者只让特定公司用你的内容。
OpenAI这边也不闲着,一口气发布了12天的新产品或新功能。
第7天,他们推出了ChatGPT的项目功能,跟Claude的差不多。你可以创建不同的项目,每个项目都有自己专属的指令和文件,处理任务方便多了。
第8天,搜索功能对所有用户开放了,不管你是免费版还是付费版,都能在网上搜索答案。
第9天,他们宣布01预览模型可以在API中使用,开发者可以用在自己的软件里。
第10天,推出了1-800-CHATGPT,你可以通过电话跟ChatGPT聊天。不过,目前这个功能只在美帝能用。
第11天,还推出了ChatGPT的Mac应用程序,可以在Mac上用更多工具。
谷歌和OpenAI的竞争,让我们能体验到更多酷炫的AI工具。
还有个我最近发现的AI视频工具叫Invideo AI。它能帮你生成场景,编译成视频,还能加音频,一个平台就搞定。你给它个提示,它就给你生成脚本、视频、音效、音乐,甚至能用你自己的声音配音。还有超多模板,做各种类型的视频超方便。
说说程序员们关心的事。GitHub Copilot现在有个免费套餐,可以直接在VS Code里用。微软本周也推出了一些新功能,比如实时字幕里的实时翻译,还有Bing图像创建器的更新。
Meta那对Ray-Ban眼镜又升级了,这次可是大动作啊!它们现在能实时拍视频,跟之前Project Astra的玩意儿有点像,但更屌的是,它们还装了个聊天GPT,眼镜都能跟你实时翻译对话啦。意思就是,你随时随地都能跟Meta的AI小助手聊天,还能记得你们之前的对话内容。最神奇的是,你不用再说“嘿Meta”来唤醒它,直接问问题就能开聊了。这简直是把OpenAI的高级功能和视觉功能直接塞进了你的眼镜里。我还没体验到,但已经迫不及待想试试了。哎,它还能识别周围播放的歌曲,就像Shazam一样。
Instagram也来凑热闹,说要给咱们带来一些AI新功能。他们正在搞一个AI视频编辑工具,以后咱们拍视频都能换衣服、换背景,还能加特效。Instagram的CEO Adam Moseri说,他们想给创作者们更多工具,让创意无限放大。虽然现在还只是试验阶段,但他们计划明年就搬到Instagram上。
AI视频这块,Pika推出了2.0版本,新增了“素材”功能,你上传点照片和东西,AI就能帮你制作视频。我试了一下,效果一般,但我觉得只要方法对,肯定能做出超酷的视频。Pika还免费开放了2.0版本的权限,大家可以试试看。
Cling这家公司也发布了1.6模型,据说响应更快,视觉效果更棒。Runway还推出了一个新平台,能帮你找到用AI创作艺术和视频的大神。
Odyssey公司展示了一个能生成3D场景的模型,比如70年代的室内、21世纪的办公室、地下车间啥的。而且,他们还把这些场景弄到了虚幻引擎里。
还有个叫Genesis的项目,是个生成物理引擎,能造4D动态世界。你给它个提示,比如“悟空在桌面上冲刺”,它就能生成动画。这玩意儿还能训练机器人,自动生成策略和数据。
福特公司还研究了个AI模型,能模拟水滴落在啤酒瓶上的过程,还能展示水滴受到的各种力,甚至微观模式。这模型能在各种电脑上跑。
AI图像方面,Leonardo更新了,推出了Phoenix 1.0模型,还有Midjourney的情绪板功能和Magnific的超现实AI图像模型。
11Labs推出了Flash文本转语音模型,能在7.5毫秒内生成语音,真的要实现实时语音交互了。佛罗里达大西洋大学的研究人员还开发了个AI系统,能读手语,对聋哑人士来说是个大好消息。
Atronic和DeepMind合作,把AI和硬件结合在一起。Nvidia还推出了一款微型超级计算机Jetson Nano,给机器人提供动力。
总之,这周AI界热闹非凡,新功能、新模型层出不穷。我都迫不及待想看看2025年会出什么新花样了。
更新时间:2024-12-27 01:33