会员服务 登录 注册
×
资讯活动

2024年AI领域的四大新闻和2025年的一个重要预测

发布时间:2024-12-26 来源:金属加工

从各项指标来看,2024年是迄今为止AI领域最具突破性的一年,至少从这项技术的商业化角度来看是如此。

由2022年底ChatGPT的推出所引发的大型语言模型(LLM)热潮并未显现任何减缓迹象,不仅OpenAI和微软、Meta、谷歌等老牌科技巨头推出了众多新的LLM,还有许多其他初创公司和个人开发者也投身其中。

有关AI研究放缓的报道,即便不是毫无根据,至少在目前来看也是被夸大其词了。

此外,除了支撑大多数大型LLM的Transformer架构之外,新的技术也开始浮现,例如Liquid AI的Liquid Foundation Models。

最后,企业开始全面采用“代理式”AI方法——开发特定的由AI驱动的机器人、应用程序和工作流程,这些可以独立解决特定问题,或者在处理典型LLM聊天机器人的往复交互时,需要更少的人工管理。

要从一年的新闻故事中提炼出14个,更不用说10个或4个顶尖故事,是一项令人苦恼的任务,但我还是尝试了,尽管我稍微作弊,将几个故事合并成了更大的主题。在我看来,以下是从今年开始将产生最大影响的内容:

OpenAI的拓展远超ChatGPT

这家可以说最应为开启通用AI时代负责的公司,在今年并没有因新晋企业和传统科技公司的激烈竞争(甚至是其自己的投资者和合作伙伴微软)而错失良机。

o1模型:OpenAI发布了其首个除GPT系列之外的大型通用模型新系列——o1“推理”系列,该系列分配了更多时间来处理复杂提示,从而提高了准确性,它在科学、编程和推理任务中尤其有效。

o3模型:继9月的o1模型之后,该公司在年底重磅宣布了更先进的o3模型,虽然该模型要到2025年初才会向公众甚至任何第三方开放,但这表明OpenAI并没有满足于现状。

ChatGPT Search:这一功能最初以仅限邀请的独立产品SearchGPT推出,后来被整合到ChatGPT中,它能够在ChatGPT中实现更多实时网络信息检索,并优化搜索结果的呈现,从而增强了其在查询最新信息方面的实用性,并与谷歌、Bing和新加入的Perplexity展开正面竞争。

Canvas:于10月推出,Canvas将ChatGPT的界面从对话界面扩展到了类似工作站的面板,可以根据用户请求动态更新内容,如编辑文档或编程项目。当然,很难不将其视为对Anthropic几个月前宣布的Artifacts的反应,或至少是与之相当的功能。

Sora:在近乎一年的神秘预告后,OpenAI终于在12月初向大众推出了其备受瞩目的视频生成器模型Sora,凭借其独特且深思熟虑的界面和故事板功能,在竞争激烈的AI视频领域寻求差异化,并迅速引发了广泛反响。

开源AI崛起

Llama 3和3.1:Meta于4月推出了Llama 3,为开源AI 的性能树立了新标准,随后又在7月迅速推出了拥有4050亿个参数的Llama 3.1。Llama 3.1的多个版本被用于支持Meta AI,这是该公司跨WhatsApp、Messenger、Instagram和Facebook等平台集成的助手,旨在成为使用最广泛的AI助手。

Llama 3.3:于2024年12月发布,Llama 3.3的性能可与更大的模型相媲美,但计算成本却大大降低,使其更易于企业应用。

与此同时,中国的模型如阿里巴巴的Qwen-2.5系列和DeepSeek的新V2.5及R1-Lite Preview似乎横空出世,在一些基准测试榜单上名列前茅,而Nvidia本身也超越了显卡和软件架构的供应,推出了其自己的开源、强大的Nemotron-70B模型。

位于旧金山的小型机构Nous Research旨在提供更个性化、限制更少的开源AI模型,也首次推出了几个新颖的想法。

当然,我们也不能忘记法国的Mistral,它迅速扩展了自己的开源和专有AI产品。

谷歌的Gemini系列成为最佳可用模型的有力竞争者

在今年的回归故事中,谷歌的Gemini系列AI模型曾因生成奇怪的图像而被嘲笑,并因过于“觉醒”而受到批评,但现在它们以更强大、更新的版本强势回归,在第三方性能基准测试榜单上名列前茅,并且越来越受到开发者和企业的青睐。

谷歌推出了Gemini 2.0 Flash,这是一个多模态AI模型,支持流媒体视频分析,可以看到并指导你在屏幕上的操作,随后又推出了Gemini 2.0 Flash Thinking,与OpenAI的o1和o3推理模型展开竞争。

代理式AI席卷企业

随着一年的推进,“代理式”AI从一个流行词变成了顶级企业软件供应商发布的一系列重大产品公告和举措。例如:

Salesforce的Agentforce 2.0:Salesforce几天前推出了Agentforce 2.0,这是一个先进的AI代理程序,旨在增强其CRM和销售产品以及Slack中的推理、集成和定制功能,从而显著提升企业生产力工具。

SAP的Joule:SAP将其Joule聊天机器人转变为由开源大型语言模型(LLM)驱动的AI代理,推动了企业环境中的创新和效率。

谷歌的Project Astra:作为Gemini 2.0计划的一部分,谷歌推出了Project Astra,这是一个AI助手,旨在通过利用谷歌的一系列服务提供实时、情境化的响应,以增强用户生产力和决策能力。

我对2025年的大胆预测:AI生成的内容将占据主导地位

基于这些进步,2025年有望见证AI生成的内容在商业和消费领域的广泛传播,特别是现在从OpenAI到Meta、谷歌、微软、苹果,甚至埃隆·马斯克的xAI,都已经在其产品中内置了AI图像生成器。

这种扩展将简化内容创建、增强个性化,并提升各个行业的效率。

此外,我们预计大型语言模型(LLM)和由GenAI驱动的机器人将在商业和消费环境中首次大规模部署,彻底改变自动化和人机交互。