Gen AI 正在引领着一场前所未有的创新浪潮,从方方面面深刻改变和影响着我们的生活。初心作为一家在人工智能领域投入较早布局甚广的早期投资机构,持续关注着以Gen AI为代表的创新趋势,因此特别推出“初心Gen AI专栏”。
未来专栏将以专业视角,定期速览全球行业新闻,从动态中发现机会,共同迎接产业浪潮的到来。
本期专栏新闻节选自 2024 年 4 月 4 日—2024 年 5 月 10 日
01 海外行业动态
1. Open AI
小结:Open AI 加强“安全”,发布模型规范,升级儿童专项措施;持续发力 2B,更新 API 企业级服务,拓展自定义模型功能;设立日本办事处,扩大亚洲市场
- 发布全球首个AI模型行为规范
5 月 8 日,Open AI 发布人工智能模型行为规范公开讨论稿即“Model Spec”,是世界上首个 AI 模型的行为规范。Model Spec 反映了 OpenAI 在设计模型行为时所用的现有文档、研究和经验,以及指导未来模型开发的正在进行的工作,包括三个主要部分:目标、规则和默认行为。OpenAI 计划将 Model Spec 用作强化学习研究人员和 AI 训练者的指南,并探讨模型能否直接从 Model Spec 中学习。
- 更新API服务,引入更多企业级功能
4 月 23 日,Open AI 更新 API 服务,以更准确地检索,灵活操作模型行为 来完成企业级任务并控制成本。新增功能包括:改进文件搜索,可同时搜索多达 10000 个文件;可将文件添加到矢量存储库;支持 API 微调 GPT-3.5 Turbo 模型。成本管控新增方案包括:在 GPT-4 或 GPT-4 Turbo 上持续使用每分钟 TPM 的客户可预先请求吞吐量,根据吞吐量大小获得 10-50% 的折扣;客户可使用批量 API 处理降低成本,批量 API 处理的定价降为 50%,24 小时内返回结果。
- 升级对儿童的专项措施
4 月 23 日,Open AI 与多个企业共同达成新的儿童专项倡议,旨在减轻人工智能给儿童带来的风险。Open AI 为 ChatGPT 设置年龄限制,从训练数据中检测和删除儿童性虐待材料(CSAM)和儿童性剥削材料(CSEM),并向有关当局报告任何已确认的 CSAM 和 CSEM 内容,并积极关注政府机构和非盈利机构的倡议。
- 成立亚洲首个办事处
4 月 14 日,Open AI 在日本东京设立新办事处,长崎忠雄(亚马逊云计算 AWS 日本公司前总裁)任 OpenAI Japan 新总裁。Open AI 为当地企业提供专门针对日语优化的 GPT-4 定制模型,并计划在未来几个月内在 API 中更广泛地发布自定义模型。同时,ChatGPT 助力地方政府,横须贺市使用 ChatGPT 以提高公共服务效率。2023-2024,横须贺市为几乎所有公务员提供 ChatGPT 访问权限,80%人员的生产力得到提高。横须贺市已与包括东京都政府和神户市在内的 21 个地方政府组成了一个共享网络,分享政府使用 Open AI 技术的方案。
- 引入新微调 API功能 ,扩展自定义模型程序
4 月 4 日, 引入新微调 API 功能,提供更好的第三方集成、超参数配置及完整的微调模型检查点,改进了微调仪表板;同时,计划通过自定义模型程序服务大规模商业计划:与韩国电信运营商 SK Telecom 达成合作,微调 GPT-4,以提高其在韩语电信相关对话中的性能。SKT和 OpenAI 将对话总结质量提高了 35%,意图识别准确性提高了 33%。
2. GOOGLE
小结:AlphaFold 3 预测准确率提升一倍,并开始初步商业化;Google 加大对 AI 基建的投入,整合 Google Brain 和 DeepMind 团队,加速 Gemini 迭代
- AlphaFold 3 发布
5 月 8 日,谷歌 DeepMind 和谷歌旗下药物发现子公司 Isomorphic Labs 联合发布了其生物学预测模型 AlphaFold 最新版本——AlphaFold 3。这是在 AlphaFold 2 发布三年后,谷歌在 AI 生物学领域的又一次突破,相关成果已发表在《Nature》上。与前代相比,AlphaFold 3 不仅可以预测蛋白质的结构,还可以预测生物生命中几乎所有元素(DNA、RNA、配体等)的结构,并且可以准确预测蛋白质与其他分子的相互作用。与现有的预测方法相比,AlphaFold 3 发现蛋白质与其他分子类型的相互作用至少提高了 50%,对于一些重要的相互作用类别,如蛋白质与配体的结合、以及抗体与其靶蛋白的结合等,预测准确率甚至提高了一倍。Isomorphic Labs 已经将该模型用于科研,并与制药公司合作,探索新的疾病治疗方法。
- 宣布对 AI 基础设施和教育机构的投资计划
4 月 26 日,Google 宣布投资 30 亿美元以建设扩大弗吉尼亚州和印第安纳州的数据中心园区;并将完成谷歌人工智能基金的首批投资:面向 IVMF 和 Googwill。
- 整合 Google Brain和DeepMind 团队
4 月 18 日,Google 将 Google Brain 团队与 DeepMind 团队整合在一起,专注加速 Gemini 迭代,持续关注三个关键领域的应用计算机科学研究和投资:(量子)计算系统、基础机器学习和算法。
3. 微软
小结:微软加大东南亚、中东投资,和当地政府、企业深度合作;更新 Azure AI Search,向企业搜索及应用发力
- 宣布在泰国建立新的云基础设施和AI基地
5 月 1 日,微软宣布将在泰国建立新的云基础设施和 AI 基建,与泰国皇室和政府达成合作,计划到 2025 年为东盟成员国的 250 万人提供工作机会。微软与泰国最大的数字生活服务提供商 Advanced Info Service Public Company Limited、国家卫生安全办公室、泰国最大银行暹罗商业银行的母公司 SCBX Public Company Limited 及国务委员会办公室达成合作。
- 宣布投资推进印尼云服务和AI基础设施建设
4 月 30 日,微软宣布将在未来四年内投资 17 亿美元,用于印度尼西亚的云和 AI 基础设施建设,并和印度尼西亚银行 Bank Rakyat Indonesia、采矿承包商 BUMA、PT Telkom Indonesia Tbk 电信提供商达成战略合作。
- 与 G42 合作,加速阿联酋等地区 AI 创新
4 月 15 日,微软宣布将向阿联酋 AI 公司 G42 投资 15 亿美元,微软副主席兼总裁 Brad Smith 加入 G42 董事会,这笔交易大大将推进 G42 为金融服务、医疗保健、能源、政府和教育领域的一系列客户提供生成性人工智能和下一代基础设施和服务的战略。微软 G24 宣布阿拉伯语大型语言模型 Jais 将在 Azura AI 中提供。Jais 是世界上第一个阿拉伯 LLM,由 G42 与 Cerebras、Mohamed bin Zayed 人工智能大学(MBZUAI)和 Med42 LLM 合作开发。
- Azure AI Search 更新
4 月 4 日,微软更新 Azure AI Search,增加了存储容量和矢量索引大小,因此客户可以在任何规模上运行检索增强生成(RAG),并支持 ChatGPT、GPT 和 Assistant API 的 RAG 功能,无需牺牲成本或性能。 具体提升:矢量指数大小增加 11 倍、总存储量增加了 6 倍、索引和查询吞吐量提高了 2 倍
4. Meta
小结:Meta 发布 Llama 3 及基于其构建的 Meta AI,定位社交媒体全能 AI agent;今年 5 月起,将开始在社媒上标注 AI 生成内容;推出下一代 MTIA 芯片,旨在降低对英伟达等芯片厂商的依赖
- 发布 Llama 3 构建的 Meta AI
4 月 28 日,Meta 发布 Llama 3 构建的 Meta AI,并接入Facebook、Instagram、WhatsApp 和Messenger,提供搜索推荐、信息、图像生成、客服 agent 等功能,扮演社交引擎的全能 AI 助手,并且可以在 Meta Quest 上使用。
- 发布 Llama 3
4 月 19 日,Meta 发布 Llama 3,本次开源参数量为 8B 和 70B 的两个版本,未来数个月内还会推出其他版本,升级点包括多模态、多语言能力、更长的上下文窗口和更强的整体功能。Llama 3 性能大幅超越前代 Llama 2,在同等级模型中效果最优。Meta 目前正在训练超过 400B 的版本,性能比肩 GPT-4,但尚未决定是否开源。
- 宣布将推出下一代 Meta 定制芯片
4 月 10 日,Meta 宣布将推出下一代 MTIA。MTIA 是 Meta 专门为 AI 训练和推理工作设计的定制芯片系列。和去年五月官宣的 Meta 第一代 AI 推理加速器 MTIA v1 相比,最新版本芯片在性能上有显著提升,专为 Meta 旗下社交软件的排名和推荐系统而设计。同时,Meta 正在设计定制硅,计划投资于硅、内存带宽、网络设施与相关硬件。
- 在旗下社交媒体平台开始标记人工智能内容
4 月 5 日,Meta 宣布将在 Facebook、Instagram 和 Threads 开始检测 AI 生成的内容,并在旁边标注“AI 生成”,计划从 2024 年 5 月开始。Meta 对 13 个国家的 23,000 多名受访者进行了舆论研究,绝大多数(82%)赞 成对人工智能生成的内容贴上警告标签。
5. 英伟达
小结:英伟达拓展版图-更新 ChatRTX,赋能游戏开发和音乐制作;为汽车商和流媒体提供人工智能解决方案;收购 GPU 算力编排软件商 Run:ai
- ChatRTX 更新并添加新的人工智能模型
5 月 1 日,英伟达宣布 ChatRTX 在最新更新中添加了新的人工智能模型和功能,新增支持 Gemma、ChatGLM3。NVIDIA ChatRTX 允许用户与本地数据进行交互,并由 NVIDIA RTX 驱动的 Windows PC 和工作站加速,可用于游戏制作,混音等创作工作。
- 为汽车提供人工智能服务
4 月 25 日,百度和吉利的合资电动汽车制造商宣布将采用下一代 NVIDIA DRIVE Thor 集中型汽车计算机。将建立在其 Pilot Assist 3.0 智能驾驶辅助平台上设计全新 SUV,该平台由 NVIDIA DRIVE Orin 提供支持,支持点对点自动城市导航。DRIVE Thor 将集成新的 NVIDIA Blackwell GPU 架构,专为变压器、大型语言模型和生成 AI 工作负载而设计。
- 收购 GPU 算力编排软件提供商 Run:ai
4 月 24 日,英伟达收购 GPU 算力编排软件提供商 Run:ai。Run:ai 和英伟达从 2020 年开始密切合作,Run:ai 使企业客户能够管理和优化其计算基础设施,包括在本地和云环境中。Run:ai 在 Kubernetes 上构建了开放平台,支持所有流行的 Kubernetes 变体,并与第三方人工智能工具和框架集成。Run:ai 客户包括多个行业的顶级企业,它们使用 Run:ai 平台来管理数据中心规模的 GPU 集群。
6. 明星创业公司或创业者
初心观点:模型格局/产品格局仍存在较大变数 ;Embodied OpenAI 的方向成为顶尖 researcher 创业的首选
- xAI 或即将完成 60 亿美元融资
5 月 9 日 ,彭博社报道,埃隆・马斯克的人工智能初创公司 xAI 最快将于周内完成本轮融资,估值约为 180 亿美元。xAI 的模型能力及开源选择备受关注,有两个层面因素:
1)它是全球范围内冲击新的第一梯队(OpenAI、Anthropic、Google)的黑马
2)如果持续开源,它会对整个模型的格局、生态和商业价值有较大影响
- 李飞飞创立空间智能 AI 公司
5 月,斯坦福大学教授李飞飞宣布创立一家名为“空间智能”的 AI 公司,并已完成种子轮融资,投资方包括硅谷知名风投机构 a16z 和 Radical Ventures。公司将致力于实现 AI 在视觉信息处理方面的高级推理能力,利用深度学习、计算机视觉等先进技术,使 AI 能够像人类一样理解和分析空间信息,为机器人学习、自动驾驶、智能监控等领域带来革命性的变化。
- Perplexity AI 估值达 10 亿美金
4 月 24 日,AI 搜索引擎初创公司 Perplexity AI 宣布获得 6270 万美元融资,估值翻一番至 10.4 亿美元,由 Y Combinator 前 AI 主 DanielGross 领投,Stanley Druckenmiller、Y Combinator 首席执行官 Garry Tan 和 FigmaInc。首席执行官 Dylan Field 参投。TechCrunch 获悉,公司正在筹集至少 2.5 亿美元资金,估值在 25 亿至 30 亿美元之间。 *Reuters 5 月 9 日透露,OpenAI 有望于下周一发布其人工智能驱动的搜索产品,与 Google 和和 Perplexity 开始正面竞争。
02 国内行业动态
初心观点:国内大厂的 AI 战略逐步体现出差异显示—— 字节攻应用,阿里走开源,腾讯重视多模态。头部大模型创业公司将抢占 C 端作为核心
1. 字节
- Gauth 官宣突破 2 亿用户
5 月,字节跳动公司旗下的 Gauth 应用宣布其用户数量突破 2 亿。在新兴市场, 活跃用户规模保持崛起之势。DataSparkle 数据显示,Gauth 在新兴市场重点发力的国家主要集中在菲律宾、越南、南非等。进入 2024 年,其在这 3 个主要国家的周活跃用户规模便呈现上涨趋势,在 3 月中下旬进入爆发期,活跃用户规模直线上升。截至 2024 年 4 月 21 日,Gauth 在菲律宾的周活跃用户规模更是达到近 42 万的高峰。
- Gauth 简介:
产品:2020 年 12 月正式上线,后接入 GPT-4 和 Bard。定位为 AI 海外版作业帮,可提供 AI/在线真人教师解答国际学生 STEM 等学科问题
业务:覆盖数学、统计、物理、化学、历史、语文(达到美国 SAT 考试水准)题目答题,用户拍照上传题目,AI/在线教师解答
成果:2024 年初,iOS 手机版在美国教育类应用中排名第四,2024 年 5 月突破 2 亿用户,下载量在 3 个月内增长 14 倍
2. 阿里
- Qwen 系列加入千亿级参数 LLM 竞争队伍
4 月,阿里发布并开源了 Qwen1.5 系列首个达到千亿参数的模型—Qwen1.5-110B。Qwen1.5-110B 是 Qwen 系列中首个超过 1000 亿参数的模型。模型在基础能力评估中能够与 Meta-Llama3-70B 媲美。Qwen1.5-110B 继承了 Qwen1.5 系列模型的架构,采用了 Transformer 解码器架构。模型特别引入了分组查询注意力(GQA)。支持长达 32K tokens 的上下文长度,同时保持了多语言能力。
- 发布通义千问 APP2.5 版本
5 月,阿里云“通义千问 App”更名为“通义 App”,并发布通义千问 2.5,升级后变为通义App变为四大功能:助手、工具、角色、频道,并将通义听悟、智文等通义家族产品集成。同时,阿里云开源通义千问 1100 亿参数模型,自评 2.5 版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升 9%、16%、19%、10%。
3. 腾讯
- 提出多模态 AI 大模型:SEED-X
4 月,腾讯 Robotics X 和 AI Lab 在前沿科技基础研究方面发布全新论文 SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation。通过自研图像分词器,SEED-X 为交错视觉和文本数据上的多模态自回归预训练框架 SEED-LLaMA 的升级。SEED 模型进行了视觉-文本端到端自回归训练,实现了多模态理解、生成、推理等复杂任务,并展示了多模态涌现能力。同时,团队还发布了多模态大模型开源评测体系 SEED-Bench (Accepted to CVPR'24)。
4. 明星创业公司或创业者
- 月之暗面上线 Kimi+,覆盖多个场景
5 月,月之暗面在 Kimi 智能助手中上线 AI agent “Kimi+”,覆盖写作、学术、办公、社交、娱乐、电商导购等多功能。杨植麟在采访中称“当有新的技术变革时,都会产生很多新的 Super APP。从市场存在性角度来讲,我觉得大模型赛道大概率也会出现。”月之暗面的最终目标是探索智能边界,创造面向 C 端的超级 APP。
- Minimax 开放abab6.5模型,发布海螺 AI
4 月,Minimax 开放万亿参数大语言模型 abab6.5,升级开放平台 API。abab6.5 在 MoE 架构上进行了深度优化,是加速 Scaling Laws 过程的阶段性成果。abab 6.5 系列包括 abab 6.5 和 abab 6.5s 两个模型,均支持 200k tokens 的上下文长度,其中 abab 6.5 拥有万亿参数,且能够在 1 秒内处理近 3 万字的文本。
同月,发布海螺 AI。海螺 AI 是一款多功能多模态 AI agent 软件,对标字节豆包 AI。海螺 AI 接入 abab 6.5,配备多种较自然语音,支持语音交互和跨语言沟通。同时,其长文速读能快速提炼学术论文、财报、纪要、书籍要件的关键信息和归纳总结,总结微信公众号文章的要点信息和作者 观点,目标用户群包括学生、职场人士、内容创作者。
03 全球 AI 增速榜单及典型产品
初心观点:信息检索及呈现是一个潜在 Killer app 方向,未来的Killer app不一定在以 APP 的形态出现,有可能以类似浏览器插件或者是更新的形式出现
4 月全球增速榜
数据来源于:AI产品榜
1. 典型产品:MaxAI.me
- 公司简介: 成立于 2023 年 7 月 24 日,目标是提高用户的在线工作效率,提供写作改进、自动回复、内容生成等功能,用户能够随时随地调用 ChatGPT、Claude、Bard、Bing 等 AI 服务。
- 产品简介:
定位:浏览器插件,一键式插入/替换 AI 搜索/生成的内容,用户能够随时随地在线使用 AI 亮点:强调隐私保护,一键式操作(类似翻译插件划词翻译),支持多种 AI 服务、高拓展性
- 竞对比较: MaxAI.me vs Monica.im & Noco.ai:
- 更广泛的集成选项和更多的 AI 服务支持:OpenAI GPT, Bard, Claude, Bing AI
- 排名更高:MaxAI.me 在 Similarweb 的搜索引擎类排名为#121
- 一键式访问:无论用户处于网页的哪个位置都能快速调用用 AI agent,如聊天、写作、语法检查、搜索等产品启示:支持在各种工作环境(浏览器、windows 软件)中使用,贴合需处理大量文本数据的白领需求
3 月全球增速榜
数据来源于:AI产品榜
2. 典型产品:秘塔 AI 搜索
- 公司简介: 成立于 2018 年 4 月,专注人工智能领域的研发和产品落地,涉及 AI 搜索 、AI 写作、法律翻译等多个方面。
- 产品简介:
定位:中国版 Perplexity,整合性搜索引擎
亮点:内容颗粒度细,附带相关事件表格(事件名称、事件时间、事件概述)支持生成脑图、ppt,提供了简洁、深入和研究三种模式。
- 竞对比较:
秘塔 AI vs ChatGPT :
- 专有数据和知识壁垒:处理特定领域(E.g。学术)问题时更具优势
- 页面清爽:直接生成与实际业务紧密结合的答案,而不仅仅是链接集
秘塔 AI vs Perplexity:
- 更贴近中文的表达习惯
- 大语言模型:秘塔 AI 搜索是基于自主研发的大语言模型 MetaLLM,而Perplexity AI 是基于 OpenAI 的 GPT 模型
产品启示:
无广告搜索—slogan“没有广告,直达结果”,三种搜索模式(简洁、深入和研究模式),适用于法律、学术领域,支持生成脑图、PPT,生成内容较为准确。