AI 浪潮下的硅谷记录

从2022年11月 OpenAI 的 ChatGPT 上线开始，一场 AI 的竞速浪潮正式拉开。而这场浪潮的中心，依然是硅谷，一个创造过无数神话且持续在创造神话的地方。

本期初心海外专栏，是一份由我们常在湾区的同事依鑫带来的第一视角的记录。她将带大家回顾硅谷备受关注的三场发布会，同时聚焦在这场 AI 浪潮下的硅谷创业人才图谱，记录人工智能逐渐改变世界的点滴历程。

01 发布会现场探寻潮水方向

在五六月份，硅谷的多场发布会吸引了全球科技、创投界的目光。通过发布会现场，我们或许可以提前窥见AI浪潮下的潮水方向，探寻潮水之下的深层涌动。

一.OpenAI 「春季新品发布会」：发布新一代旗舰生成模型GPT-4o

2024 年 5 月 13 日，OpenAI 在首次「春季新品发布会」上发布了新一代旗舰生成模型 GPT-4o。GPT-4o 是 OpenAI 最新发布的大型语言模型，其名称中的“o”代表“omni”，意为全能。

GPT-4o 模型：打通任何文本、音频和图像的输入，相互之间可以直接生成，无需中间转换。实时跨音频、视觉和文本进行推理，这表明它具有原生多模态能力，能够处理文字、音频和图像的组合输入，并生成对应的任意组合输出。

根据语音指示+查看电脑屏幕，GPT4o现场编程

更高效的 GPT-4o API：比 GPT 4-Turbo 快 2 倍，价格便宜 50%。
惊艳的实时语音助手演示：对话更像真人、能实时翻译，识别表情，可以通过摄像头识别画面写代码分析图表。具备实时类人的语音对话交互与及时反馈，以及情感交互能力，凸显了其在端侧模型与代码生成能力等场景化应用中的优势。

GPT-4o与代码库交互并查看代码生成的图表

GPT-4o的各方面能力皆表现较优

GPT-4o 语音延迟大幅降低：232 毫秒内回应音频输入，平均为 320 毫秒，这与对话中人类的响应时间相似 GPT-4o 向所有用户免费开放。
ChatGPT 新 UI：更简洁。
新 ChatGPT 桌面应用程序：适用于 macOS，Windows 版本今年晚些时候推出。

初心小结

GPT4o 的语音输入及输出非常惊艳：过去的技术需要用 3 个引擎，包括语音识别翻译为文字，再把文字给到大模型，再 tts 文字转语音，时延相对长，语气等效果也不像真人，并且通常需要唤醒词，比如 Hi Siri 等等，并不符合人类通常的交流习惯。4o 采用 end to end 的方式，直接理解语音输入，包含情绪、语调、口音等等，同时直接输出带感情的语音，时延也大幅缩短，达到了人与人间对话的速度。同时，4o 也有一定的眼睛的能力，通过摄像头也能做一些图像理解。
GPT4o 显现了 AI 的一个另外的优化方向是与人交互的能力，也就是就是听懂看懂世界，然后能表达出情绪情感的能力。

3.利好的未来方向：情感计算、情感陪伴。

二.「GENAI SUMMIT SF 2024人工智能峰会」：聚焦具身智能与开源系统方向新探索

2024 年 5 月 29 日至 5 月 31 日，由 GPTDAO 携手微软联合主办的 GenAI Summit SF 在旧金山艺术宫举行，大会设置超 20 个主题，邀请 300 多名投资机构代表和参展商，超200位重量级演讲嘉宾，包括Microsoft、NVIDIA、Meta 等巨头代表，以及 OpenAI、Perplexity、Glean、Groq 等明星 AI 独角兽公司创始人、CEO、CTO 等共同探讨生成式 AI 的现在与未来。

峰会现场拍摄

来自英伟达

1. MineDojo & MineCLIP

MineDojo：由模拟器、数据库和 agent 组成的 AI 研究平台，利用 Minecraft 作为开放式实验场。

模拟器通过 API 设计，使 agent 能够在虚拟环境中执行复杂任务，如建造房子；模拟环境提供了一个安全且受控的场所，让 AI 模型能够进行多次试验和错误，快速迭代和优化。
数据库包含了 Minecraft 的互联网规模知识库，详细记录了所有的 Minecraft 配方和规则；数据帮助 agent 理解和执行游戏内的各种任务，eg。agent 通过学习数据来掌握建造房子的抽象概念，并在游戏环境中实际操作。

MineCLIP 模型：基于 OpenAI 的 CLIP 模型，使用强化学习从人类反馈（RLHF）中训练《我的世界》游戏环境中的代理，使用视频和文本数据。

agent 接收自然语言指令（如“剪羊毛以获得羊毛”），生成视频片段，并通过 MineCLIP 模型计算与指令的关联度得分，得分作为奖励函数用于 RL，使得 agent 能够学习并完成任务。

MineCLIP 的应用展示了如何利用自然语言指令和视频对比学习来增强 agent 的任务执行能力

2. Voyager：利用 GPT-4 生成代码片段的 agent，专为在 Minecraft 环境中执行复杂任务而设计。

关键功能是其 self reflection mechanism，包括 JavaScript 执行错误、agent state 和 world state 三个来源；通过这些来源，Voyager 能够自我优化和调整任务执行过程。
每当 Voyager 在执行任务时遇到问题，它会通过 self reflection mechanism 进行分析和改进，从而不断提高自己的能力。

Voyager 还有一个技能库，存储了由 GPT-4 生成的各种代码片段，每个代码片段代表一项特定的技能；这些技能可以在未来的任务中调用，确保 Voyager 能够应对各种不同的挑战。
Voyager 在 Minecraft 中的表现非常突出，能够长时间自主探索和执行任务，如探索地形、开采材料、对抗怪物和制作工具，通过高级别指令不断发现新挑战，并通过递归增强自身能力。

MetaMorph：一个通用策略模型，可以通过标记它们的运动结构来控制数千种不同的机器人形态，能够适应多种不同配置的机器人模型。

创新之处在于开发了一套专门描述机器人身体部位的词汇库，这些词汇库将不同形态的机器人转化为分词，使得模型能够更好地理解和操作机器人的身体部位。通过这种方式，MetaMorph 能够适应数千种不同配置的机器人，并利用大型多任务网络和强化学习，训练机器人在各种地形中行走和导航。

MetaMorph 展示了其在多体控制和适应性学习方面的优越性，不仅能够控制多种形态的机器人，还能在训练期间从未见过的机器人形式中泛化，意味着 MetaMorph 在面对新的和未预见的任务时，仍能表现出色，显示出其强大的适应性和灵活性。

4. Isaac Sim & Eureka

Isaac Sim

NVIDIA 开发的高效模拟平台，具有超高速度的物理模拟能力，能够以实时速度的千倍或更高速度运行复杂的物理模拟，使得** AI 模型能够在极短时间内完成大量训练**。
Eg. 通过 Isaac Sim，一个角色可以在三天内完成相当于十年的高强度训练，缩短训练时间，提高训练效率。
通过硬件加速的光线追踪技术，能够渲染出具有照片级真实感的复杂世界；逼真的模拟环境不仅有助于训练 AI 的计算机视觉模型，还可以用来测试和验证 AI 在不同场景中的表现。
Eg. 一个机器人可以在模拟环境中学习复杂的武术技能，然后将这些技能应用到现实世界中，高真实感的模拟环境对于开发和测试 AI 模型具有重要意义，因为它可以在安全、可控的环境中进行大量的试验和调整。

Eureka

一种自动化奖励函数生成和优化的系统，通过 GPT-4 生成和优化奖励函数，使得机器人能够在模拟环境中（Isaac Sim）进行大量的试错迭代，并不断优化其行为表现。
核心理念是自动化这一过程，使得机器人能够快速适应并执行复杂任务，通过 domain randomization，Eureka 在多个不同配置的模拟环境中进行训练，使得机器人能够从模拟环境无缝转移到现实世界中。

从模拟到现实的转移，domain randomization 通过在模拟环境中引入不同的重力、摩擦力、物体重量和尺寸等参数，帮助机器人学习和适应多种环境条件，使得机器人能够有效地将其在模拟环境中学到的技能应用到现实世界中。
Eg. Eureka 在模拟环境中训练机器人旋转立方体的技能 or 使机器人能够在瑜伽球上行走，然后成功地将这一技能转移到现实世界中，在复杂任务中的高效性， Eureka 的应用展示了其在高效训练和技能转移方面的强大能力。

5. Foundation Agent：NVIDIA 开发的下一代通用 AI 模型，通过大规模的多种现实世界任务训练，创建一个具备高度适应性和通用性的 agent。

特别关注人形机器人，因为人形机器人具有最高的通用性。NVIDIA 认为，随着技术的进步，人形机器人的制造成本将迅速下降，使其在未来有望广泛应用于各种实际场景中。
最终目的：通过使用机器人通用的 foundation agent，使人形机器人能够胜任各种现实世界中的任务。

来自Llama 3

1. Llama3 概览

训练数据：Llama 3 使用了超 15T 的 token 进行训练，是 Llama 2 数据集的 7 倍+，训练效率是 Llama 2 的 3 倍。Meta 非常重视预训练数据数量、质量、多样性。依赖扩展法则和数据消融来确保我们数据集的质量和多样性都达到标准。
专有数据：将专有数据添加到预训练中很难+贵，后期训练中添加特定应用数据更容易。
合成数据：需要非常小心，精心策划，并确保能捕捉到先前模型的错误和偏见。
后期训练：使用强化学习激励模型（RLHF）循环的数据都是由人类验证的合成数据。预训练也可以考虑使用合成/循环数据。
提升推理能力：更多纳入预训练+后期训练阶段使用强化学习。

Llama 3 训练数据：使用 128K token 词汇表的 tokenizer，在 8B 和 70B 的模型上采用 GQA 技术。the verge 提到，Llama 3 使用的训练数据，有很大一部分是 AI 合成的数据

长文本：支持 8K 长文本，改进的 tokenizer 具有 128K token 的词汇量。
图像生成器：Llama 3 带有图像生成器功能，可根据自然语言提示词生成图片。
推理效率：Llama 3 采用了分组查询注意力（Group Query Attention）等技术，提高了模型的推理效率。

2. 模型能力

测试：在多个关键基准测试中表现出色，在代码生成等任务上，性能近似 GPT-4。

Meta Llama 3 性能：在 MMLU、HumanEval 和 GSM-8K上，Llama 3 70B 击败了 Gemini 1.5 Pro。虽逊于 Claude 3 Opus 媲美，但 Llama 3 70B 的性能，已优于 Claude 3 系列的中杯模型 Sonnet 19.jfif Llama 3 70B在人类反馈测试中打败Sonnet、Mistral Medium、GPT 3.5

开源：Meta 已经将 Llama 3 模型的 8B 和 70B 开源，包括预训练和微调版本，可以公开获取。

3. 模型架构

架构：Transformer 是最适合扩展的模型，其他架构尚未能与 Transformer 竞争。Transformer 是否能实现 AGI，取决于 AGI 的定义，现阶段已实现了某种形式的 AGI。
应用范围：Llama 3 模型已经集成到 Instagram、WhatsApp 和 Facebook 中，提供了 AI 助手功能。
安全性：Meta 为 Llama 3 开发了信任和安全工具，如 Llama Guard 2、Code Shield 和 CyberSec Eval 2，以确保模型的安全性。

4. 实用建议

未来计划：Meta 计划在未来几个月内推出更大体量的多模态版本，并正在开发超过 4000 亿参数的最大模型。

预期：认为现有模型可以阶梯式改进，同时小模型和大模型之间的差距也会缩小，因为 Meta 在尝试使用蒸馏、量化等技术来训练更强大的小模型。其次，希望能找到一些技术来超越当前的 Scaling Law 趋势，无论是通过创新模型、合成数据或高参数等技术，来超越现有水平。

初心小结

具身基础模型进展迅速，从最初的任务学习到现在的通用化、多形态适应和高级自动化，演变和应用。
Meta、Xai 等开源力量正在缩短与 OpenAI 的差距，小模型与大模型之间的差距也在缩小。

3.利好的未来方向：特种机器人、人形机器人、GenAI 应用。

三. WWDC：苹果交出AI领域新答卷-Apple Intelligence

2024 年 6 月 11 日苹果 WWDC24 全球开发者大会如期举行。此次苹果完全聚焦于软件，发布了新一代操作系统 Apple Intelligence，iOS 18、iPadOS 18、macOS 15、watchOS 11、visionOS 2 悉数登场，其中Apple Intelligence是苹果在AI领域交出的新答卷。

Apple Intelligence

Apple Intelligence是面向 iPhone、iPad 和 Mac 的个人智能化系统，可基于个人场景发挥生成式模型的强大功用，结合用户情况提供有助益且相关的智能化功能。

现场直击

AI 集成到操作系统：Apple Intelligence 的第一波功能已经集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中，目前处于内测阶段，计划于 2024 年秋季正式上线，仅支持 iPhone 15 Pro 系列和搭载 M1 芯片的 ipad 和 Mac 设备。

Apple Intelligence全线

云端处理：一些复杂的 AI 功能将通过云端处理，利用内置的 GPT-4o 模型的 ChatGPT 实现，并强调了云服务器在安全性和隐私保护方面的高标准。
Siri 集成 ChatGPT：Siri 接入 ChatGPT，提供更智能的帮助，E.g. 解答查询、智能回复等，免费访问、无需账户。
AI 写作：Apple Intelligence 提供全局范围内的写作支持，覆盖所有应用程序，例如：邮件智能回复、词汇补全、内容总结、信息提取等。

Apple AI写作工具

AI 优先级通知：重要通知置于堆栈顶部，便于用户快速识别关键信息。同时，实现根据时效性生成优先级邮件排序，生成长邮件的摘要。

AI邮件智能排序

AI 图像：推出 Image Playground、Genmoji、Image Wand、照片擦除等 UGC AI 图像工具，提升图像内容的个性化和视觉效果。
Apple Vision Pro：已在中国 Apple Store 上架，售价 29999 元起。

Image Playground：快速生成原创图像，匹配keynote

Image Wand：根据草图/上下文创建图片

初心小结

从能力上，Apple intelligence 文字的总结、重写、预测，图像处理及表情生成，支持多个 app 的理解与执行任务，属于在意料之中的常规发挥。
Apple intelligence更值得关注的是它的架构，日常任务可以用端侧部署的大模型来运行，更复杂的访问 Apple 云端部署的 Apple silicon 算力，并且是私有云计算加密方式，不保留数据在服务器中。端侧模型在保护隐私的同时也把算力成本部分转嫁给了用户设备。
利好的未来方向：端云协同架构、端侧模型、AI 硬件。

02.新创业潮:

AI 创业氛围浓厚，华人力量崛起

GenAI 带来了新一波创业潮，华人在这波浪潮中扮演着重要角色，投身方向主要可以分为以下几个维度：

顶尖教授、学者包括李飞飞、马腾宇等正陆续投身于底层模型的创业领域，专注于解决现有底层模型的局限性和缺陷。
科技公司 Researcher、Engineer 离职创业侧重在 AI Infra 和 2B/2Prosumer 应用，通常具备强技术背景和对行业的深刻理解，有能力 access to data，随后能用 domain knowledge 去处理 data 来训或调 model，并通过紧密的 CXO 网络 GTM。
学生创业多数在 GenAI 2C 应用，如 AI+游戏/社交/学习，通常以快速原型开发和迭代为核心，倾向于迅速构建 demo 并通过实际测试来验证想法。通过 2-3 次快速 pivot，通常能迅速将产品推向市场并实现初步商业化。
同时，有一定用户体量及营收的出海应用、硬件公司创始人陆续来到湾区搭建团队，从出海到植入到扎根。
大量创新创业社团不断涌现，进一步促进了 AI 领域的创新创业。

斯坦福大学实验室正在尝试教计算机「如何在三维世界中行动」，例如，使用大型语言模型让一个机械臂根据口头指令执行开门、做三明治等任务。李飞飞研究的VIMA 智能体能像 GPT-4 一样接受多模态的（文本、图像、视频或它们的混合）Prompt 输入，然后输出动作，完成指定任务

03.Buy in AI：持续的小机遇与大机遇

观察硅谷的早期投资动向，可以发现老牌基金的关注点已有所变化：

关注硬科技：开始更多关注 Deep Technology + Long Term ，投资方向开始更多涉及国防技术、太空技术等需要长期研发投资的 game changer 硬科技领域；同时，也偏好投资于 AI+科技研发，如使用 AI 来加速药物发现、材料科学等。
关注制造：积极投资具身/机器人，推动制造业回流，尝试重造一个世界工厂。
重视华人：重视华人在 GenAI 浪潮中的力量，频繁出手顶尖 Researcher/Engineer、视频/3D 应用、AI+泛娱乐。团队在美国长期求学/工作/连续创业属于加分项，但也不是必须，核心关注团队的“实力”或产品“数据”，及长期的本土化决心。

目前活跃的华人基金则主要有几个特点：

-信心层面：强烈 Buy in AI，甚至 All in AI，相信 AI 会带来持续的小机遇，和持续聚集势能中的大机遇。

“卖水人”逻辑：关注提供基础设施和支持服务的企业（如算力、AI 芯片、边缘计算等），2B&2D。
注意力开始放到 AI+垂直领域应用：如法律、医疗等对数据的敏感性和专业性要求较高的领域，注重创始团队的行业洞察及其高质量数据获取能力。
更积极地链接：打造深厚的 mkt-社区-企业-老牌基金的关系及资源网络。

04.序幕刚刚拉开，挑战与机遇并存

技术的发展总是伴随着起伏。目前，北美的 AI 初创公司也面临增长风险。即便是像 Inflection、Stability 和 Character 这样的知名项目，也面对着资金链断裂的困境，有的正在寻求收购，有的已经被收购。但将目光拉长，目前也只是刚刚拉开序幕，模型能力的提升也将进一步带来或覆盖创业公司的机会。对于初创公司而言，这是一个充满挑战与机遇并存的时代。

目前看来：

LLM 将进一步赋能垂直领域，高质量数据获取能力不可或缺
To Prosumer/To C 的 GenAI 应用仍大有可为，把握模型能力打造产品是首要关键因素
AI 硬件/智能硬件正在崛起，需定义新场景或新服务
物理世界的 foundation model 加速具身迎来智能

在这轮席卷全球的AI浪潮下，初心将持续以实际行动支持Global Chinese的创业之路，从going global 到 being global，我们期待见证更多具有全球化视野的华人创新力量，把握全球创新趋势，共同开启全新征程。

洞察 XR：Vision Pro 和它重启的创投机会 | 初心内参

做陪伴创业者
最早的投资机构

初心是积极布局新兴业态的早期股权投资基金，专注于企业级软件、科技创新等领域的投资。我们致力于捕捉因科技赋能而改变行业格局和通过软件帮助企业降本增效、优化运营的优秀企业，进行投资布局。欢迎留下你的联系方式，与我们取得联系。

初心创投

AI 浪潮下的硅谷记录

做陪伴创业者最早的投资机构

做陪伴创业者
最早的投资机构