边缘计算社区近日获悉,谷歌于上周正式推出了 AI Edge Gallery 开源平台,使开发者能够直接在 Android 设备上运行先进的 AI 模型。未来,谷歌还计划支持 iOS 平台。

借助谷歌的新开源应用,开发人员可以直接在 Android 设备上获得私密、低延迟的 Hugging Face AI。
这款实验性应用程序基于 Apache 2.0 许可证发布,托管在 GitHub 上,利用了谷歌的 AI Edge 平台,能够在无需依赖云连接的情况下提供机器学习(ML)和生成式 AI(GenAI)功能。该平台面向企业级开发者,强调数据隐私和低延迟,为构建安全高效的应用程序提供了强大工具。

AI Edge Gallery 是什么?
在边缘计算社区看来,AI Edge Gallery 是 Google 打造的、专注于边缘AI的模型仓库与部署枢纽。其目标是解决开发者在将 AI 模型集成到移动端、IoT 设备、嵌入式系统等资源受限边缘设备中时,普遍面临的三大挑战:
- 模型适配难: 从云端“大模型”瘦身为本地模型,需要量化、剪枝和编译等复杂优化步骤;
- 离线执行需求强: 工业检测、隐私保护、实时响应等场景要求模型脱离网络也能稳定运行;
- 跨平台适配复杂: 不同设备(Android、iOS、嵌入式)对推理框架(如 TFLite、CoreML、ONNX)要求不同,迁移工作繁重。
Google 官方介绍与主要功能

Google AI Edge Gallery 是一款实验性应用,它将尖端生成式 AI 模型的强大功能直接交到您的手中,完全运行在您的 Android (现已推出)和 iOS (即将推出)设备上。您可以深入探索充满创意和实用性的 AI 用例,所有用例均可在本地运行,模型加载后无需网络连接。您可以尝试不同的模型、聊天、使用图像提问、探索提示等等!
Ask Image

Prompt Lab

AI Chat

✨ 核心功能

一个为设备端 AI 精心打造的中心
认真研究后,我们发现谷歌的 AI Edge Gallery 是基于 LiteRT(前身为 TensorFlow Lite)和 MediaPipe 构建,专为在资源受限设备上运行 AI 优化。它支持来自 Hugging Face 的开源模型,包括谷歌的 Gemma 3n —— 这是一个小型的多模态语言模型,能够处理文本和图像,未来还将支持音频和视频。
其中的 Gemma 3 1B 模型(大小为 529MB)在移动 GPU 上的预填推理中可实现每秒高达 2,585 个 token 的处理速度,使得诸如文本生成、图像分析等任务能在不到一秒内完成。模型完全离线运行,可利用 CPU、GPU 或 NPU,实现数据隐私的全面保护。
该应用包括一个“Prompt Lab”用于单轮任务,如摘要生成、代码生成和图像查询,支持模板和可调设置(如 temperature、top-k)。RAG 库允许模型引用本地文档或图像而无需微调,而 Function Calling 库则通过 API 调用或表单填写实现自动化操作。
谷歌在博客中指出,Int4 量化相比 bf16 能将模型大小最多减少 4 倍,从而降低内存占用和延迟。一个 Colab 笔记本可帮助开发者对模型进行量化、微调和转换,以便在边缘设备上部署。模型大小从 500MB 到 4GB 不等,LiteRT 在 Hugging Face 社区中心提供了十多种选项。
如何开始使用?
开发者可通过以下步骤快速体验 AI Edge Gallery:
1、在 Android 手机上启用开发者模式(设置 > 关于手机 > 连续点击“版本号”七次);
2、从 GitHub 下载最新版本 APK(v1.0.3);
3、使用 ADB 命令安装:
adb install -t ai-edge-gallery.apk
或在文件管理器中启用“未知来源”后手动安装。
需要注意的是,该应用目前处于 Alpha 实验阶段,可能存在不稳定情况,iOS 版本也正在开发中。
企业应用场景广泛
AI Edge Gallery 特别适用于需要本地处理敏感数据的行业,如医疗与金融,帮助企业通过本地存储实现数据合规。其离线能力支持现场应用场景,如设备诊断,而 MediaPipe 的集成则有助于零售和制造领域的物联网部署。Function Calling 库还支持自动化功能,包括语音驱动的表单填写和文档摘要。
KPMG 印度合伙人兼国家行业主管 Abhishek Ks Gupta 表示,像谷歌 Edge Gallery 这样的设备端 AI 是“在隐私和安全领域的一次革命性转变,因为它将数据留存在本地”。他补充说:“对于特定数据而言,它本质上更加安全,但也对安全防护提出了新的要求——必须保护设备群和模型本身。”
AI Edge Gallery 的性能取决于硬件。例如,Pixel 8 Pro 能够顺畅运行更大的模型,而中端设备可能会遇到更高的延迟。QKS Group 分析师 Abhishek Anant Garg 表示:“挑战在于将模型的复杂性与移动硬件的实际情况协调一致:开发者必须成为效率的大师,而不仅仅是云资源的调度员。”
他还补充说,设备端生成式 AI 的瓶颈不仅是技术性的,更是概念性的。“设备端生成式 AI 正面临与早期移动计算相同的障碍——试图将桌面计算范式压缩到手持设备形态中,”他说。“当前那些需要数 GB 模型权重和持续高算力(TOPS)的方案,根本与移动现实不符。我们需要从零开始构建适用于间歇性、低功耗、具备上下文感知能力的 AI 架构,而不是将以云为中心的模型简单缩小。”
推动本地 AI 处理的大趋势
AI Edge Gallery 的发布恰逢 AI 计算向本地迁移的大趋势。苹果的 Neural Engine 被嵌入到 iPhone、iPad 和 Mac 中,支持实时语言处理和计算摄影——全部在设备端完成,以保护隐私。高通的 AI Engine 集成于 Snapdragon 芯片中,驱动 Android 手机上语音识别和智能助手功能。三星也在 Galaxy 设备中内嵌 NPU,用于加速生成式 AI 任务,无需依赖云服务。
而谷歌的策略则更偏向于平台级基础设施建设。Edge Gallery 是从‘功能对抗’转向‘平台编排’的标志。谷歌不在与苹果、高通比拼单一功能,而是在构建整个移动 AI 的底层基础设施——类似于移动 AI 的 Linux。
通过开源模型、工具和社区生态,谷歌不仅扩大了 AI Edge 的使用门槛,更牢牢掌控了运行时和模型分发的主导权。就像 PC 时代的英特尔,谷歌正在悄然成为边缘 AI 浪潮中那个不可或缺、但往往被忽略的‘核心力量’。
结语:本地 AI 的时代正在到来
AI Edge Gallery 的推出,不仅是谷歌对边缘 AI 的一次重拳出击,也标志着整个行业向“本地智能”快速演进。如果你对大模型在边缘侧的落地感兴趣,欢迎参加即将举行的 第11届全球边缘计算大会,与行业先锋共同探讨 AI 浪潮下的边缘机遇!