公司项目分享：硅谷人工智能公司 Nexa AI 发布端侧 AI 部署新思路

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

爱意满满的作品展示区。

2025 年，是 AI 硬件的全面爆发之年：AI 手机、AIPC 、AI 陪伴、AI 眼镜、AI 智慧座舱……然而，云端大模型主导的 AI 硬件正在显露隐忧：高昂的 API 调用成本让中小企业望而却步，隐私数据上传云端的安全风险如影随形，网络延迟与垂域适配不足更是制约着端侧的场景创新。

开源端侧小模型崛起正在改写游戏规则：根据小模型能力密度发展趋势（ Densing Law ）,小模型能力大约每 3.5 个月就翻一倍，边缘 AI 推理场景正在从想象变为现实。甚至英伟达也在论文《 Small Language Models are the Future of Agentic AI 》宣告：小模型才是 Agentic AI 的未来。

1. 部署难、表现差？端侧 AI 发展仍面临痛点

当开发者们摩拳擦掌，想要用先进小模型打造创新应用时，现实又浇了一盆冷水：

部署门槛高：端侧平台的推理框架并不像云端那样容易适配：工具链有 CUDA 、QNN 、ANE 、ROCm 、Openvino, openCL, metal, vulkan 等等五花八门……耗费数月踩坑仍难跑通最新模型；
性能表现差：即使顺利通过部署，由于推理引擎适配不当导致精度下降、输出缓慢、能耗飙升，让端侧应用体验大打折扣
跨平台噩梦：不同硬件（ PC ，手机，车机，IoT ）、芯片（高通、Intel 、AMD 、苹果）间的适配壁垒，让跨设备应用开发重复 “踩坑”，效率极低。例如可以在高通 PC 上运行的多模态模型无法自动移植到高通车载端。
最新的模型支持差：NPU 上普遍只能跑 1 年以前发布的模型，无法使用最新的模型（如 Mistral3, Qwen3-VL ），需要等待非常久的时间。

2. 端侧 AI 部署的新思路

最近美国硅谷明星端侧 AI Startup Nexa AI 公司在 github 上发布的 Nexa SDK ，为全球开发者带来了破局新思路。这个项目致力于解决长期存在于端侧模型部署中的共性问题，让 AI 模型在手机、PC 、汽车、IoT 等边缘设备上的落地变得前所未有的简单。

github 项目链接： https://github.com/NexaAI/nexa-sdk

Nexa SDK 构建了 4 大核心优势，解决端侧 AI 部署的核心痛点：

跨平台统一推理框架：NexaSDK 由 NexaML 引擎提供支持，该引擎是从芯片 Kernel 层打造的跨硬件平台统一推理引擎（电脑，手机，车，IoT ，机器人，以及 XR 眼镜），并支持三种端侧模型格式：GGUF 格式、MLX 格式以及 Nexa AI 自主研发的 .nexa 格式。这一引擎的能力也被 IBM 认为是比肩 vLLM, MLX, llama.cpp 的四大 inference engine 之一。
NPU, GPU, CPU 深度适配：NexaSDK 可在多种算力平台的 NPU 、GPU 、CPU 上本地运行各类人工智能模型它不仅使用简单、灵活性高，而且性能佳。特别是支持各大算力平台的 NPU 芯片（覆盖高通 Hexagon NPU, 苹果 NPU ，AMD Ryzen AI NPU ，以及 Intel NPU ），充分利用 NPU 性能，可以解决过往端侧模型在 CPU/GPU 上运行带来的输出速度慢、能耗畸高的问题，推理性能可达到 CPU 1.5 倍，GPU 4 倍，能效比提升 28 倍。
任意多模态模型 Day-0 支持：面对快速更新的开源模型市场，Nexa SDK 能够做到在新模型推出的第一时间适配各个硬件后端（ NPU, GPU, CPU ），并且支持多种模态 Vision, Text, Audio, 以及 CV 模型；
低代码极致易用：使用一行代码即可调用本地模型，OpenAI API 兼容设计让开发者无缝衔接代码，大大降低了端侧 AI 的应用门槛。

Nexa SDK 与其他端侧 SDK 的比较优势：

Features	NexaSDK	Ollama	llama.cpp	LM Studio
NPU 支持	NPU 优先
Android SDK 支持	NPU/GPU/CPU 支持
支持 GGUF 、MLX 、NEXA 任意一种格式的模型	底层控制
全面支持多模态	图像、音频、文字模型
跨平台支持	桌面端、移动端、车载端, IoT 端
一行代码调用
兼容 OpenAI API + 函数调用

完全支持部分或有限支持不支持

NEXA SDK 一经发布也获得了包括 AMD/高通的诸多行业认可： Imgur Imgur

3. 快速上手：快速解锁端侧 AI 能力

根据使用方式和平台，Nexa SDK 提供不同的工具包：

Nexa CLI：可在 MacOS/Windows/Linux 使用命令行终端速测试模型及运行本地服务器；同时支持在 Linux 系统的容器化环境中运行 AI 模型；
Nexa SDK Python 开发工具：可在 MacOS/Windows/Linux 平台使用 Python 完整运行 SDK
Nexa SDK Android/iOS 开发工具: 支持在移动端设备跨 NPU/GPU/CPU 推理的安卓/iOS 开发工具包 Nexa SDK 实现了全平台支持，全球首次统一支持苹果 NPU 、Intel NPU 、AMD NPU 、高通 NPU 等 4 类 NPU 推理加速芯片，让端侧模型边缘推理拥有了更广泛的实现和应用场景。

3.1 Nexa SDK CLI 快速体验

下载路径：

可以从 github： https://github.com/NexaAI/nexa-sdk 或者 https://sdk.nexa.ai 下载 Nexa CLI 。

Imgur

一行代码运行模型

Nexa SDK 支持 LLM 、多模态、音频（ ASR\TTS ）、CV 、生图等多种端侧模型。例如：

多模态模型

NexaSDK 在 Qwen3VL 发布当天 Day-0 跨平台支持，领先 llama.cpp/ollama 三周，并得到 Qwen 官方认可

nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF

车载多模态模型（适配高通 NPU ）

nexa infer NexaAI/AutoNeural

相比于其他框架，NexaSDK 对于新模型的支持速度还是非常迅速，可以访问 Nexa AI 官方模型仓库 https://huggingface.co/NexaAI 查看使用更多精选的模型。 Imgur

目前 Nexa CLI 支持 MacOS 、Windows 、Linux （并支持 Docker 运行），同时提供 Python API, IOS Swift API 、Android Kotlin/JAVA API 开发工具包,

兼容 OpenAI API NEXA CLI 还提供 OpenAI 兼容的 REST API ，一行命令即可访问服务接口，无缝覆盖对话生成、文本嵌入、文档重排序、图像生成等核心场景，满足多样化开发需求。

nexa serve

/v1/chat/completions - 用于 LLM 和 VLM 的对话生成
/v1/embeddings - 为文本生成向量嵌入
/v1/reranking - 根据查询相关性对文档重新排序
/v1/images/generations - 根据提示生成图像
更多命令可以查看： https://docs.nexa.ai/nexa-sdk-go/NexaAPI

3.2 Nexa SDK Python 开发工具包

Nexa SDK Python 工具包，适配 MacOS 、Windows 、Linux 等全平台优化后端，无论是本地开发还是企业级应用，都能使用 Python 更高效落地。可以使用 Python API 一键运行 LLM 、VLM 、OCR 、ASR 、TTS 、图像生成、说话人分离、键值缓存、采样配置、对话模板以及错误处理等。

Imgur

更多文档参阅： https://docs.nexa.ai/nexa-sdk-python/overview

3.3 Nexa SDK Android/iOS 开发工具包（ 3 行代码快速开始）

下载地址：

Nexa SDK Android 工具包:可直接从 Maven 中央仓库获取，或访问 github: https://github.com/NexaAI/core

dependencies { implementation("ai.nexa:core:0.0.12") }

Nexa SDK iOS 工具包: https://github.com/NexaAI/nexasdk-mobile-iOS-framework

Android 设备上支持直接运行的包括 LLM 、VLM 、Embedding 模型、OCR 模型、CV 模型、ASR 模型、rerank 模型以及生图模型，且支持通过 NPU 、GPU 和 CPU 进行推理。通过 Kotlin/Java API 轻松集成，性能提升 2 倍，能效比优化 9 倍，重塑移动智能体验。更多文档参阅： https://docs.nexa.ai/nexa-sdk-android/overview
使用简洁的 Swift API ，开发者可在 iOS/macOS 设备上直接运行 LLM 、VLM 、Embedding 模型、ASR 模型以及 rerank 模型。目前，ASR 模型与 Embedding 模型已支持苹果神经网络引擎（ ANE ）加速，其他模型则基于图形处理器（ GPU ）与中央处理器（ CPU ）运行，同时可以达到性能提升 2 倍，能效比优化 9 倍的惊艳体验。更多文档参阅： https://docs.nexa.ai/nexa-sdk-ios/quickstart