公司项目分享:硅谷人工智能公司 Nexa AI 发布端侧 AI 部署新思路 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
RemiliaForever
V2EX    分享创造

公司项目分享:硅谷人工智能公司 Nexa AI 发布端侧 AI 部署新思路

  •  
  •   RemiliaForever
    RemiliaForever 2 天前 681 次点击

    2025 年,是 AI 硬件的全面爆发之年:AI 手机、AIPC 、AI 陪伴、AI 眼镜、AI 智慧座舱……然而,云端大模型主导的 AI 硬件正在显露隐忧:高昂的 API 调用成本让中小企业望而却步,隐私数据上传云端的安全风险如影随形,网络延迟与垂域适配不足更是制约着端侧的场景创新。

    开源端侧小模型崛起正在改写游戏规则:根据小模型能力密度发展趋势( Densing Law ),小模型能力大约每 3.5 个月就翻一倍,边缘 AI 推理场景正在从想象变为现实。甚至英伟达也在论文《 Small Language Models are the Future of Agentic AI 》宣告:小模型才是 Agentic AI 的未来。


    1. 部署难、表现差?端侧 AI 发展仍面临痛点

    当开发者们摩拳擦掌,想要用先进小模型打造创新应用时,现实又浇了一盆冷水:

    • 部署门槛高:端侧平台的推理框架并不像云端那样容易适配:工具链有 CUDA 、QNN 、ANE 、ROCm 、Openvino, openCL, metal, vulkan 等等五花八门……耗费数月踩坑仍难跑通最新模型;
    • 性能表现差:即使顺利通过部署,由于推理引擎适配不当导致精度下降、输出缓慢、能耗飙升,让端侧应用体验大打折扣
    • 跨平台噩梦:不同硬件( PC ,手机,车机,IoT )、芯片(高通、Intel 、AMD 、苹果)间的适配壁垒,让跨设备应用开发重复 “踩坑”,效率极低。例如可以在高通 PC 上运行的多模态模型无法自动移植到高通车载端。
    • 最新的模型支持差:NPU 上普遍只能跑 1 年以前发布的模型,无法使用最新的模型(如 Mistral3, Qwen3-VL ),需要等待非常久的时间。

    2. 端侧 AI 部署的新思路

    最近美国硅谷明星端侧 AI Startup Nexa AI 公司在 github 上发布的 Nexa SDK ,为全球开发者带来了破局新思路。这个项目致力于解决长期存在于端侧模型部署中的共性问题,让 AI 模型在手机、PC 、汽车、IoT 等边缘设备上的落地变得前所未有的简单。

    github 项目链接: https://github.com/NexaAI/nexa-sdk

    Nexa SDK 构建了 4 大核心优势,解决端侧 AI 部署的核心痛点:

    • 跨平台统一推理框架:NexaSDK 由 NexaML 引擎提供支持,该引擎是从芯片 Kernel 层打造的跨硬件平台统一推理引擎(电脑,手机,车,IoT ,机器人,以及 XR 眼镜),并支持三种端侧模型格式:GGUF 格式、MLX 格式以及 Nexa AI 自主研发的 .nexa 格式。这一引擎的能力也被 IBM 认为是比肩 vLLM, MLX, llama.cpp 的四大 inference engine 之一。
    • NPU, GPU, CPU 深度适配:NexaSDK 可在多种算力平台的 NPU 、GPU 、CPU 上本地运行各类人工智能模型 它不仅使用简单、灵活性高,而且性能佳。特别是支持各大算力平台的 NPU 芯片(覆盖高通 Hexagon NPU, 苹果 NPU ,AMD Ryzen AI NPU ,以及 Intel NPU ),充分利用 NPU 性能,可以解决过往端侧模型在 CPU/GPU 上运行带来的输出速度慢、能耗畸高的问题,推理性能可达到 CPU 1.5 倍 ,GPU 4 倍,能效比提升 28 倍。 Imgur
    • 任意多模态模型 Day-0 支持:面对快速更新的开源模型市场,Nexa SDK 能够做到在新模型推出的第一时间适配各个硬件后端( NPU, GPU, CPU ),并且支持多种模态 Vision, Text, Audio, 以及 CV 模型;
    • 低代码极致易用:使用一行代码即可调用本地模型,OpenAI API 兼容设计让开发者无缝衔接代码,大大降低了端侧 AI 的应用门槛。

    Nexa SDK 与其他端侧 SDK 的比较优势:

    Features NexaSDK Ollama llama.cpp LM Studio
    NPU 支持 NPU 优先
    Android SDK 支持 NPU/GPU/CPU 支持
    支持 GGUF 、MLX 、NEXA 任意一种格式的模型 底层控制
    全面支持多模态 图像、音频、文字模型
    跨平台支持 桌面端、移动端、车载端, IoT 端
    一行代码调用
    兼容 OpenAI API + 函数调用

    完全支持 部分或有限支持 不支持

    NEXA SDK 一经发布也获得了包括 AMD/高通的诸多行业认可: Imgur Imgur

    3. 快速上手:快速解锁端侧 AI 能力

    根据使用方式和平台,Nexa SDK 提供不同的工具包:

    • Nexa CLI:可在 MacOS/Windows/Linux 使用命令行终端速测试模型及运行本地服务器;同时支持在 Linux 系统的容器化环境中运行 AI 模型;
    • Nexa SDK Python 开发工具:可在 MacOS/Windows/Linux 平台使用 Python 完整运行 SDK
    • Nexa SDK Android/iOS 开发工具: 支持在移动端设备跨 NPU/GPU/CPU 推理的安卓/iOS 开发工具包 Nexa SDK 实现了全平台支持,全球首次统一支持苹果 NPU 、Intel NPU 、AMD NPU 、高通 NPU 等 4 类 NPU 推理加速芯片,让端侧模型边缘推理拥有了更广泛的实现和应用场景。

    3.1 Nexa SDK CLI 快速体验

    下载路径:

    可以从 github: https://github.com/NexaAI/nexa-sdk 或者 https://sdk.nexa.ai 下载 Nexa CLI 。

    Imgur

    一行代码运行模型

    Nexa SDK 支持 LLM 、多模态、音频( ASR\TTS )、CV 、生图等多种端侧模型。例如:

    多模态模型

    NexaSDK 在 Qwen3VL 发布当天 Day-0 跨平台支持,领先 llama.cpp/ollama 三周,并得到 Qwen 官方认可

    nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF

    车载多模态模型(适配高通 NPU )

    nexa infer NexaAI/AutoNeural

    相比于其他框架,NexaSDK 对于新模型的支持速度还是非常迅速,可以访问 Nexa AI 官方模型仓库 https://huggingface.co/NexaAI 查看使用更多精选的模型。 Imgur

    目前 Nexa CLI 支持 MacOS 、Windows 、Linux (并支持 Docker 运行),同时提供 Python API, IOS Swift API 、Android Kotlin/JAVA API 开发工具包,

    兼容 OpenAI API NEXA CLI 还提供 OpenAI 兼容的 REST API ,一行命令即可访问服务接口,无缝覆盖对话生成、文本嵌入、文档重排序、图像生成等核心场景,满足多样化开发需求。

    nexa serve

    • /v1/chat/completions - 用于 LLM 和 VLM 的对话生成
    • /v1/embeddings - 为文本生成向量嵌入
    • /v1/reranking - 根据查询相关性对文档重新排序
    • /v1/images/generations - 根据提示生成图像
    • 更多命令可以查看: https://docs.nexa.ai/nexa-sdk-go/NexaAPI

    3.2 Nexa SDK Python 开发工具包

    Nexa SDK Python 工具包,适配 MacOS 、Windows 、Linux 等全平台优化后端,无论是本地开发还是企业级应用,都能使用 Python 更高效落地。可以使用 Python API 一键运行 LLM 、VLM 、OCR 、ASR 、TTS 、图像生成、说话人分离、键值缓存、采样配置、对话模板以及错误处理等。

    Imgur

    更多文档参阅: https://docs.nexa.ai/nexa-sdk-python/overview

    3.3 Nexa SDK Android/iOS 开发工具包( 3 行代码快速开始)

    下载地址:

    Nexa SDK Android 工具包:可直接从 Maven 中央仓库获取,或访问 github: https://github.com/NexaAI/core

    dependencies { implementation("ai.nexa:core:0.0.12") } 

    Nexa SDK iOS 工具包: https://github.com/NexaAI/nexasdk-mobile-iOS-framework

    • Android 设备上支持直接运行的包括 LLM 、VLM 、Embedding 模型、OCR 模型、CV 模型、ASR 模型、rerank 模型以及生图模型,且支持通过 NPU 、GPU 和 CPU 进行推理。通过 Kotlin/Java API 轻松集成,性能提升 2 倍,能效比优化 9 倍,重塑移动智能体验。 Imgur 更多文档参阅: https://docs.nexa.ai/nexa-sdk-android/overview
    • 使用简洁的 Swift API ,开发者可在 iOS/macOS 设备上直接运行 LLM 、VLM 、Embedding 模型、ASR 模型以及 rerank 模型。目前,ASR 模型与 Embedding 模型已支持 苹果神经网络引擎( ANE )加速,其他模型则基于图形处理器( GPU )与中央处理器( CPU )运行,同时可以达到性能提升 2 倍,能效比优化 9 倍的惊艳体验。 Imgur 更多文档参阅: https://docs.nexa.ai/nexa-sdk-ios/quickstart

    4. 为开发者带来丝滑体验:创意无需妥协

    • 一行命令跑通:nexa infer 极简操作,告别复杂配置;
    • OpenAI API 无缝兼容 :现有代码零修改,直接迁移端侧运行;
    • 95% NPU 利用率:性能优于 Qualcomm GENIE ,极致发挥硬件潜力;
    • 首发支持前沿模型:Qwen3 、Granite 、Liquid 、Gemma 3n 、Parakeet 等最新模型快速适配;
    • 结构化输出:天然适配 AI Agent 工作流,加速应用创新;
    • li>持续更新的前沿端侧模型库:Nexa Model Hub 不断扩充,让最先进端侧小模型触手可及。

    Imgur

    5. 结束语:从个人到产业 端侧 AI 想象力不再设限

    当部署不再是难题,当性能不再妥协,端侧 AI 的革命,正在每一个场景悄然发生:

    • 手机:离线助手,日程提醒、生活助理……
    • PC:文件管理、个人知识库构建、Agent 协作……
    • 汽车:车内 AI 助手,实时路况提醒,安全监测……
    • IoT & 机器人:工厂巡检、缺陷检测……

    端侧 AI 的低成本、高隐私、低延迟特性,正在重构产品形态,催生全新商业模式。

    希望今天分享的 Nexa SDK 能让每一位热爱端侧 AI 的人都能参与到端侧 AI 的浪潮中,无需复杂的工具链,消解沉重的技术壁垒,赋能每一位开发者,解锁端侧 AI 落地的无限可能!

    github 项目链接: https://github.com/NexaAI/nexa-sdk (如果认为对您工作有帮助,欢迎为开源作者 star )

    3 条回复    2025-12-17 03:12:44 +08:00
    bigoxEvan
        1
    bigoxEvan  
       2 天前
    就是原来我跑不动的模型用这个就能跑动了吗?
    RemiliaForever
        2
    RemiliaForever  
    OP
       1 天前
    @bigoxEvan 性能有一些优化,但也到不了这程度。主要解决的是 Npu 使用和多类模型易用性问题。
    c0xt30a
        3
    c0xt30a  
       1 天前
    闭源的产品推荐之前麻烦说清下。
    兴冲冲地去看底层实现,折腾了半小时发现只有个二进制库文件。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3212 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 20ms UTC 11:34 PVG 19:34 LAX 03:34 JFK 06:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86