使用 FastFlowLM 在 AMD NPU 上运行 LLM 的 Fedora 指南

Translated for your language. 阅读原文.

AI-assisted draft.

GyaanSetu Editorial6天前2分钟阅读

使用 FastFlowLM 在 AMD NPU 上运行 LLM - Fedora 指南

您现在可以在 Fedora 上直接通过 AMD NPU 运行大语言模型（LLM）。本指南将向您展示如何在搭载 Ryzen AI Max 390 芯片的 ASUS ROG Flow Z13 上搭建这一技术栈。

该设置需要四个工作层：

由于 Fedora 缺乏预构建的软件包，您必须从源码进行构建。

⚠️ 开始前的关键修复

启用 IOMMU 许多用户为了进行 GPU 调优而禁用了 IOMMU，但这会导致 NPU 无法工作。检查您的设置： cat /proc/cmdline 如果您看到 amd_iommu=off，请将其从 /etc/default/grub 中移除，重新生成 grub 配置并重启。
设置无限 Memlock NPU 需要锁定内存。检查您的限制： ulimit -l 如果不是 unlimited，请将以下内容添加到 /etc/security/limits.d/99-memlock.conf： * soft memlock unlimited * hard memlock unlimited 然后注销并重新登录。
修复 xrt-smi 路径不要对 xrt-smi 创建符号链接（symlink），这会破坏内部脚本。请改用包装器（wrapper）：

sudo tee /usr/local/bin/xrt-smi <<'EOF'
#!/bin/sh
exec /opt/xilinx/xrt/bin/xrt-smi "$@"
EOF
sudo chmod +x /usr/local/bin/xrt-smi

构建步骤摘要

验证命令

检查内核和 NPU： flm validate

检查硬件： xrt-smi examine xrt-smi validate

运行模型： flm run gemma4-it:e4b

性能基准测试 (Ryzen AI Max 390)