支撑我 AI 目录技术栈的 5 个被忽视的软件包

项目中最出色的部分并不总是 AI 模型或托管平台。

我花时间阅读了 package 文件中五个依赖项的源代码。这些工具并不热门,但它们是承重架构。

我的技术栈使用了 Astro 5、Turso libSQL、GitHub Actions 和 Claude Haiku 4.5。我运营着三个网站:Top AI Tools、Find Games Like 和 Open Alternative To。基础设施非常稳固。这让我能够专注于内容,而不是修复 Bug。

以下是这五个工具:

  • tsx 我用它来运行所有的 ETL 脚本。它无需额外配置即可运行。它使用 esbuild,因此启动速度很快。它不进行类型检查。我在 CI 期间使用 pnpm 进行类型检查。这种权衡让我的脚本运行得更快。

  • Pagefind 它在构建步骤之后运行。它会爬取我的 HTML 并创建一个压缩索引。它可以在 Vercel 或 Cloudflare 等静态托管平台上运行,无需额外设置。索引体积保持得很小。我直接使用 JS API 来控制结果在 Astro 组件中的呈现方式。

  • Crawlee 我还没有使用它,但我计划使用。目前我使用手动解析来处理数据。Crawlee 增加了请求队列和速率限制功能。当我开始抓取没有 API 的网站时,它是合适的工具。

  • yaml 它用于解析文章中的 frontmatter。它体积小巧且零依赖。它能很好地处理复杂对象。它还可以将对象转回 YAML 并保留注释。这在我想要自动更新文件时非常有帮助。

  • @libsql/client 它将我的脚本连接到 Turso。我依赖于 batch API。一次调用即可在一次网络往返中运行多个语句。这在进行数据填充(seeding)时非常快。它还可以在没有网络的情况下在本地运行。这在开发过程中节省了我的 API 配额。

这些软件包是沉默的基础设施。它们让技术栈中的 AI 部分能够各司其职。

来源:https://dev.to/morinaga/five-overlooked-packages-running-my-ai-directory-stack-1lem