用于行星地质学的隐私保护 AI

为太空任务构建 AI 非常困难。你面临着带宽有限和功耗低的问题。你需要一种能够在没有人类帮助的情况下自主选择研究哪些岩石的 AI。

我曾致力于开发一套用于行星地质调查的系统。其目标是实现主动学习(active learning)。这意味着 AI 会挑选出最重要的数据进行分析。

但我发现了三个主要问题:

  • 偏差(Bias):AI 可能会忽略稀有但至关重要的矿物,因为它们在统计学上看起来并不重要。
  • 隐私(Privacy):光谱数据会揭示水冰等宝贵资源。这些数据必须保持安全。
  • 信任(Trust):如果 AI 做出了选择,我们必须知道原因。

我构建了一个框架来解决这些问题。其工作原理如下:

  1. 通过委员会实现主动学习 不再使用单一模型,而是使用由不同模型组成的“委员会”。它们通过投票来决定挑选哪些样本。这可以防止单个模型出现盲点。使用随机森林(Random Forests)和神经网络(Neural Networks)等不同的架构有助于发现稀有特征。

  2. 差分隐私(Differential Privacy) 为了保护数据,我在训练过程中向梯度中添加噪声。这可以防止模型泄露敏感的资源位置。我使用逐样本梯度裁剪(per-sample gradient clipping)来在保持数据隐私的同时确保模型的准确性。

  3. 伦理可审计性(Ethical Auditability) 我构建了一个决策日志。它记录了 AI 做出的每一个选择,包括不确定性水平和所使用的训练数据。这创建了一个透明的追踪过程。我使用哈希链(hash chain)来确保之后没有人能够篡改这些日志。

我在模拟火星数据时得到的结果:

  • 无隐私保护:AI 的准确率为 92%,但对常见地形存在偏差。
  • 有隐私保护:准确率降至 87%,但 AI 变得更加公平。它挑选了更多样化的地质样本。

隐私与公平是相辅相成的。添加噪声实际上可以防止 AI 对常见数据产生过拟合。

教训很简单:不要在最后才把伦理强加给你的 AI。从第一天起,就将其构建到架构之中。我们不仅需要智能的 AI,更需要值得信赖的 AI。

Source: https://dev.to/rikinptl/privacy-preserving-active-learning-for-planetary-geology-survey-missions-with-ethical-auditability-53f1

Optional learning community: https://t.me/GyaanSetuAi