教你的 AI 阅读：从扫描文档中提取关键事实

Translated for your language. 阅读原文.

AI-assisted draft.

教你的 AI 阅读：从扫描文档和 PDF 中提取关键事实

独立调查员需要花费数小时阅读银行对账单、维修估价单和法院文件。手动查找日期、姓名或金额会浪费本应用于实地工作的宝贵时间。如果你采用正确的方法，AI 可以快速将这些文档转化为事实。

提出调查性问题

从 AI 获取信息的最佳方式是提出具体的问题，而不是使用像“总结”这样模糊的指令。如果你问：“这份银行对账单上的交易日期、描述和金额分别是什么？”模型就会知道要查找哪些字段。通用的提示词会让 AI 进行猜测，从而导致细节遗漏。相反，你应该将每个请求都锚定在关于日期、人物、地点或财务事实的明确问题上。这会让 AI 表现得像一个勤勉的助手。

Azure Document Intelligence

Azure Document Intelligence 能将扫描的 PDF 转换为机器可读的数据。它可以读取图像并提取文本、表格和键值对，为你的 AI 模型生成结构化数据。这省去了手动录入数据的步骤。

应用场景

你收到了一份涉及保险欺诈案件的车辆维修估价单。与其点击“总结”，不如要求工具列出每一个零件、人工工时和总费用。然后，你可以将此列表与实际发票进行对比，以发现错误。

如何实施

准备你的文件。在开始之前，使用手机扫描或打印机 OCR，确保你的 PDF 是可搜索的。
处理数据。通过 Azure Document Intelligence 处理文档，以提取结构化文本和表格。
提出问题。将这些数据输入 AI 模型，并提出具体的调查性问题，例如“识别此时间线中的不一致之处”。

总结

将每一份文档都视为一个问题。从清晰的提示词开始，使用 Azure Document Intelligence 获取干净的数据，并让 AI 提供事实。这种方法可以节省时间并提高你在实地工作的准确性。

来源：https://dev.to/ken_deng_ai/title-teaching-your-ai-to-read-extracting-key-facts-from-scanned-documents-and-pdfs-4npa

可选学习社区：https://t.me/GyaanSetuAi