教你的 AI 阅读:从扫描文档和 PDF 中提取关键事实

独立调查员需要花费数小时阅读银行对账单、维修估价单和法院文件。手动查找日期、姓名或金额会浪费本应用于实地工作的宝贵时间。如果你采用正确的方法,AI 可以快速将这些文档转化为事实。

提出调查性问题

从 AI 获取信息的最佳方式是提出具体的问题,而不是使用像“总结”这样模糊的指令。如果你问:“这份银行对账单上的交易日期、描述和金额分别是什么?”模型就会知道要查找哪些字段。通用的提示词会让 AI 进行猜测,从而导致细节遗漏。相反,你应该将每个请求都锚定在关于日期、人物、地点或财务事实的明确问题上。这会让 AI 表现得像一个勤勉的助手。

Azure Document Intelligence

Azure Document Intelligence 能将扫描的 PDF 转换为机器可读的数据。它可以读取图像并提取文本、表格和键值对,为你的 AI 模型生成结构化数据。这省去了手动录入数据的步骤。

应用场景

你收到了一份涉及保险欺诈案件的车辆维修估价单。与其点击“总结”,不如要求工具列出每一个零件、人工工时和总费用。然后,你可以将此列表与实际发票进行对比,以发现错误。

如何实施

  • 准备你的文件。在开始之前,使用手机扫描或打印机 OCR,确保你的 PDF 是可搜索的。

  • 处理数据。通过 Azure Document Intelligence 处理文档,以提取结构化文本和表格。

  • 提出问题。将这些数据输入 AI 模型,并提出具体的调查性问题,例如“识别此时间线中的不一致之处”。

总结

将每一份文档都视为一个问题。从清晰的提示词开始,使用 Azure Document Intelligence 获取干净的数据,并让 AI 提供事实。这种方法可以节省时间并提高你在实地工作的准确性。

来源:https://dev.to/ken_deng_ai/title-teaching-your-ai-to-read-extracting-key-facts-from-scanned-documents-and-pdfs-4npa

可选学习社区:https://t.me/GyaanSetuAi