Data2Story: Transforming Raw CSVs into Verifiable AI-Driven News

The era of manual data journalism is facing a paradigm shift with the introduction of Data2Story, an autonomous system capable of converting raw datasets into fully interactive, multimodal news articles. By leveraging a specialized multi-agent architecture, this technology moves beyond simple text generation to create verifiable, data-backed narratives with zero human input.

A Virtual Newsroom Driven by Seven Specialized Agents

Unlike standard LLMs that attempt to "hallucinate" or guess statistical trends, Data2Story utilizes a structured "virtual newsroom" composed of seven distinct AI agents. This pipeline ensures that every stage of the editorial process—from initial research to final HTML deployment—is handled by a model optimized for that specific task.

The workflow begins with the Detective, which conducts web searches to provide context for raw tables, and the Analyst, which executes actual code to calculate figures rather than predicting them. The Editor selects the most compelling narrative drivers, while the Designer determines the best medium for the data (such as maps or audio). Finally, the Programmer builds the web page, the Auditor checks for layout errors, and the Inspector ensures every claim is traceable. The system is powered by Claude Opus 4.7 running on Claude Code, with multimodal assets generated via OpenRouter models like gpt-5.4-image-2 and lyria-3-pro-preview.

Solving the Verifiability Crisis in AI Journalism

One of the most significant breakthroughs in Data2Story is its "Inspector" panel, designed to tackle the industry-wide issue of AI hallucinations. While the baseline for human-written articles shows that only about 25% of analytical claims are easily traceable to source code, Data2Story enables 93% of its statements to be checked for origin.

Each sentence, chart, and interactive element is linked to an index card that displays either the exact line of code used to generate the figure or an external URL. This creates a "runnable" journalism model: if a reader doubts a statistic, they can run the underlying script to recalculate the result themselves, bridging a massive transparency gap in modern digital media.

Human vs. Agent: Where the AI Wins and Fails

در یک مطالعه دقیق که Data2Story را با محتوای نوشته‌شده توسط انسان از The Economist، The Pudding و TidyTuesday مقایسه کرد، هوش مصنوعی در ۷۴٪ از آزمون‌های ترجیح خواننده، عملکرد بهتری نسبت به انسان‌ها داشت. این عامل (agent) بیشترین موفقیت خود را در شفافیت و گزارش‌های متمرکز بر داده مشاهده کرد، جایی که اغلب وضوح بیشتری نسبت به همتایان انسانی خود ارائه می‌داد.

با این حال، پژوهشگران به مرزهای مشخصی اشاره کردند که در آن‌ها تخصص انسانی همچنان ضروری است:

  • دیدگاه تحریریه: در حالی که هوش مصنوعی می‌تواند نشان دهد چه چیزی در یک مجموعه داده در حال رخ دادن است، اما بدون گزارش‌گری تحقیقیِ خارجی، نمی‌تواند «چرایی» آن را توضیح دهد (برای مثال، نسبت دادن نرخ پایین تعمیرات به سیاست‌های تولیدکننده).
  • طراحی خلاقانه: رابط‌های کاربری بسیار سفارشی و آزمایشی — مانند آنچه در The Pudding دیده می‌شود — همچنان نیازمند هنر انسانی هستند که فراتر از قالب‌های استاندارد HTML می‌رود.
  • تجسم‌سازی‌های متراکم: هوش مصنوعی تمایل دارد داده‌ها را در نمودارهای متعدد پراکنده کند، در حالی که طراحان انسانی متخصص می‌توانند توضیحات پیچیده را در قالب یک گرافیک واحد و قدرتمند لایه‌بندی کنند.

نکات کلیدی

  • معماری چندعاملی: Data2Story از هفت عامل تخصصی (کارآگاه، تحلیلگر، ویراستار، طراح، برنامه‌نویس، حسابرس و بازرس) برای مدیریت کامل چرخه حیات تحریریه استفاده می‌کند.
  • قابلیت تأیید بی‌سابقه: این سیستم به ۹۳٪ قابلیت ردیابی برای ادعاهای خود دست می‌یابد که بسیار فراتر از قابلیت تأیید حدود ۲۵ درصدی در ژورنالیسم تحلیلی سنتی نوشته‌شده توسط انسان است.
  • پتانسیل همکاری: این ابزار به جای جایگزینی روزنامه‌نگاران، به عنوان یک «همکار اتاق خبر» طراحی شده است تا محاسبات سنگین و استناد به منابع قابل تأیید توسط ماشین را انجام دهد و پرسش‌های تحقیقیِ «چرا» را برای انسان‌ها باقی بگذارد.