Data2Story: Transforming Raw CSVs into Verifiable AI-Driven News
The era of manual data journalism is facing a paradigm shift with the introduction of Data2Story, an autonomous system capable of converting raw datasets into fully interactive, multimodal news articles. By leveraging a specialized multi-agent architecture, this technology moves beyond simple text generation to create verifiable, data-backed narratives with zero human input.
A Virtual Newsroom Driven by Seven Specialized Agents
Unlike standard LLMs that attempt to "hallucinate" or guess statistical trends, Data2Story utilizes a structured "virtual newsroom" composed of seven distinct AI agents. This pipeline ensures that every stage of the editorial process—from initial research to final HTML deployment—is handled by a model optimized for that specific task.
The workflow begins with the Detective, which conducts web searches to provide context for raw tables, and the Analyst, which executes actual code to calculate figures rather than predicting them. The Editor selects the most compelling narrative drivers, while the Designer determines the best medium for the data (such as maps or audio). Finally, the Programmer builds the web page, the Auditor checks for layout errors, and the Inspector ensures every claim is traceable. The system is powered by Claude Opus 4.7 running on Claude Code, with multimodal assets generated via OpenRouter models like gpt-5.4-image-2 and lyria-3-pro-preview.
Solving the Verifiability Crisis in AI Journalism
One of the most significant breakthroughs in Data2Story is its "Inspector" panel, designed to tackle the industry-wide issue of AI hallucinations. While the baseline for human-written articles shows that only about 25% of analytical claims are easily traceable to source code, Data2Story enables 93% of its statements to be checked for origin.
Each sentence, chart, and interactive element is linked to an index card that displays either the exact line of code used to generate the figure or an external URL. This creates a "runnable" journalism model: if a reader doubts a statistic, they can run the underlying script to recalculate the result themselves, bridging a massive transparency gap in modern digital media.
Human vs. Agent: Where the AI Wins and Fails
در یک مطالعه دقیق که Data2Story را با محتوای نوشتهشده توسط انسان از The Economist، The Pudding و TidyTuesday مقایسه کرد، هوش مصنوعی در ۷۴٪ از آزمونهای ترجیح خواننده، عملکرد بهتری نسبت به انسانها داشت. این عامل (agent) بیشترین موفقیت خود را در شفافیت و گزارشهای متمرکز بر داده مشاهده کرد، جایی که اغلب وضوح بیشتری نسبت به همتایان انسانی خود ارائه میداد.
با این حال، پژوهشگران به مرزهای مشخصی اشاره کردند که در آنها تخصص انسانی همچنان ضروری است:
- دیدگاه تحریریه: در حالی که هوش مصنوعی میتواند نشان دهد چه چیزی در یک مجموعه داده در حال رخ دادن است، اما بدون گزارشگری تحقیقیِ خارجی، نمیتواند «چرایی» آن را توضیح دهد (برای مثال، نسبت دادن نرخ پایین تعمیرات به سیاستهای تولیدکننده).
- طراحی خلاقانه: رابطهای کاربری بسیار سفارشی و آزمایشی — مانند آنچه در The Pudding دیده میشود — همچنان نیازمند هنر انسانی هستند که فراتر از قالبهای استاندارد HTML میرود.
- تجسمسازیهای متراکم: هوش مصنوعی تمایل دارد دادهها را در نمودارهای متعدد پراکنده کند، در حالی که طراحان انسانی متخصص میتوانند توضیحات پیچیده را در قالب یک گرافیک واحد و قدرتمند لایهبندی کنند.
نکات کلیدی
- معماری چندعاملی: Data2Story از هفت عامل تخصصی (کارآگاه، تحلیلگر، ویراستار، طراح، برنامهنویس، حسابرس و بازرس) برای مدیریت کامل چرخه حیات تحریریه استفاده میکند.
- قابلیت تأیید بیسابقه: این سیستم به ۹۳٪ قابلیت ردیابی برای ادعاهای خود دست مییابد که بسیار فراتر از قابلیت تأیید حدود ۲۵ درصدی در ژورنالیسم تحلیلی سنتی نوشتهشده توسط انسان است.
- پتانسیل همکاری: این ابزار به جای جایگزینی روزنامهنگاران، به عنوان یک «همکار اتاق خبر» طراحی شده است تا محاسبات سنگین و استناد به منابع قابل تأیید توسط ماشین را انجام دهد و پرسشهای تحقیقیِ «چرا» را برای انسانها باقی بگذارد.