Đừng hỏi LLM liệu nguồn của chúng có thật hay không
Bạn yêu cầu AI cung cấp một danh sách các nguồn tham khảo. Nó đưa cho bạn tiêu đề, tác giả và DOI. Mọi thứ trông thật hoàn hảo. Sau đó, bạn phát hiện ra một nửa trong số đó không hề tồn tại.
DOI dẫn đến hư vô. Bài báo đó chưa từng được viết.
Bản năng của bạn là hỏi mô hình: "Bạn có chắc đây là thật không?" AI sẽ nói có. Nó luôn luôn nói có. Bạn đang hỏi một kẻ làm giả liệu tác phẩm của hắn có phải là hàng thật hay không.
Một LLM không sử dụng cơ sở dữ liệu các bài báo. Nó dự đoán từ tiếp theo trong một chuỗi. Đối với AI, một trích dẫn chỉ là một khuôn mẫu. Nó biết một trích dẫn cần có tên, năm và mười chữ số. Nó mô phỏng hình dáng của một nguồn thực mà không chứa đựng sự thật.
Đừng yêu cầu mô hình tự xác minh công việc của chính nó. Nó không thể làm được điều đó vì hai lý do:
- Nó không có quyền truy cập vào một sổ đăng ký trực tuyến. Nó chỉ tạo ra các văn bản có vẻ hợp lý.
- Nó có xu hướng thiên vị để xác nhận những gì nó đã nói trước đó.
Bạn phải sử dụng các công cụ bên ngoài để xác minh thông tin. Dưới đây là bộ lọc ba bước dành cho viết lách kỹ thuật:
Sự tồn tại. Kiểm tra DOI thông qua một API như Crossref. Nếu API trả về lỗi 404, nguồn đó là giả. Một DOI được bịa đặt sẽ không bao giờ được giải quyết.
Độ tin cậy. Một nguồn có thể tồn tại nhưng vẫn vô giá trị. Hãy kiểm tra xem tạp chí hoặc hội nghị đó có được công nhận hay không. Một DOI hợp lệ không đảm bảo chất lượng.
Độ trung thực. Liệu bài báo có thực sự hỗ trợ cho khẳng định của bạn không? Bạn phải đọc nội dung. Đừng giả định rằng phần tóm tắt (abstract) đã bao quát mọi chi tiết. Một trích dẫn thật được dùng cho một khẳng định sai lệch vẫn là một lời nói dối.
Điều này không chỉ áp dụng cho các bài báo học thuật. Nếu AI trích dẫn một vé JIRA, một mã số CVE, hoặc một lần code commit, bạn phải xác minh nó với hệ thống thực tế.
Sai lầm lớn nhất trong kiến trúc AI là tin tưởng mô hình tự xác minh. Việc xác minh phải là một bước riêng biệt. Nó phải kết nối với một nguồn sự thật bên ngoài trước khi người dùng nhìn thấy kết quả.
Đừng cố gắng làm cho các mô hình trở nên trung thực hơn. Chúng là những trình tạo văn bản, và chúng sẽ luôn gặp hiện tượng ảo giác (hallucinate). Thay vào đó, hãy ngừng tin vào lời nói của chúng.
Một trích dẫn mà bạn không thể xác minh qua sổ đăng ký thì không phải là một trích dẫn. Đó chỉ là một sự phỏng đoán trong chiếc áo blouse phòng thí nghiệm.
Source: https://dev.to/ohugonnot/stop-asking-the-llm-whether-its-source-is-real-2oaa
Optional learning community: https://t.me/GyaanSetuAi
