Khủng hoảng về độ tin cậy của công cụ phát hiện AI: Một số công cụ vượt qua, số khác thất bại hoàn toàn
Một nghiên cứu gần đây của Authors Guild đã vạch trần sự chênh lệch khổng lồ về độ tin cậy của các công cụ phát hiện văn bản do AI viết, cho thấy rằng trong khi một số công cụ có độ chính xác cao, những công cụ khác lại mắc lỗi cơ bản. Sự biến động này gây ra mối đe dọa đáng kể đối với các nhà văn chuyên nghiệp, những người có sinh kế phụ thuộc vào việc chứng minh tác phẩm của họ là do con người tạo ra.
Khoảng cách về hiệu suất: Từ sự hoàn hảo đến thất bại hoàn toàn
Authors Guild đã thực hiện một bài kiểm tra nghiêm ngặt bằng cách sử dụng mười bài báo được xuất bản trong khoảng thời gian từ năm 2020 đến 2022—nhiều năm trước khi AI tạo sinh trở thành một hiện tượng phổ biến. Bằng cách sử dụng văn bản do con người viết trong thời kỳ "trước AI", nghiên cứu đã cung cấp một mốc cơ sở chuẩn để đo lường tỷ lệ dương tính giả.
Kết quả cho thấy sự phân cực rõ rệt. Pangram và Grammarly nổi lên là những công cụ đáng tin cậy nhất, xác định chính xác mọi văn bản do con người viết là do con người thực hiện (điểm AI là 0,0%). Originality.ai cũng thể hiện rất tốt, duy trì độ chính xác cao trên mọi phương diện.
Ngược lại hoàn toàn, Sidekicker.ai đã thất bại thảm hại. Mọi bài báo do con người viết trong bài kiểm tra đều bị gắn thẻ là "chủ yếu do AI tạo ra", trong đó có hai bài báo cụ thể nhận điểm AI là 100%. ZeroGPT cũng tỏ ra không đáng tin cậy khi thường xuyên báo cáo tỷ lệ AI cao đối với các văn bản rõ ràng là do con người viết, chẳng hạn như bài báo "Erdrich Pulitzer Prize", vốn bị công cụ này gắn thẻ với xác suất AI là 76,3%.
Nghịch lý của viết lách chuyên nghiệp
Nghiên cứu làm nổi bật một nghịch lý kỹ thuật đáng lo ngại: người viết càng có kỹ năng cao, họ càng dễ bị các công cụ phát hiện lỗi gắn thẻ. Viết lách chuyên nghiệp dựa trên sự rõ ràng, súc tích và chính xác—đây chính là những mô hình thống kê mà các Mô hình Ngôn ngữ Lớn (LLM) đã được huấn luyện để mô phỏng.
Vì các mô hình AI được huấn luyện trên các văn bản chất lượng cao của con người, "dấu vân tay" của một câu văn được viết một cách bậc thầy có thể trông gần như giống hệt với một câu do AI tạo ra. Điều này tạo ra một môi trường đầy rủi ro, nơi một người viết đã dành nhiều thập kỷ để trau dồi kỹ năng có thể bị mất hợp đồng hoặc tổn hại danh tiếng do một kết quả dương tính giả từ một công cụ như Sidekicker.
Vấn đề "Hộp đen" và tương lai của việc phát hiện
Ngay cả những công cụ thành công cũng đối mặt với những chỉ trích về tính minh bạch. CEO của Pangram, Max Spero, lưu ý rằng công cụ phát hiện của ông về cơ bản hoạt động như một "hộp đen", nghĩa là nó không thể cung cấp lời giải thích chi tiết tại sao một văn bản cụ thể lại bị gắn thẻ. Mặc dù ông lập luận rằng con người viết với sự đa dạng và cấu trúc lập luận phong phú hơn so với sự rập khuôn của một LLM, nhưng việc thiếu khả năng diễn giải vẫn là một rào cản đối với trách nhiệm giải trình.
Hơn nữa, sự thành công của Pangram và Grammarly trong bài kiểm tra này chủ yếu chứng minh rằng chúng giỏi trong việc tránh các kết quả dương tính giả (không gắn thẻ nhầm con người). Điều này không nhất thiết đảm bảo rằng chúng cũng hiệu quả tương đương trong việc phát hiện AI (nhận diện văn bản máy tính).
Khi ngành công nghiệp đang chật vật để phân biệt giữa "sử dụng AI để viết" và "sử dụng AI để tư duy", Authors Guild cảnh báo rằng các công cụ phát hiện không bao giờ nên là cơ sở duy nhất cho các quyết định chuyên môn.
Những điểm chính cần lưu ý
- Sự biến động cực lớn về độ chính xác: Trong khi Pangram và Grammarly đạt tỷ lệ dương tính giả là 0% trong bài kiểm tra, Sidekicker.ai lại gắn thẻ 100% văn bản do con người viết là do AI tạo ra.
- Hình phạt đối với người chuyên nghiệp: Văn bản chất lượng cao, chính xác của con người có những điểm tương đồng về mặt thống kê với kết quả của AI, khiến các nhà văn chuyên nghiệp dễ bị tổn thương trước các lỗi phát hiện.
- Kêu gọi sự giám sát của con người: Authors Guild khuyên các nhà xuất bản chỉ nên sử dụng các công cụ phát hiện như những công cụ bổ trợ và cho phép người viết có cơ hội để bảo vệ tác phẩm của họ.
