Một LLM tốc độ cao đã dạy tôi điều gì về các giả định
Tôi đã chạy một LLM rẻ và nhanh cho một tác vụ phức tạp trong suốt một giờ. Nó đã không thất bại.
Hầu hết mọi người nghĩ rằng các mô hình yếu sẽ thất bại trong các tác vụ dài. Chúng bị lạc đề hoặc bỏ cuộc giữa chừng. Nhưng mô hình này vẫn đi đúng hướng. Điều này xảy ra vì tôi đã cung cấp cho nó một danh sách các kết quả bàn giao.
Tôi đã nghĩ rằng những kết quả bàn giao này giúp tăng tính chính xác. Tôi đã lầm.
Một nghiên cứu cho thấy các kết quả bàn giao không làm cho mô hình trở nên chính xác hơn. Chúng làm cho mô hình dễ kiểm chứng hơn. Mô hình ghi chép lại công việc của nó tốt hơn. Nó để lại bằng chứng để bạn kiểm tra.
Có hai loại lỗi trong phần mềm:
- Lỗi thực thi (Execution errors): Một dấu phẩy bị tráo đổi hoặc một trường hợp biên (edge case) bị bỏ sót. Bạn khắc phục những lỗi này bằng kiểm thử (tests) và linting.
- Lỗi giả định (Assumption errors): Đặt một ranh giới sai chỗ. Loại lỗi này khó khắc phục hơn nhiều.
Quy trình giúp xử lý các lỗi thực thi. Nó không giải quyết được các lỗi giả định. Nếu bạn và mô hình có cùng một điểm mù, quá trình kiểm tra của bạn cũng sẽ thất bại.
AI làm thay đổi bản chất của các lỗi này.
Trong quá khứ, con người mắc lỗi một cách chậm chạp. Điều này cho bạn thời gian để nhận ra. Giờ đây, AI mắc lỗi rất nhanh. Một mô hình có thể xây dựng ba giờ mã nguồn hoàn hảo dựa trên một giả định sai lầm trước khi bạn kịp nhận ra.
Mô hình trông càng có năng lực, bạn càng tin tưởng nó. Bạn để nó chạy lâu hơn. Bạn ngừng kiểm tra thường xuyên hơn. Đây là một cái bẫy. Một giả định sai lầm không hề nhấp nháy đèn cảnh báo. Nó trông giống như sự tiến triển cho đến khi quá muộn.
Ngành công nghiệp đang cố gắng khắc phục điều này bằng cách thêm nhiều quy trình hơn. Chúng ta thêm nhiều đặc tả (specs) và nhiều kế hoạch hơn. Điều này chỉ làm tăng thêm gánh nặng (overhead). Đó chỉ là một công cụ thực thi cho một vấn đề về giả định.
Chúng ta cần ngừng đo lường tần suất mô hình đúng. Chúng ta cần đo lường xem một giả định sai lầm tồn tại trong bao lâu trước khi chúng ta phát hiện ra nó.
Trong môi trường vận hành, chúng ta gọi đây là MTTD: Mean Time To Detect.
Chúng ta không thể ngăn chặn mọi lỗi. Chúng ta chỉ có thể làm cho việc sửa lỗi trở nên rẻ hơn. Bạn làm điều này bằng cách phát hiện chúng sớm.
Mục tiêu không chỉ là tìm ra một mô hình thông minh hơn. Mục tiêu là quyết định xem nơi nào bạn vẫn cần phải là người nắm quyền kiểm soát.
Source: https://dev.to/g_correa/what-a-fast-llm-taught-me-about-assumptions-oe
Optional learning community: https://t.me/GyaanSetuAi
