OpenAI Codex ra mắt Record & Replay để tự động hóa các quy trình làm việc phức tạp

OpenAI đã giới thiệu tính năng mang tính đột phá "Record & Replay" cho ứng dụng Codex trên macOS, đánh dấu một bước tiến đáng kể trong khả năng của các tác nhân tự hành (autonomous agents). Bằng cách quan sát người dùng thực hiện một chuỗi thao tác thủ công, AI giờ đây có thể chuyển đổi các hành động của con người thành các kỹ năng kỹ thuật số vĩnh viễn và có thể tái sử dụng.

Từ Quan sát đến Tự động hóa: Cách thức hoạt động của Record & Replay

Cải tiến cốt lõi trong bản cập nhật Codex mới nhất là khả năng chuyển đổi các quy trình làm việc trong một phiên duy nhất thành các quy trình tự động có thể lặp lại. Thay vì phải viết các kịch bản (scripts) hoặc câu lệnh (prompts) phức tạp để mô tả một quy trình, người dùng chỉ cần "hướng dẫn" tác nhân AI thực hiện một nhiệm vụ cụ thể. Ví dụ, người dùng có thể trình diễn toàn bộ quá trình tải một video lên YouTube—bao gồm cả việc đính kèm siêu dữ liệu (metadata), chọn ảnh thu nhỏ (thumbnail) và tải lên phụ đề.

Sau khi quá trình trình diễn hoàn tất, Codex sẽ mã hóa các hành động này thành một "kỹ năng" (skill). Tác nhân sau đó có thể tự thực hiện toàn bộ chuỗi thao tác này một cách độc lập trong tương lai. Điều này chuyển dịch sự tương tác với AI từ các hướng dẫn dựa trên trò chuyện đơn thuần sang khả năng "Computer Use" thực thụ, nơi mô hình tương tác với hệ điều hành và giao diện ứng dụng giống như cách con người thực hiện.

Các cải tiến kỹ thuật và cập nhật phiên bản 26.616

Bên cạnh tính năng Record & Replay, phiên bản 26.616 còn giới thiệu các bản cập nhật hạ tầng quan trọng được thiết kế cho những người dùng chuyên nghiệp và các nhà phát triển. Các thao tác hàng loạt (bulk actions) mới cho lịch sử Automations cho phép quản lý tốt hơn các tác vụ đã ghi lại trước đó, đồng thời một khả năng "bàn giao" (hand-off) tinh vi cũng đã được triển khai. Điều này cho phép người dùng chuyển các luồng (threads) đang hoạt động giữa máy cục bộ và máy chủ từ xa, giúp tiếp tục các tác vụ phức tạp một cách liền mạch trên các phần cứng được kết nối.

Để sử dụng các tính năng tự động hóa nâng cao này, người dùng phải bật tính năng "Computer Use". Mặc dù Codex được tải xuống miễn phí, nhưng khả năng suy luận cấp cao cần thiết để thực hiện các quy trình làm việc này đòi hỏi phải có tài khoản ChatGPT trả phí.

Khả năng tiếp cận theo khu vực và bối cảnh AI rộng lớn hơn

Việc triển khai các tính năng này đang gặp phải một số hạn chế về mặt địa lý. Hiện tại, Record & Replay chưa khả dụng tại Vương quốc Anh, Thụy Sĩ và EU. Tuy nhiên, khả năng "Computer Use" nền tảng đã có thể truy cập được tại EU kể từ ngày 16 tháng 6, tạo tiền đề cho sự đồng nhất về tính năng trong tương lai.

Sự phát triển này là một thời điểm then chốt đối với ngành công nghiệp AI. Chúng ta đang chứng kiến một sự chuyển dịch từ việc các LLM chỉ đơn thuần là các "công cụ tri thức" trở thành các "công cụ hành động". Bằng cách làm chủ khả năng quan sát và mô phỏng các tác vụ dựa trên GUI, Codex đang định vị OpenAI để thống trị lĩnh vực tự động hóa công việc văn phòng, biến hệ điều hành máy tính để bàn một cách hiệu quả thành một môi trường được điều hành bởi các tác nhân thông minh thay vì các thao tác nhấp chuột thủ công.

Những điểm chính cần lưu ý

  • Mô phỏng hành vi: Tính năng Record & Replay mới cho phép Codex chuyển đổi một lần trình diễn thủ công duy nhất thành một kỹ năng tự động hóa có thể tái sử dụng.
  • Quản lý quy trình làm việc nâng cao: Phiên bản 26.616 giới thiệu khả năng chuyển giao luồng giữa máy chủ cục bộ và máy chủ từ xa, cùng với việc cải thiện quản lý hàng loạt cho lịch sử tự động hóa.
  • Sự tiến hóa hướng tác nhân: Bước đi này đánh dấu sự chuyển đổi từ hỗ trợ AI dựa trên văn bản sang các tác nhân "Computer Use" tự trị, có khả năng điều hướng các giao diện phần mềm phức tạp.