VTCN
Moderator
Hôm nay, chúng tôi ra mắt Operator(mở trong cửa sổ mới), một trình trợ lý AI có khả năng truy cập web để thực hiện các tác vụ cho bạn. Sử dụng trình duyệt riêng, nó có thể xem trang web và tương tác bằng cách gõ phím, nhấp chuột hoặc cuộn trang. Hiện tại, đây là bản xem trước nghiên cứu, nghĩa là nó còn hạn chế và sẽ phát triển dựa trên phản hồi từ người dùng. Operator là một trong những tác nhân AI đầu tiên của chúng tôi — những AI có khả năng tự động hoàn thành công việc: bạn chỉ cần đưa ra yêu cầu, và nó sẽ thực hiện.
Operator có thể được yêu cầu xử lý nhiều tác vụ trình duyệt lặp đi lặp lại như điền biểu mẫu, đặt hàng tạp hóa, hay thậm chí tạo meme. Khả năng sử dụng cùng giao diện và công cụ mà con người dùng hàng ngày giúp mở rộng tính ứng dụng của AI, vừa giúp tiết kiệm thời gian cho các tác vụ thông thường, vừa tạo ra cơ hội tương tác mới cho doanh nghiệp.
Để đảm bảo quá trình triển khai an toàn và từng bước, chúng tôi bắt đầu với quy mô nhỏ. Từ hôm nay, Operator có sẵn cho người dùng Pro tại Mỹ qua operator.chatgpt.com(mở trong cửa sổ mới). Bản xem trước này cho phép chúng tôi học hỏi từ người dùng và hệ sinh thái rộng lớn hơn, từ đó tinh chỉnh và cải thiện sản phẩm. Kế hoạch tiếp theo là mở rộng cho người dùng Plus, Team, Enterprise và tích hợp các tính năng này vào ChatGPT trong tương lai.
Cách thức hoạt động của Operator
Operator được vận hành bởi một mô hình mới có tên Computer-Using Agent (CUA). Kết hợp khả năng thị giác của GPT-4o với tư duy nâng cao thông qua học tăng cường (reinforcement learning), CUA được đào tạo để tương tác với giao diện người dùng đồ họa (GUI) — bao gồm các nút, menu và trường văn bản mà con người nhìn thấy trên màn hình.
Operator có thể "nhìn" (thông qua ảnh chụp màn hình) và "tương tác" (sử dụng mọi thao tác chuột và bàn phím) với trình duyệt, giúp nó thực hiện hành động trên web mà không cần tích hợp API tùy chỉnh.
Nếu gặp thách thức hoặc mắc lỗi, Operator có thể sử dụng khả năng tư duy để tự sửa chữa. Khi bị "kẹt" và cần trợ giúp, nó sẽ chuyển quyền điều khiển lại cho người dùng, đảm bảo trải nghiệm mượt mà và mang tính hợp tác.
Dù CUA vẫn đang trong giai đoạn đầu và còn hạn chế, nó đã thiết lập kết quả benchmark tiên tiến nhất trên WebArena và WebVoyager — hai tiêu chuẩn đánh giá quan trọng cho tác vụ trình duyệt. Đọc thêm về đánh giá và nghiên cứu đằng sau Operator trong bài blog nghiên cứu của chúng tôi.
Cách sử dụng
Để bắt đầu, chỉ cần mô tả tác vụ bạn muốn thực hiện và Operator sẽ xử lý phần còn lại. Người dùng có thể điều khiển trình duyệt từ xa bất kỳ lúc nào. Đồng thời, Operator được đào tạo để chủ động yêu cầu người dùng tiếp quản khi cần đăng nhập, nhập thông tin thanh toán hoặc giải quyết CAPTCHA.
Người dùng có thể tùy chỉnh quy trình làm việc trong Operator bằng cách thêm hướng dẫn riêng — áp dụng cho tất cả trang web hoặc từng trang cụ thể (ví dụ: thiết lập ưu tiên hãng hàng không trên Booking.com). Operator cho phép lưu các gợi ý để truy cập nhanh trên trang chủ, lý tưởng cho tác vụ lặp lại như đặt mua thực phẩm trên Instacart. Tương tự việc dùng nhiều tab trên trình duyệt, người dùng có thể chạy nhiều tác vụ song song bằng cách tạo các cuộc hội thoại mới — ví dụ: đặt mua cốc men cá nhân hóa trên Etsy trong khi đặt chỗ cắm trại trên Hipcamp.
Hệ sinh thái & Người dùng
Operator(mở trong cửa sổ mới) chuyển đổi AI từ một công cụ thụ động thành một thành phần chủ động trong hệ sinh thái kỹ thuật số. Nó sẽ tối ưu hóa tác vụ cho người dùng và mang lại lợi ích của trình trợ lý AI cho các doanh nghiệp muốn sáng tạo trải nghiệm khách hàng và nâng cao tỷ lệ chuyển đổi. Chúng tôi đang hợp tác với các công ty như DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber và nhiều đối tác khác để đảm bảo Operator đáp ứng nhu cầu thực tế, đồng thời tôn trọng các quy chuẩn hiện có. Bên cạnh đó, chúng tôi nhìn thấy tiềm năng lớn trong việc cải thiện khả năng tiếp cận và hiệu suất của một số quy trình làm việc, đặc biệt trong lĩnh vực công. Để khám phá sâu hơn các ứng dụng này, chúng tôi hợp tác với các tổ chức như Thành phố Stockton(mở trong cửa sổ mới) nhằm giúp việc đăng ký dịch vụ và chương trình thành phố trở nên dễ dàng hơn.
“Qua giai đoạn xem trước nghiên cứu của Operator, chúng tôi sẽ hiểu rõ hơn cách AI có thể giúp việc tương tác cộng đồng trở nên thuận tiện hơn cho người dân.”