Nội dung website của bạn đang bị AI Bot thu thập để huấn luyện mô hình mà bạn không hề biết? Câu hỏi về Content-Signal & Robots.txt cho AI Bot đang được nhiều chủ website quan tâm khi các bot như GPTBot, ClaudeBot quét dữ liệu hàng ngày. SEO Dạo hướng dẫn cấu hình chi tiết để bạn kiểm soát được AI nào được phép truy cập website.
Content-Signal là gì và tại sao cần dùng?
Content-Signal là giao thức mới giúp chủ website tuyên bố rõ ràng cách AI Bot được phép sử dụng nội dung. Nó bổ sung cho robots.txt để kiểm soát tốt hơn.
Content-Signal khác robots.txt ở điểm nào
Robots.txt chỉ cho phép hoặc cấm bot truy cập vào URL cụ thể. Content-Signal đi sâu hơn, cho phép bạn khai báo mục đích sử dụng nội dung. Bạn có thể cho phép AI lập chỉ mục (indexing) nhưng cấm dùng để huấn luyện (training).

Đây là điểm khác biệt quan trọng vì nhiều website muốn xuất hiện trên AI Search nhưng không muốn nội dung bị dùng để train mô hình.
Cloudflare giới thiệu Content-Signal như một tiêu đề HTTP đi kèm phản hồi từ server. Ví dụ: nghĩa là cấm dùng dữ liệu để huấn luyện AI. nghĩa là vẫn cho phép xuất hiện trên kết quả tìm kiếm.
Tại sao cần kiểm soát AI Bot ngay bây giờ
Khoảng 40% website đang bị AI Bot thu thập dữ liệu mà chủ website không biết. Nội dung của bạn có thể xuất hiện trong câu trả lời của ChatGPT, Claude mà bạn không nhận được credit hoặc traffic. Việc AI Overview ảnh hưởng traffic website ra sao đã cho thấy rõ tác động khi AI thu thập và tổng hợp nội dung.
Một số AI Bot quét website với tần suất cao gây tốn băng thông và tài nguyên server. Việc kiểm soát giúp bạn giảm chi phí vận hành.
Cách cấu hình robots.txt để chặn AI Bot cụ thể?
Robots.txt vẫn là lớp bảo vệ đầu tiên. Bạn cần khai báo chính xác tên User-agent của từng AI Bot để chặn hoặc cho phép.
Danh sách User-agent của các AI Bot phổ biến Mỗi AI Bot hiện nay đều sở hữu một mã định danh riêng biệt, thường được gọi là User-agent. Những cái tên tiêu biểu bao gồm GPTBot của OpenAI, ClaudeBot từ Anthropic, Google-Extended của Google và PerplexityBot.

Để quản lý quyền thu thập dữ liệu, bạn cần khai báo chi tiết các định danh này trong tệp robots.txt. Đoạn mã mẫu dưới đây sẽ giúp bạn chặn các bot này một cách hiệu quả.
Lưu ý, lệnh “Disallow: /” sẽ ngăn chặn truy cập trên toàn bộ website; nếu chỉ muốn giới hạn một phần, hãy thay thế bằng đường dẫn cụ thể để đảm bảo việc quản lý dữ liệu luôn linh hoạt và tối ưu.
Cách cho phép một số bot và chặn phần còn lại
Nếu bạn muốn được trích dẫn trên Google AI Overview nhưng chặn ChatGPT, bạn chỉ cấm GPTBot và cho phép Googlebot. Việc GEO trong thời đại AI Search yêu cầu bạn cân nhắc kỹ bot nào nên cho phép để tối đa hóa lợi ích.
Một số bot đổi tên User-agent để lách robots.txt. Giải pháp là dùng Cloudflare WAF hoặc server firewall để chặn theo IP range thay vì chỉ dựa vào robots.txt.
Cách triển khai Content-Signal qua Cloudflare?
Cloudflare cung cấp tính năng AI Crawl Control tự động bổ sung Content-Signal vào header phản hồi. Bạn không cần code thủ công.
Bật AI Crawl Control trên Cloudflare
Đăng nhập Cloudflare, chọn domain cần bảo vệ. Vào mục Security > Bots. Tìm AI Crawl Control và bật lên.
Cloudflare sẽ tự động thêm header vào tất cả phản hồi HTTP. AI Bot tuân thủ giao thức này sẽ không thu thập dữ liệu để huấn luyện.
Bạn vẫn cần cấu hình robots.txt song song vì không phải bot nào cũng tuân thủ Content-Signal. Lớp bảo vệ kép giúp kiểm soát tốt hơn.
Kiểm tra header phản hồi có Content-Signal chưa
Dùng công cụ Developer Tools của trình duyệt, vào tab Network, chọn một request bất kỳ và xem Response Headers. Nếu thấy dòng nghĩa là đã cấu hình thành công. Bạn có thể dùng curl command để test: .
SEO Dạo chuyên cung cấp dịch vụ GEO chất lượng
Việc kiểm soát AI Bot thu thập dữ liệu là bước quan trọng để bảo vệ nội dung và tài nguyên server.

SEO Dạo đã hỗ trợ nhiều doanh nghiệp cấu hình robots.txt và Content-Signal khi sử dụng dịch vụ GEO phù hợp với chiến lược GEO. SEO Dạo hiểu rõ bot nào nên cho phép để tối ưu AI Visibility, bot nào nên chặn để bảo vệ nội dung độc quyền.
Liên hệ SEO Dạo ngay hôm nay để nhận tư vấn báo giá dịch vụ GEO chi tiết cho website của bạn.
Thông tin liên hệ
- SĐT: 0363 233 678 – 0932 114 768
- Email: SEOdaovn@gmail.com
- Website: seodao.vn
- VP TP.HCM : 78 Đường số 10, KDT Vạn Phúc, Tp.Thủ Đức, HCM
- VP Hà Nội: Số 9, ngõ 7 đường Lê Đức Thọ, Phường Từ Liêm, Thành phố Hà Nội
- VP Tây Nguyên: 68 Vạn Kiếp, P.Thống Nhất, Pleiku, Gia Lai
Chào mọi người, mình là Thiện. Hiện tại mình đang là một SEO freelancer, với mong muốn chia sẻ kiến thức cũng như tư vấn rõ hơn những kinh nghiệm về SEO đến với các bạn SEO newbie cũng như khách hàng. Hy vọng sẽ giúp ích được cho mọi người trong việc nghiên cứu và triển khai các công việc liên quan đến SEO.

