Robots.txt disallows Web Robot, User-agent

Phân tích và hướng dẫn chi tiết cách sử dụng file robots.txt để điều khiển, phân quyền cho bọ tìm kiếm.

Như các bạn đã biết, để đánh chỉ số một trang Web thì các máy tìm kiếm thường gửi các bọ tìm kiếm tới viếng thăm trang Web cần được chỉ số hóa. Ngoài việc sử dụng thẻ Meta Tag Robots, thì bạn có thể ứng dụng một file text đặc biệt đặt tại thư mục gốc của tên miền để điều chỉnh ứng xử của bọ tìm kiếm (trường hợp ứng dụng cho Google xem Google Robots). Bài viết này vietSEO và các bạn sẽ cùng phân tích ứng dụng của file robots.txt này.

Giới thiệu Robots.txt

Như đã viết ở trên, khi đánh chỉ số một trang Web thì các bọ tìm kiếm sẽ kiểm tra nội dung một tệp tin đặc biệt đặt tại thư mục gốc tên là robots.txt. Tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML). Robots.txt được hiểu với nghĩa là “Robots Exclusion Protocol”; nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm. Nói cách khác thông qua tệp tin này, Webmaster sẽ giao tiếp với bọ tìm kiếm để điều khiển tác vụ của các bọ tìm kiếm nói trên.

Cú pháp trong Robots.txt

Cú pháp dùng trong tệp tin này thường dùng để cấm robots (bọ tìm kiếm) quét các trang mà đường dẫn URL được chỉ ra. Mỗi đoạn văn bản thường gồm có tên của bọ tìm kiếm (user agent hay robot) và đường dẫn mà nó không được quét. Và thường là bạn không thể chỉ định ra thư mục nhất định hay là các loại tệp tin mà bọ tìm kiếm có thể đánh chỉ số. Nên nhớ rằng, ngầm định, các robots có thể truy cập bất kể thư mục nào theo đường dẫn URLkhông được cấm trong tệp tin robots.txt. Tất cả mọi tài nguyên không bị cấm thì đều có thể được truy cập.

Bạn có thể hiển thị file robots.txt chỉ đơn giản bằng trình duyệt ( http://vietseo.net/robots.txt ). Bạn sẽ thấy một tệp tin định dạng text, rất dễ hiểu.

Xin nói thêm rằng Google gần đây có hỗ trợ cú pháp Sitemap trong robots.txt cho phép chỉ định sơ đồ Web (Sitemap XML) trong robots.txt

Ví dụ phần cú pháp Sitemap được chỉ định trong fie robots.txt trên vietSEO như sau :

[source:html]
#BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.vietseo.net/sitemaps.xml.gz
#END XML-SITEMAP-PLUGIN
[/source]

Ứng dụng robots.txt

Đây là toàn bộ tài liệu liên quan tới chuẩn loại trừ Robot, mà theo lý thuyết thì tất cả các robots đề phải tuân theo các chỉ định trong file robots.txt.

Sử dụng file robots.txt
Cú pháp	Ghi chú cho Webmaster
`User-agent: * Disallow:`	Dấu (*) có nghĩa là áp dụng cho mọi robots. Nhưng vì không có tài nguyên nào bị cấm nên thành ra tất cả mọi thư mục đề được cho phép.
`User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/`	Tất cả mọi robots đều có quyền truy cập tất cả các thư mục trừ ba thư mục được trích dẫn phía sau.
`User-agent: SpamBot Disallow: /`	Trường hợp này robot SpamBot bị cấm truy cập tất cả thư mục. Dấu gạch chéo “/” có nghĩa là tất cả các thư mục.User-Agent có thể là ký tự đơn và các robots không phần biệt chữ hoa và chữ thường.
`User-agent: SpamBot Disallow: /User-agent: * Disallow: /private/`	Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các robots khác được được truy cập tất cả trừ thư mục “private”.
`User-agent: SpamBot Disallow: /tmp/ Disallow: /private/ Disallow: /tailieu/canhan.html` `User-agent: * Disallow: /tmp/ Disallow: /private/`	Không cho phép SpamBot dò các thư mục được liệt kê phía sau : thư mục “tmp”, “private” và tệp tin “canhan.html” trong thư mục “tailieu”. Các bọ tìm kiếm các được dò mọi thứ trừ hai thư mục “tmp” và “private”.
Sử dụng sai – Phản ví dụ
Các cách dùng sai syntax và file robots.txt
`User-agent: * Disallow /`	KHÔNG ! Đây là cách dùng sai vì thiếu dấu hai chấm “:” sau disallow.
`User-agent: * Disallow: *`	KHÔNG ! Nếu muốn cấm toàn bộ mọi thứ thì hãy sử dụng ký tự gạch ngang “/” (chỉ định thư mục gốc)
`User-agent: sidewiner Disallow: /tmp/`	KHÔNG ! Robots sẽ bỏ qua các tên sai của User Agent. Hãy xem file logs trên server hoặc xem thêm danh sách User Agent names .
`User-agent: * Disallow: /tmp/` `User-agent: SpamBot Disallow: /tailieu/canhan.html Disallow: /tmp/`	KHÔNG ! Robots đọc theo thứ tự từ trên xuống dưới và nó sẽ dùng lại khi tìm thấy phần văn bản liên quan tới nó. Bởi vậy “SpamBot” sẽ dừng ngay tại bảng ghi đầu tiên với dấu sao “*” mà không cần đến bảng ghi tiếp theo dành riêng cho nó.

Ngoài ra, bạn có thể ưng dụng file robots.txt trong việc ngăn ngừa phần nào các robots có hại, mang tính chất spam, email extractor hay nhằm giảm nội dung trùng lặp, loại bỏ đường dẫn URL đã bị đánh chỉ số. Chúng ta sẽ trở lại vấn đề này trong các bài viết với từng chủ đề liên quan.

Danh sách User Agent Names

Các User Agent của Google

Google thường sử dụng vài User Agent cho từng dịch vụ riêng của mình. Bạn có thể chỉ định từng dòng User Agent riêng rẽ. Trong trường hợp bạn chặn (disallow) Googlebot thị bạn sẽ chặn tất cả các User Agent bắt đầu bằng “Goooglebot”

Googlebot: Đánh chỉ số các trang Web và cập nhật các trang mới trong cơ sở dữ liệ của Google
Googlebot-Mobile: Đánh chỉ số các trang cho dịch vụ mobile (các thiết bị di động, cầm tay)
Googlebot-Image: Đánh chỉ số các trang cho tìm kiếm file ảnh.
Mediapartners-Google: Đánh chỉ số trang để xác định nội dung cho Google Adsense. Bọ tìm kiếm này chỉ xuất hiện trên các trang sử dụng dịch vụ quảng cáo trực tuêysn Google Adsense.
Adsbot-Google: Đánh chỉ số các trang để xác định chất lượng của các trang AdWords. Bọ này chỉ được sử dụng nếu trang của bạn sử dụng dịch vụ quảng cáo Adwords dành cho các nhà quảng cáo sản phẩm dịch vụ của họ..

Các User Agent khác

Đây là một số danh sách các User-Agent mà bạn có thể tham khảo như đã viết ở trên :

Web Robots Database : Chứa tòan bộ các robots active;
Search Engine Robots : Danh sách chứa tât cả máy tìm kiếm, bọ tìm kiếm và thông tin về đường dẫn, cập nhập.

Hoài Nam – quảng bá Web.