Googlebot chính là Web Crawler được sử dụng bởi Google để tìm và lấy các trang web và cập nhật Google index. Mỗi Googlebot có một địa chỉ IP riêng và thường được thay đổi.
1. Googlebot là gì ?
Googlebot chính là Web Crawler được sử dụng bởi Google để tìm và lấy các trang web và cập nhật Google index. Mỗi Googlebot có một địa chỉ IP riêng và thường được thay đổi
2. Cách nhận biết Googlebot đang truy cập vào web của bạn
Googlebot phát hiện các website theo đường dẫn từ page sang page khác. Nhưng bot không thể nhìn thấy toàn bộ trang web, nó chỉ có thể thấy các phần riêng lẻ của trang đó và nó sẽ không lập chỉ mục. Nguyên nhân này cũng có thể do: Tài nguyên bị chặn bởi robots.txt, trang liên kết không thể đọc được hoặc không chính xác, URL hoạt động quá phức tạp …
Hầu hết những vấn đề này có thể được kiểm tra một cách nhanh chóng bằng cách sử dụng công cụ "fetch and render" hướng dẫn của Google có trong giao diện Google search console. Bạn nên xem xét các lỗi, thu thập dữ liệu thường xuyên để xác định bất kỳ vấn đề với trang web của bạn.
3. Googlebot kết nối với các trang web như thế nào ?
Googlebot tìm kiếm các thông tin trên mạng trong tất cả các trang như: Facebook, Twitter,… về máy tính của Google cập nhật Google index. Đó cũng là nơi mà các trang web được so sánh và xếp hạng.
Mỗi lần Googlebot đi qua trang web của bạn cũng là 1 lần tải bản sao tại thời điểm đó. Nếu bạn muốn trang web của mình được tìm thấy trong Google và để xếp hạng tối ưu, tất cả trang web tài nguyên phải được truy cập bằng Googlebot. Đặc biệt, bất kỳ nội dung nào, trang web nào Googlebot cũng có thể truy cập vào và lấy thông tin trong đó.
4. Cách ngăn chặn Googlebot
Gần như không thể chặn hết hoàn toàn sự “xâm nhập” của Googlebot vì có thể một người nào đó follow một đường dẫn từ web server của bạn đến một web server khác thì URL bí mật của bạn sẽ xuất hiện trong tag giới thiệu, và có thể được lưu lại và public bởi các web server khác. Tuy nhiên vẫn có một số cách khắc phục như sau
- Sử dụng một tập tin robots.txt. Hướng dẫn robot trong siêu dữ liệu của trang web và tiêu đề của mọi người
- Sử dụng sơ đồ trang web
- Sử dụng Google tìm kiếm giao diện điều khiển
5. Các vấn đề với Spammer và User-agent
Googlebot thay đổi địa chỉ liên tục nên cách tốt nhất để xác định kết nối đến bot là sử dụng user-agent. Googlebot và các bot search engine khác đều bị chịu ảnh hưởng bởi nội dung cấu hình trong file robots.txt, ngoài một số trường hợp như: Report spam, paid link …
Nếu Feedfetcher có những hành động rõ ràng từ người sử dụng và tự đưa dữ liệu đến trang chủ Google không phải từ Googlebot nên Feedfetcher sẽ không chịu ảnh hưởng bởi file robots.txt.
Bạn có thể ngăn chặn việc này bằng cách gửi thông báo lỗi 401, 404 hoặc thông báo lỗi khác đến user-agent Feedfetcher-google.
6. Công cụ robots.txt tester tool giúp bạn kiểm tra file robots.txt
Chúng ta truy cập vào Search Console để thực hiện một cách nhanh chóng.
Bemecmedia.vn