Như chúng ta đã biết robots.txt mặc định của blogger có dạng như sau:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://domain/sitemap.xml
Các tệp robots.txt ở trên cho thấy rằng tất cả các trang Tìm kiếm không được phép thu thập thông tin bot.Nhưng nghịch lý là các trang tìm kiếm lại được liên kết trong blog tại menu, tiện ích nhãn hoặc thanh điều hướng, nên các trang này vẫn được bot thu thập dữ liệu.
Sau đây là cách khắc phục lỗi: Đã lập chỉ mục mặc dù bị chặn bởi robots.txt cho 2 trường hợp là blog cũ đang hoạt động và thiết lập cho blog mới.
Thiết lập ngay khi tạo blog mới để tránh bị báo lỗi
Ngay khi bắt đầu lập blog mới bạn nên cài đặt ngay tệp robots.txt theo mẫu:User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Disallow: /search/label/ Disallow: /search?updated-min= Disallow: /search?updated-max= Disallow: /?m=0 Disallow: /archive.html Allow: / Sitemap: URL blog/sitemap.xml Sitemap: URL blog/feeds/posts/default Sitemap: URL blog/sitemap-pages.xmlThêm thẻ meta trong phần seoonpage:
<!-- Noindex search page, label, dan arsip --> <b:if cond='data:blog.pageType in {"archive"} or data:blog.searchLabel or data:blog.searchQuery'> <meta content='noindex,nofollow' name='robots'/> <meta content='noindex,nofollow' name='Googlebot'/> </b:if>
Đối với blog cũ đang hoạt động
Cách 1: Lập chỉ mục cả trang label
Để khắc phục vấn đề, chúng ta nên để các trang label được phép thu thập thông tin bằng bot và hiển thị trong kết quả tìm kiếm.Cho lập chỉ mục cả trang label, việc cần làm là thay thế tệp robots.txt mặc định bằng mã sau nếu bạn sử dụng tệp robots.txt như trên.
User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /?m=0 Disallow: /archive.html Allow: /search/label/ Allow: / Sitemap: URL blog/sitemap.xml Sitemap: URL blog/feeds/posts/default Sitemap: URL blog/sitemap-pages.xmlNhớ thay URL blog của bạn vào.
Sau đó bạn lưu.
Vào mẫu tìm thẻ meta noindex như bên dưới trong phần <head> (Nếu có)
<!-- Noindex search page, label, dan arsip --> <b:if cond='data:blog.pageType in {"archive"} or data:blog.searchLabel or data:blog.searchQuery'> <meta content='noindex,nofollow' name='robots'/> <meta content='noindex,nofollow' name='Googlebot'/> </b:if>Xóa bỏ thẻ meta ngăn lập chỉ mục trang label và thay bằng thẻ meta dưới (ngăn lập chỉ mục trang lưu trữ).
Mẫu cũ:
<b:if cond='data:blog.pageType == "archive"'> <meta content='noindex,nofollow' name='robots'/> </b:if>Mẫu mới:
<b:if cond='data:view.isArchive'> <meta content='noindex,nofollow' name='robots'/> </b:if>Nếu không có thì thêm vào.
Và lưu ý bạn không được bật tiện ích lưu trữ blog.
Sau đó bạn gửi yêu cầu xác thực và chờ kết quả

Cách 2: Kiên trì sửa lỗi
Sau khi bị báo lỗi "Đã lập chỉ mục mặc dù bị chặn bởi robots.txt" trong quản trị trang web bạn làm như cách với blog mới đã hướng dẫn ở phần trên (Tệp robots.txt và thẻ meta), Sau đó bạn gửi yêu cầu xác thực và chờ google cập nhật.Không cần phải quan tâm nhiều tới nó làm gì, cứ chăm chỉ viết bài cho chất lượng.