Contents

Kinh Nghiệm Hướng dẫn Robot.txt và seo: mọi thứ bạn cần & nbsp; biết Mới Nhất

Bạn đang tìm kiếm từ khóa Robot.txt và seo: mọi thứ bạn cần & nbsp; biết được Update vào lúc : 2022-11-29 07:14:15 . Với phương châm chia sẻ Bí quyết về trong nội dung bài viết một cách Chi Tiết 2022. Nếu sau khi Read tài liệu vẫn ko hiểu thì hoàn toàn có thể lại Comments ở cuối bài để Ad lý giải và hướng dẫn lại nha.

Robot.txt là một trong những tệp đơn thuần và giản dị nhất trên một website, nhưng này cũng là một trong những thứ dễ gây ra lộn xộn nhất. Chỉ cần một nhân vật thoát khỏi nơi hoàn toàn có thể tàn phá SEO của bạn và ngăn những công cụ tìm kiếm truy vấn nội dung quan trọng trên website của bạn.

Đây là nguyên do tại sao robot.txt Misconfigurations cực kỳ phổ cập trong cả Một trong những Chuyên Viên SEO có kinh nghiệm tay nghề.

Nội dung chính

    Tệp robot.txt là gì?Tệp robot.txt trông ra làm sao?User-agentsChỉ thị.Chỉ thị được hỗ trợChỉ thị không được hỗ trợBạn có cần một tập tin robot.txt?Cách tìm tệp robot.txt của bạnCách tạo tệp robot.txtNơi để tại vị tệp robot.txt của bạnTập tin robot.txt thực hành thực tiễn tốt nhấtSử dụng một dòng mới cho từng chỉ thịSử dụng ký tự đại diện thay mặt thay mặt để đơn thuần và giản dị hóa hướng dẫnSử dụng “$” để chỉ định kết thúc AurlSử dụng chỉ người tiêu dùng-người tiêu dùng chỉSử dụng tính đặc hiệu để tránh những lỗi không chủ ýSử dụng Nhận xét để lý giải tệp robot.txt của bạn cho con ngườiSử dụng tệp robot.txt riêng cho từng tên miền phụVí dụ những tập tin robot.txt.Toàn quyền truy vấn AllbotsKhông có quyền truy vấn cho AllbotsChặn một thư mục con cho AllbotsChặn một thư mục con cho toàn bộ những bot (với một tệp trong phép)Chặn một tập tin cho allbotsChặn một tệp filetype (PDF) cho AllbotsChặn toàn bộ những URL tham số chỉ cho GooglebotCách kiểm tra tệp robot.txt của bạn để tìm lỗiGửi URL bị chặn bởi robot.txtBị chặn bởi robot.txt.Được lập chỉ mục, tuy nhiên bị chặn bởi robot.txtCâu hỏi thường gặpKích thước tối đa của tệp robots.txt là bao nhiêu?Robots.txt ở đâu trong wordpress?Làm cách nào để sửa đổi robot.txt trong WordPress?Điều gì xẩy ra nếu tôi không được cho phép truy vấn vào nội dung không nhiễu trong robot.txt?Suy nghĩ ở đầu cuối

Trong hướng dẫn này, bạn sẽ học:

    Thật là một fileis robot.txtNhững gì robot.txt trông giống nhauĐại lý người tiêu dùng Robots.txt và chỉ thịCho dù bạn cần một tập tin robot.txtCách tìm tệp robot.txt của bạnCách tạo tệp robot.txtThực hành tốt nhất robot.txt.Ví dụ những tập tin robot.txt.Cách kiểm tra tệp robot.txt của bạn để gặp sự cố

Mới riêng với SEO kỹ thuật? Kiểm tra vượt trội.Hướng dẫn dành riêng cho những người dân mới khởi đầu về SEO kỹ thuật

Tệp robot.txt là gì?

Tệp robot.txt bảo những công cụ tìm kiếm nơi họ hoàn toàn có thể và không thể truy vấn của bạn.

Chủ yếu, nó liệt kê toàn bộ nội dung bạn muốn khóa khỏi những công cụ tìm kiếm như Google. Bạn cũng hoàn toàn có thể nói rằng với một số trong những công cụ tìm kiếm (không phải Google) Cách Họ hoàn toàn có thể tích lũy tài liệu được cho phép nội dung.

lưu ý quan trọng

Hầu hết những công cụ tìm kiếm đều ngoan ngoãn. Họ không còn thói quen phá vỡ một mục. Điều đó nói rằng, một số trong những không ngại ngùng khi chọn một vài ổ khóa ẩn dụ.

Google không phải là một trong những công cụ tìm kiếm đó. Họ tuân theo những hướng dẫn trong tệp robot.txt.

Chỉ nên phải ghi nhận rằng một số trong những công cụ tìm kiếm bỏ qua nó hoàn toàn.

Tệp robot.txt trông ra làm sao?

Đây là định dạng cơ bản của tệp robot.txt:

Sơ đồ website: [Địa điểm URL của Sơ đồ trang web]
Tác nhân người tiêu dùng: [Định danh bot]
[Chỉ thị 1]
[Chỉ thị 2]
[Chỉ thị …]
Tác nhân người tiêu dùng: [Mã định danh bot khác]
[Chỉ thị 1]
[Chỉ thị 2]
[Chỉ thị …]

Nếu bạn chưa bao giờ nhìn thấy một trong những tập tin này trước kia, điều này có vẻ như trở ngại vất vả. Tuy nhiên, cú pháp khá đơn thuần và giản dị. Nói tóm lại, bạn chỉ định những quy tắc cho những bot bằng phương pháp nêu user-agentfollowed by directives.

Hãy mày mò hai thành phần này rõ ràng hơn.

User-agents

Mỗi công cụ tìm kiếm xác lập chính nó với một tác nhân người tiêu dùng rất khác nhau. Bạn hoàn toàn có thể đặt những hướng dẫn tùy chỉnh cho từng trong số này trong tệp robot.txt của bạn. Có hàng trăm đại lý người tiêu dùng, nhưng đấy là một số trong những tài sản hữu ích:

    google: googlebot Hình ảnh Google: Googlebot-Image Bing: Bingbot Yahoo: Slurp Baidu : Baiduskider Duckduckgo: Duckduckbot

Sidenote.Tất cả những tác nhân người tiêu dùng là trường hợp nhạy cảm trong robot.txt.

Bạn cũng hoàn toàn có thể sử dụng ký tự đại diện thay mặt thay mặt STAR (*) để chỉ định những thông tư cho toàn bộ những đại lý người tiêu dùng.

Ví dụ: Letssay rằng bạn muốn chặn toàn bộ những bot ngoại trừ Googlebot từ việc tích lũy tài liệu website của bạn. Đây là cách bạn sẽ làm:

Đại lý người tiêu dùng: *
Không được cho phép: /
Người dùng đại lý: Googlebot
Cho phép: /

Biết rằng tệp robot.txt của bạn hoàn toàn có thể gồm có gồm có nhiều đại lý người tiêu dùng như bạn muốn. Điều đó nói rằng, mọi khi bạn tuyên bố một người tiêu dùng mới, nó hoạt động và sinh hoạt giải trí như một bảng đá sạch. Nói cách khác, nếu bạn thêm những thông tư cho nhiều đại lý người tiêu dùng, những thông tư được khai báo cho tác nhân người tiêu dùng thứ nhất không vận dụng cho thứ hai hoặc thứ ba hoặc thứ tư, và sớm.

Ngoại lệ riêng với quy tắc đó là lúc bạn khai báo cùng một đại lý người tiêu dùng nhiều lần. Trong trường hợp đó, toàn bộ những thông tư có liên quan được phối hợp và theo sau.

LƯU Ý QUAN TRỌNG

Crawlers chỉ tuân theo những quy tắc được khai báo theo (những) người tiêu dùng vận dụng đúng chuẩn nhất cho họ . Đó là nguyên do tại sao tệp robot.txt trên toàn bộ những bot ngoại trừ googlebot (và những bot google khác) từ việc tích lũy tài liệu website. Googlebot bỏ qua Tuyên bố đại lý người tiêu dùng ít rõ ràng hơn.

Chỉ thị.

Chỉ thị là những quy tắc mà bạn muốn những đại lý người tiêu dùng được tuyên bố theo dõi.

Chỉ thị được tương hỗ

Dưới đấy là những thông tư mà Google hiện giờ đang tương hỗ, cùng với Womuses.

Không được cho phép

Sử dụng thông tư này để hướng dẫn những công cụ tìm kiếm không truy vấn những tệp và trang nằm dưới một đường dẫn rõ ràng. Ví dụ: nếu bạn muốn chặn toàn bộ những công cụ tìm kiếm truy vấn blog của tớ và toàn bộ những bài đăng của nó, tệp robot.txt của bạn hoàn toàn có thể trông in như:

Đại lý người tiêu dùng: *
Không được cho phép: / Blog

Sidenote.Nếu bạn không xác lập một đường dẫn sau thông tư không được cho phép, những công cụ tìm kiếm sẽ bỏ qua nó.Cho phép

Sử dụng thông tư này để được cho phép những công cụ tìm kiếm tích lũy thư mục con hoặc trang trong cả trong thư mục không được phép. Ví dụ: nếu bạn muốn ngăn những công cụ tìm kiếm truy vấn vào mỗi bài đăng trên blog của bạn ngoại trừ tệp, thì tệp robot.txt của bạn hoàn toàn có thể trông in như:

Đại lý người tiêu dùng: *
Không được cho phép: / Blog
Cho phép: / Blog / Bưu điện được phép

Trong ví dụ này, những công cụ tìm kiếm hoàn toàn có thể truy vấn / blog / được phép-post . Nhưng họ không thể truy vấn:

/ blog / nội dung bài viết khác-post
/ blog / chưa-other-post
/blog/doad-me.pdf

Cả Google và BingSupport Chỉ thị này.

Sidenote.Cũng như thông tư không được cho phép, nếu bạn không xác lập một đường dẫn sau khi được cho phép thông tư, những công cụ tìm kiếm sẽ bỏ qua nó.Một lưu ý về những quy tắc xích míc

Trừ khi bạn thận trọng, không được cho phép và được cho phép những thông tư hoàn toàn có thể thuận tiện và đơn thuần và giản dị xung đột với nhau. Trong ví dụ dưới đây, chúng tôi không thể truy vấn vào /blog/and allowing access to /blog.

Đại lý người tiêu dùng: *
Không được cho phép: / Blog /
Cho phép: / Blog

Trong trường hợp này, URL / Blog / Chữ viết / dường như không được phép vừa mới được cho phép. Vậy những cuốn sách nào?

Đối với Google và Bing, quy tắc là thông tư với hầu hết những ký tự thắng lợi. Độ chắc như đinh, đó là thông tư không được cho phép.

Không được cho phép: / Blog / (6 ký tự) Cho phép: / Blog (5 Charactors) . (6 characters)
Allow: /blog(5 charactors)

Nếu những thông tư được cho phép và không được cho phép có độ dài bằng nhau, thì việc thông tư hạn chế ít hạn chế nhất. Trong trường hợp này, này sẽ là lệnh được cho phép.

Sidenote. TẠI ĐÂY, / blog (không còn dấu gạch chéo) vẫn hoàn toàn có thể truy vấn và hoàn toàn có thể tích lũy tài liệu.

Chính, Đây chỉ là trường hợp cho Google và Bing . Các công cụ tìm kiếm khác nghe thông tư phối hợp thứ nhất. Trong trường hợp này, đó là không được cho phép.

Sơ đồ website

Sử dụng thông tư này để chỉ xác định trí của (những) Sơ đồ website của bạn cho những công cụ tìm kiếm. Nếu bạn lạ lẫm thuộc với sơ đồ website, chúng thường gồm có những trang mà bạn muốn những công cụ tìm kiếm tích lũy tài liệu và Indindex.

Đây là một ví dụ về tệp robot.txt bằng Chỉ thị Sơ đồ website:

Sơ đồ website: ://.domain/sitemap.xml.
Đại lý người tiêu dùng: *
Không được cho phép: / Blog /
Cho phép: / Blog / Tiêu đề /

Làm thế nào quan trọng gồm có (những) Sơ đồ website của bạn trong tệp robot.txt của bạn? Nếu bạn đã gửi thông qua Search Console, thì đó là một chút ít dư thừa cho Google. Tuy nhiên, nó không nói với những công cụ tìm kiếm khác ví như Bing nơi tìm sơ đồ website của bạn, vì vậy nó vẫn là thực hành thực tiễn tốt.

Lưu ý rằng bạn không cần lặp lại thông tư SiteMap nhiều lần cho từng tác nhân người tiêu dùng. Nó không vận dụng cho chỉ một. Vì vậy, tốt nhất bạn phải gồm có những thông tư Sơ đồ website ở đầu hoặc cuối tệp robot.txt của bạn. Ví dụ:

Sơ đồ website: ://.domain/sitemap.xml.
Người dùng đại lý: Googlebot
Không được cho phép: / Blog /
Cho phép: / Blog / Tiêu đề /
Người dùng đại lý: Bingbot
Không được cho phép: / Dịch Vụ TM /

Google tương hỗ Chỉ thị Sơ đồ website, như yêu cầu, Bing, Andyahoo.

Sidenote.Bạn hoàn toàn có thể gồm có nhiều sơ đồ website như bạn muốn trong tệp robot.txt của bạn.

Chỉ thị không được tương hỗ

Dưới đấy là những thông tư không hề được Google tương hỗ nữa trong số đó về mặt kỹ thuật sẽ không còn bao giờ.

Crawl-delay

Trước đây, bạn hoàn toàn có thể sử dụng thông tư này để chỉ định độ trễ tích lũy tài liệu trong vài giây. Ví dụ: nếu bạn muốn Googlebot đợi 5 giây sau mỗi hành vi tích lũy tài liệu, bạn sẽ đặt trễ tích lũy tài liệu thành 5 Likeso:

Người dùng đại lý: Googlebot
Thu thập tài liệu: 5

Google không hề tương hỗ thông tư này, mà Bing và Yandexdo.

Điều đó nói rằng, hãy thận trọng khi để thông tư này, đặc biệt quan trọng nếu bạn có một website lớn. Nếu bạn đặt độ trễ tích lũy tài liệu là 5 giây, thì bạn đang số lượng giới hạn những bot để tích lũy tối đa 17.280 URL mỗi ngày. Điều đó không hữu ích lắm nếu bạn có hàng triệu trang, nhưng nó hoàn toàn có thể lưu băng thông nếu bạn có một website nhỏ.

NOINDEX.

Chỉ thị này sẽ không còn bao giờ được Google tương hỗ chính thức. Tuy nhiên, cho tới mới gần đây, người ta nghĩ rằng Google đã có một số trong những mã “xử lý những quy tắc không được tương hỗ và không được công bố (ví như No Index).” Vì vậy, nếuOu muốn ngăn Google lập chỉ mục toàn bộ những bài đăng trên blog của bạn, bạn hoàn toàn có thể sử dụng thông tư sau:

Người dùng đại lý: Googlebot
NOINDEX: / Blog /

Tuy nhiên, vào trong ngày một tháng 9 năm 2022, Google đã nói rõ rằng Chỉ thị này sẽ không còn được tương hỗ . Nếu bạn muốn loại trừ một trang hoặc tệp khỏi những công cụ tìm kiếm, hãy sử dụng thẻ robot meta hoặc x-robots headerinstead.

Không theo

Đây là một thông tư khác mà Google không bao giờ được tương hỗ chính thức, và được sử dụng để hướng dẫn những công cụ tìm kiếm không tuân theo những link trên những trang và tệp dưới một đường dẫn rõ ràng. Ví dụ: nếu bạn muốn dừng Google theo dõi toàn bộ những link trên blog của tớ, bạn hoàn toàn có thể sử dụng thông tư sau:

Người dùng đại lý: Googlebot
Nofollow: / blog /

Google tuyên bố rằng thông tư này chính thức không được tương hỗ vào trong ngày một tháng 9 năm 2022. Nếu bạn muốn nofollow toàn bộ những link trên một trang giờ đây, bạn nên sử dụng thẻ robot meta hoặc tiêu đề x-robot. Nếu bạn muốn nói với Google không tuân theo những link rõ ràng trên một trang, hãy sử dụng thuộc tính link rel = “nofollow”.

Bạn có cần một tập tin robot.txt?

Có tệp robot.txt không quan trọng riêng với thật nhiều website, nhất là Smallones.

Điều đó nói rằng, không còn nguyên do chính đáng để không còn một. Nó phục vụ cho bạn nhiều quyền trấn áp hơn khi những công cụ tìm kiếm hoàn toàn có thể và không thể truy vấn website của bạn và điều này hoàn toàn có thể giúp sức những thứ như:

    Ngăn chặn việc tích lũy tài liệu của nội dung trùng lặp;Giữ những phần của một website tư nhân (ví dụ: website dàn dựng của bạn);Ngăn chặn việc tích lũy tài liệu của những trang kết quả tìm kiếm nội bộ;Ngăn chặn quá tải sever;Ngăn chặn Google từ việc tiêu tốn lãng phí ngân sách tích lũy tài liệu.Ngăn chặn hình ảnh, video và tài nguyên tệp xuất hiện trong kết quả tìm kiếm của Google.

Lưu ý rằng trong lúc Google thường không lập chỉ mục những website bị chặn trong robot.txt, Không có cách nào để đảm bảo loại trừ kết quả tìm kiếm bằng tệp robot.txt . theres no way to guarantee exclusion from search results using the robots.txt file.

Giống như Google nói, nếu nội dung được link từ những khu vực khác trên web, nó vẫn hoàn toàn có thể xuất hiện trong kết quả tìm kiếm của Google.

Cách tìm tệp robot.txt của bạn

Nếu bạn đã có tệp robot.txt trên website của tớ, nó sẽ hoàn toàn có thể truy vấn tại domain/robots.txt . Điều hướng tới URL trong trình duyệt của bạn. Nếu bạn thấy một chiếc gì đó như vậy này, thì bạn có một tệp robot.txt:

Cách tạo tệp robot.txt

Nếu bạn chưa tồn tại tệp robot.txt, hãy tạo một tệp thuận tiện và đơn thuần và giản dị. Chỉ cần mở một tài liệu .txt trống và khởi đầu những thông tư gõ. Ví dụ: nếu bạn muốn không được cho phép toàn bộ những công cụ tìm kiếm từ việc tích lũy / admin / , nó sẽ trông in như một chiếc gì đó như:

Đại lý người tiêu dùng: *
Không được cho phép: / Quản trị viên /

Tiếp tục xây dựng những thông tư cho tới lúc bạn hài lòng với những gì bạn có. Lưu tệp của bạn dưới dạng “robot.txt.”

Ngoài ra, bạn cũng hoàn toàn có thể sử dụng trình tạo robot.txt như vậy này.

Ưu điểm của việc sử dụng một công cụ như vậy này là nó giảm thiểu những lỗi cú pháp. Điều đó thật tốt chính bới một sai lầm không mong muốn hoàn toàn có thể dẫn đến một thảm họa SEO cho website của bạn – vì vậy nó trả tiền để lỗi về phía thận trọng.

Nhược điểm là chúng có phần bị số lượng giới hạn về kĩ năng tùy biến.

Nơi để tại vị tệp robot.txt của bạn

Đặt tệp robot.txt của bạn vào thư mục gốc của tên miền phụ mà nó vận dụng. Ví dụ: để trấn áp hành vi tích lũy tài liệu trên domain, the robots.txt file should be accessible domain/robots.txt.

Nếu bạn muốn trấn áp tích lũy tài liệu trên một tên miền phụ như blog.domain , thì hoàn toàn có thể truy vấn tệp robot.txt tại blog.domain/robots.txt . blog.domain, then the robots.txt file should be accessible blog.domain/robots.txt.

Tập tin robot.txt thực hành thực tiễn tốt nhất

Giữ những điều này trong tâm trí để tránh những sai lầm không mong muốn phổ cập.

Sử dụng một dòng mới cho từng thông tư

Mỗi thông tư nên ngồi trên một dòng mới. Nếu không, nó sẽ gây nên nhầm lẫn những công cụ tìm kiếm.

Tồi tệ:

Tác nhân người tiêu dùng: * Không được cho phép: / Thư mục / Không được cho phép: / Thư mục khác /

Tốt:

Đại lý người tiêu dùng: *
Không được cho phép: / thư mục /
Không được cho phép: / Thư mục khác /

Sử dụng ký tự đại diện thay mặt thay mặt để đơn thuần và giản dị hóa hướng dẫn

Bạn không riêng gì có hoàn toàn có thể sử dụng ký tự đại diện thay mặt thay mặt (*) để vận dụng những thông tư cho toàn bộ những đại lý người tiêu dùng, mà còn để khớp với bộ sưu tập URL khi khai báo những thông tư. Ví dụ: nếu bạn muốn ngăn những công cụ tìm kiếm truy vấn URL khuôn khổ thành phầm tham số trên website của bạn, bạn hoàn toàn có thể liệt kê chúng Likeethis:

Đại lý người tiêu dùng: *
Không được cho phép: / Sản phẩm / Áo phông?
Không được cho phép: / Sản phẩm / Hoodies?
Không được cho phép: / Sản phẩm / Áo khoác?

Nhưng điều này không hiệu suất cao lắm. Sẽ tốt hơn để đơn thuần và giản dị hóa mọi thứ với một likeethis ký tự đại diện thay mặt thay mặt:

Đại lý người tiêu dùng: *
Không được cho phép: / Sản phẩm / *?

Ví dụ này chặn những công cụ tìm kiếm từ tích lũy toàn bộ những URL trong / thành phầm / thư mục con có chứa dấu hỏi. Nói cách khác, bất kỳ URL khuôn khổ thành phầm tham số.

Sử dụng “$” để chỉ định kết thúc Aurl

Bao gồm hình tượng “$” để ghi lại phần cuối của URL. Ví dụ: nếu bạn muốn ngăn ngừa những công cụ tìm kiếm truy vấn toàn bộ những tệp .pdf trên website của bạn, tệp robot.txt của bạn hoàn toàn có thể trông in như:

Đại lý người tiêu dùng: *
Không được cho phép: /*.pdf$.

Trong ví dụ này, những công cụ tìm kiếm không thể truy vấn bất kỳ URL nào kết thúc bằng .pdf. Điều đó nghĩa là họ không thể truy vấn /file.pdf, nhưng chúng hoàn toàn có thể truy vấn /file.pdf?id=68937586 vì điều này không kết thúc bằng “.pdf”.

Sử dụng chỉ người tiêu dùng-người tiêu dùng chỉ

Nếu bạn chỉ định cùng một đại lý người tiêu dùng nhiều lần, Google không phiền. Nó sẽ chỉ phối hợp toàn bộ những quy tắc từ những tờ khai rất khác nhau thành một và theo dõi toàn bộ. Ví dụ: nếu bạn có những đại lý và thông tư người tiêu dùng sau này trong tệp robot.txt của tớ …

Người dùng đại lý: Googlebot
Không được cho phép: / a /
Người dùng đại lý: Googlebot
Không được cho phép: / b /

… googlebot sẽ không còn CRAWL hoặc một trong hai thư mục con đó.

Điều đó nói rằng, nó chỉ có ý nghĩa khi tuyên bố từng tác nhân người tiêu dùng một lần vì nó ít gây nhầm lẫn. Nói cách khác, bạn sẽ ít hoàn toàn có thể mắc lỗi nghiêm trọng bằng phương pháp giữ mọi thứ ngăn nắp và đơn thuần và giản dị.

Sử dụng tính đặc hiệu để tránh những lỗi không chủ ý

Việc không phục vụ những hướng dẫn rõ ràng khi setup thông tư hoàn toàn có thể dẫn đến những sai lầm không mong muốn dễ bị bỏ lỡ hoàn toàn có thể có tác động thảm khốc riêng với SEO của bạn. Ví dụ: hãy giả sử rằng bạn có một website đa ngôn từ và bạn đang thao tác trên một phiên bản tiếng Đức sẽ có được sẵn theo / DE / SubDirectory.

Bởi vì nó không hoàn toàn sẵn sàng để đi, bạn muốn ngăn ngừa những công cụ tìm kiếm truy vấn vào nó.

Tệp robot.txt phía dưới những công cụ tìm kiếm WillPrevent từ việc truy vấn thư mục con đó và mọi thứ init:

Đại lý người tiêu dùng: *
Không được cho phép: / de

Nhưng nó cũng tiếp tục ngăn ngừa những công cụ tìm kiếm từ việc tích lũy tài liệu của bất kỳ trang hoặc tệp nào khởi đầu bằng / de .

Ví dụ:

/ Designer-Dress / /delivery-Information.html / depeche-Mode / T-shirt / /definit-not-for-public-viewing.pdf
/delivery-information.html
/depeche-mode/t-shirts/
/definitely-not-for-public-viewing.pdf

Trong trường hợp này, giải pháp rất đơn thuần và giản dị: thêm dấu gạch chéo.

Đại lý người tiêu dùng: *
Không được cho phép: / de /

Sử dụng Nhận xét để lý giải tệp robot.txt của bạn cho con người

Nhận xét giúp lý giải tệp robot.txt của bạn cho những nhà tăng trưởng, và hoàn toàn có thể trong cả bản thân tương lai của bạn. Để gồm có một phản hồi, hãy khởi đầu dòng với ahash (#).

# Điều này hướng dẫn Bing không tích lũy thông tin website của chúng tôi.
Người dùng đại lý: Bingbot
Không được cho phép: /

Crawlers sẽ bỏ qua mọi thứ trên những dòng khởi đầu bằng ahash.

Sử dụng tệp robot.txt riêng cho từng tên miền phụ

Robot.txt chỉ trấn áp hành vi tích lũy tài liệu trên tên miền phụ nơi nó được tàng trữ. Nếu bạn muốn trấn áp việc tích lũy tài liệu trên một tên miền phụ khác, bạn sẽ cần một tệp robot.txt riêng không liên quan gì đến nhau.

Ví dụ: nếu website chính của bạn nằm trên domain và blog của bạn nằm trên Blog .domain , tiếp theo đó bạn sẽ cần hai tệp robot.txt. Người ta nên đi vào thư mục gốc của miền chính và cái còn sót lại trong thư mục gốc của theblog. domain.comand your blog sits on blog.domain, then you would need two robots.txt files. One should go in the root directory of the main domain, and the other in the root directory of theblog.

Ví dụ những tập tin robot.txt.

Dưới đấy là một vài ví dụ về những tệp robot.txt. Đây hầu hết dành riêng cho cảm hứng nhưng nếu một người xẩy ra để phù phù thích hợp với yêu cầu của bạn, hãy sao chép nó vào tài liệu văn bản, lưu nó dưới dạng “robot.txt” và tải nó lên thư mục thích hợp.

Toàn quyền truy vấn Allbots

Đại lý người tiêu dùng: *
Không được cho phép:

Sidenote.Không khai báo URL sau khi thông tư cho việc thông tư dư thừa. Nói cách khác, những công cụ tìm kiếm bỏ qua nó. Đó là nguyên do tại sao thông tư không được cho phép này sẽ không còn còn hiệu lực hiện hành trên website. Công cụ tìm kiếm vẫn hoàn toàn có thể tích lũy toàn bộ những trang vàfiles.

Không có quyền truy vấn cho Allbots

Đại lý người tiêu dùng: *
Không được cho phép: /

Chặn một thư mục con cho Allbots

Đại lý người tiêu dùng: *
Không được cho phép: / Thư mục /

Chặn một thư mục con cho toàn bộ những bot (với một tệp trong phép)

Đại lý người tiêu dùng: *
Không được cho phép: / Thư mục /
Cho phép: /thư mục/page.html.

Chặn một tập tin cho allbots

Đại lý người tiêu dùng: *
Không được cho phép: /this-is-a-file.pdf.

Chặn một tệp filetype (PDF) cho Allbots

Đại lý người tiêu dùng: *
Không được cho phép: /*.pdf$.

Chặn toàn bộ những URL tham số chỉ cho Googlebot

Người dùng đại lý: Googlebot
Không được cho phép: / *?

Cách kiểm tra tệp robot.txt của bạn để tìm lỗi

Những sai lầm không mong muốn robot.txt hoàn toàn có thể trượt qua mạng khá thuận tiện và đơn thuần và giản dị, vì vậy nó trả tiền để theo dõi những yếu tố.

Để thực thi việc này, thường xuyên kiểm tra những yếu tố liên quan đến robot.txt trong báo cáo “Bảo hiểm” trong bảng điều khiển và tinh chỉnh tìm kiếm. Dưới đấy là một số trong những lỗi bạn hoàn toàn có thể thấy, ý nghĩa của chúng, và cách bạn hoàn toàn có thể sửa lỗi.

Cần kiểm tra những lỗi liên quan đến một trang nhất định?

Dán một URL vào công cụ kiểm tra URL của Google trong bảng điều khiển và tinh chỉnh tìm kiếm. Nếu nó bị chặn bởi robot.txt, bạn sẽ thấy một chiếc gì đó limethis:

Gửi URL bị chặn bởi robot.txt

Điều này nghĩa là tối thiểu một trong số những URL trong (những) URL được gửi của bạn bị chặn bởi robot.txt.

Nếu bạn đã tạo sơ đồ website của tớ đúng chuẩn và không gồm có Canonicalized, không gồm có và chuyển hướng, thì Không có trang đã gửi nào được chặn bởi robot.txt . Nếu có, hãy khảo sát trang nào bị ảnh hưởng, tiếp theo đó kiểm soát và điều chỉnh tệp robot.txt của bạn thích hợp để xóa khối cho trang đó.

Bạn hoàn toàn có thể sử dụng Robots.txt Testerto của Google, hãy xem Chỉ thị nào đang chặn nội dung. Chỉ cần thận trọng khi làm điều này. Thật thuận tiện và đơn thuần và giản dị để phạm sai lầm không mong muốn ảnh hưởng đến những trang khác và những trang khác.

Bị chặn bởi robot.txt.

Điều này nghĩa là bạn có nội dung bị chặn bởi robot.txt hiện không được lập chỉ mục trong google.

Nếu nội dung này rất quan trọng và nên được lập chỉ mục, hãy tháo khối tích lũy tài liệu trong robot.txt. (Nó cũng đáng để đảm nói rằng nội dung không không phải là không còn gì). Nếu bạn đã chặn nội dung trong robot.txt với mục tiêu loại trừ nó khỏi chỉ mục của Google, hãy tháo khối tích lũy tài liệu và sử dụng thẻ meta robot hoặc tiêu đề x-robot. Đó là cách duy nhất để đảm bảo loại trừ nội dung khỏi chỉ mục của Google.

Sidenote.Xóa khối tích lũy tài liệu khi nỗ lực loại trừ một trang khỏi kết quả tìm kiếm là rất quan trọng. Không thể thực thi việc này và Google sẽ không còn thấy thẻ noindex hoặc tiêu đề HTTP, vì vậy nó sẽ tiến hành lập chỉ mục.

Được lập chỉ mục, tuy nhiên bị chặn bởi robot.txt

Điều này nghĩa là một số trong những nội dung bị chặn bởi robot.txt vẫn được lập chỉ mục trong Google.

Một lần nữa, nếu bạn đang nỗ lực loại trừ nội dung này khỏi kết quả tìm kiếm của Google, robot.txt không phải là giải pháp đúng chuẩn. Tháo khối tích lũy tài liệu và thay vào đó sử dụng thẻ robot meta hoặc x-robot-tag headerto ngăn ngừa lập chỉ mục.

Nếu bạn bị chặn nội dung này một cách vô tình và muốn giữ nó trong chỉ mục của Google, hãy xóa khối tích lũy tài liệu trong robot.txt. Điều này hoàn toàn có thể giúp cải tổ kĩ năng hiển thị của nội dung trong tìm kiếm của Google.

Đề xuất Đọc: Cách khắc phục “được lập chỉ mục, tuy nhiên bị chặn bởi robot.txt” ingsc

Câu hỏi thường gặp

Dưới đấy là một vài vướng mắc thường gặp không phù phù thích hợp với những nơi khác trong hướng dẫn của chúng tôi. Hãy cho chúng tôi biết trong những ý kiến ​​nếu bất kể điều gì bị thiếu, và chúng tôi sẽ update phần cho thích hợp.

Kích thước tối đa của tệp robots.txt là bao nhiêu?

500 kilobyte (khoảng chừng).

Robots.txt ở đâu trong wordpress?

Tương tự: domain/robots.txt .

Làm cách nào để sửa đổi robot.txt trong WordPress?

Hoặc là thủ công hoặc sử dụng một trong nhiều plugin WordPress SEO in như Yoast được cho phép bạn sửa đổi robot.txt khỏi phần phụ trợ WordPress.

Điều gì xẩy ra nếu tôi không được cho phép truy vấn vào nội dung không nhiễu trong robot.txt?

Google sẽ không còn bao giờ nhìn thấy Chỉ thị noindex vì nó không thể tích lũy tài liệu trang.

DYK chặn một trang có cả robot.txt disallow & noindex trong trang không khiến nhiều ý nghĩa cos googlebot không thể “xem” noindex? pic.twitter/n4639rccwt- Gary “鯨理” illyes (@methode) ngày 10 tháng 2 năm 2022

Suy nghĩ ở đầu cuối

Robot.txt là một tập tin đơn thuần và giản dị nhưng mạnh mẽ và tự tin. Sử dụng nó một cách khôn ngoan, và nó hoàn toàn có thể có tác động tích cực đến SEO. Sử dụng nó một cách ngớ ngẩn và, tốt, bạn sẽ sống để hụt hẫng.

Có nhiều vướng mắc hơn? Để lại một phản hồi hoặc ping tôi trên twitter.

Video

://.youtube/watch?v=cOd6Epc8uNE

4221

Review Robot.txt và seo: mọi thứ bạn cần & nbsp; biết ?

Bạn vừa tìm hiểu thêm Post Với Một số hướng dẫn một cách rõ ràng hơn về Review Robot.txt và seo: mọi thứ bạn cần & nbsp; biết tiên tiến và phát triển nhất

Share Link Cập nhật Robot.txt và seo: mọi thứ bạn cần & nbsp; biết miễn phí

Bạn đang tìm một số trong những Share Link Down Robot.txt và seo: mọi thứ bạn cần & nbsp; biết Free.

Hỏi đáp vướng mắc về Robot.txt và seo: mọi thứ bạn cần & nbsp; biết

Nếu sau khi đọc nội dung bài viết Robot.txt và seo: mọi thứ bạn cần & nbsp; biết vẫn chưa hiểu thì hoàn toàn có thể lại phản hồi ở cuối bài để Mình lý giải và hướng dẫn lại nha
#Robottxt #và #seo #mọi #thứ #bạn #cần #amp #nbsp #biết