1. Hiện tại có một số member mạo danh BQT để giao dịch trên diễn đàn và đã LỪA ĐẢO khá nhiều tại chuyên mục Adwords... Mọi người cảnh giác và đọc bài: Giới thiệu giao dịch đảm bảo bởi @Admin

Những thực hành tốt nhất để thiết lập thẻ Meta Robots và Robots.txt

Thảo luận trong 'Onpage Seo - Tối ưu các yếu tố trên trang web' bắt đầu bởi thegioiseo, 24/3/17.

Lượt xem: 28,323
  1. thegioiseo

    thegioiseo Điều Hành Viên

    Gia nhập:
    22/5/11
    Bài viết:
    1,206
    Đã được thích:
    2,688
    (Thegioiseo) - Các nhà marketing digital và các chuyên gia SEO đều nhận thấy được tầm quan trọng của việc công cụ tìm kiếm lập chỉ mục như thế nào. Đó là lý do tại sao họ đang cố gắng hết sức để giúp Google thu thập dữ liệu và index các trang web của họ đúng cách, đầu tư thời gian và nguồn lực để tối ưu hóa on-page và off-page như nội dung, các liên kết, các thẻ, meta descriptions, tối ưu hóa hình ảnh, cấu trúc trang web...

    slide

    Không thể phủ nhận rằng việc tối ưu hóa trang web là bước cơ bản để thành công trong tìm kiếm nhưng chúng ta lại quên đi những khía cạnh kỹ thuật SEO và mắc phải một sai lầm nghiêm trọng. Nếu bạn chưa bao giờ nghe nói đến robots.txt, thẻ meta robots, XML sitemaps, microformats và thẻ X-Robot, bạn có thể gặp rắc rối.

    Đừng hoảng sợ. Trong bài viết này tôi sẽ giải thích cách sử dụng và thiết lập các thẻ robots.txt và thẻ meta robot. Tôi sẽ cung cấp một số ví dụ thực tế để bạn hiểu.

    Robots.txt là gì?

    Robots.txt là một tệp văn bản được sử dụng để hướng dẫn bots tìm kiếm cách để thu thập thông tin và lập chỉ mục các trang web. Lý tưởng là tập tin robots.txt được đặt trong thư mục cấp cao nhất của trang web để robots có thể truy cập các chỉ dẫn của nó ngay lập tức.

    Để các lệnh giao tiếp với các trình thu thập khác, tập tin robots.txt phải tuân thủ theo các tiêu chuẩn cụ thể được đề cập trong Robots exclusion protocol (REP) - được tạo ra từ năm 1994 và sau đó được mở rộng vào năm 1996, 1997 và năm 2005.

    Trong suốt lịch sử của họ, tập tin robots.txt đã được cải thiện dần để hỗ trợ các chỉ thị cụ thể của trình thu thập thông tin, tiện ích URI-pattern, chỉ thị index (còn được gọi là thẻ REP hoặc thẻ robots meta) và microformat rel=“nofollow.”

    Vì tập tin robots.txt cung cấp cho bots tìm kiếm các hướng dẫn về cách thu thập thông tin hoặc cách thu thập dữ liệu này hoặc phần của trang web, việc biết cách sử dụng và thiết lập các tập tin này là khá quan trọng. Nếu tập tin robots.txt được thiết lập không chính xác, nó có thể gây ra nhiều lỗi index. Vì vậy, mỗi khi bạn bắt đầu một chiến dịch SEO mới, hãy kiểm tra tập tin robots.txt của bạn bằng công cụ robots texting của Google.

    Đừng quên: nếu mọi thứ đều đúng, tập tin robots.txt sẽ tăng tốc quá trình index.

    Ẩn gì với Robots.txt

    Tập tin Robots.txt có thể được sử dụng để loại bỏ các thư mục, danh mục và các trang cụ thể ra khỏi tìm kiếm. Để kết thúc, sử dụng chỉ thị "disallow". Dưới đây là một số trang mà bạn nên ẩn bằng tập tin robots.txt:

    - Các trang có nội dung trùng lặp
    - Phân trang
    - Trang sản phẩm và dịch vụ động
    - Các trang tài khoản
    - Các trang quản trị
    - Shopping cart
    - Chats
    - Trang Thank-you

    Về cơ bản, nó trông như thế này:
    Nhung thuc hanh tot nhat de thiet lap the meta robots va robots_txt
    Trong ví dụ ở trên, tôi hướng dẫn Googlebot tránh thu thập và lập chỉ mục tất cả các trang liên quan đến tài khoản người dùng, giỏ hàng và nhiều trang động được tạo khi người dùng tìm kiếm các sản phẩm trong thanh tìm kiếm hoặc sắp xếp theo giá cả...

    Tuy nhiên đừng quên rằng tập tin robots.txt được công khai trên web. Để truy cập tập tin robots.txt, chỉ cần gõ:

    www.thegioiseo.com/robots.txt (thay tên miền thegioiseo.com bằng tên miền của bạn)​

    Tính khả dụng này có nghĩa là bạn không thể bảo vệ hoặc ẩn bất kỳ dữ liệu nào trong đó. Hơn nữa, các robot xấu và trình thu thập thông tin độc hại có thể tận dụng tập tin robots.txt, sử dụng nó như một bản đồ chi tiết để điều hướng các trang web có giá trị nhất của bạn. Ngoài ra, hãy lưu ý rằng các lệnh robots.txt thực ra là các chỉ thị. Điều này có nghĩa là các chương trình tìm kiếm có thể thu thập thông tin và lập chỉ mục trang web của bạn ngay cả khi bạn không hướng dẫn họ. Tin vui là hầu hết các công cụ tìm kiếm (như Google, Bing, Yahoo và Yandex) đều tôn trọng các chỉ thị robots.txt.

    Chắc chắn tập tin robots.txt có nhược điểm. Tuy nhiên, tôi khuyên bạn nên làm cho chúng trở thành một phần không thể tách rời của mọi chiến dịch SEO.

    Cách sử dụng Robots.txt

    Tập tin Robots.txt là khá linh hoạt và có thể được sử dụng theo nhiều cách. Tuy nhiên, lợi ích chính của chúng là chúng cho phép các chuyên gia SEO “allow” hoặc “disallow” nhiều trang cùng một lúc mà không cần truy cập code của từng trang.

    Ví dụ: bạn có thể chặn tất cả trình thu thập thông tin tìm kiếm khỏi nội dung. Như thế này:

    Hoặc ẩn cấu trúc thư mục của trang web và các danh mục cụ thể, như sau:

    Nó cũng hữu ích để loại trừ nhiều trang khỏi tìm kiếm. Chỉ cần phân tích các URL bạn muốn ẩn từ trình thu thập thông tin tìm kiếm. Sau đó, thêm lệnh “disallow” vào trong robots.txt của bạn, liệt kê các URL và các trang không còn hiển thị với Google.

    Nhung thuc hanh tot nhat de thiet lap the meta robots va robots_txt 2

    Tuy nhiên, điều quan trọng hơn là tập tin robots.txt cho phép bạn ưu tiên các trang, danh mục và thậm chí cả các mã CSS và JS. Hãy xem ví dụ dưới đây:
    Nhung thuc hanh tot nhat de thiet lap the meta robots va robots_txt 3
    Tại đây, chúng tôi đã không cho phép các trang WordPress và các danh mục cụ thể, nhưng các tệp tin wp-content, các plugin JS, CSS styles và blog được allow. Cách tiếp cận này đảm bảo rằng spider thu thập thông tin và index ngay từ đầu.

    Một điều quan trọng nữa: tập tin robots.txt là một trong những vị trí có thể có cho tập tin sitemap.xml của bạn. Nó nên được đặt sau các lệnh User-agent, Disallow, Allow và Host. Như thế này:
    Nhung thuc hanh tot nhat de thiet lap the meta robots va robots_txt 4
    Lưu ý: bạn cũng có thể thêm tập tin robots.txt vào Google Search Console và nếu bạn muốn nhắm mục tiêu vào Bing thì bạn sẽ thêm vào Bing Webmaster Tools. Đây là cách tiếp cận an toàn hơn nhiều để bảo vệ nội dung khỏi bị sao chép bởi các webmaster của các trang web đối thủ cạnh tranh.

    Mặc dù cấu trúc robots.txt và cài đặt khá đơn giản, một tập tin được thiết lập đúng cách có thể tạo hoặc phá vỡ chiến dịch SEO của bạn. Hãy cẩn thận với cách cài đặt: Bạn có thể dễ dàng “disallow” toàn bộ trang web của bạn do nhầm lẫn và sau đó chờ đợi lưu lượng truy cập.

    Thẻ meta robots là gì?

    Thẻ meta robots (thẻ REP) cho trình thu thập biết cách công cụ tìm kiếm thu thập thông tin và lập chỉ mục trang web của bạn. Chúng cho phép các chuyên gia SEO nhắm mục tiêu vào các trang cá nhân và hướng trình thu thập biết phải làm gì và không nên follow gì.

    Cách sử dụng thẻ meta robots

    Thẻ meta robots sử dụng khá đơn giản.

    Thứ nhất, không có nhiều thẻ REP. Chỉ có 4 tham số thẻ chính:

    - Follow

    - Index

    - Nofollow

    - Noindex

    Thứ 2, không mất nhiều thời gian để thiết lập thẻ meta robots. Trong bốn bước đơn giản, bạn có thể thực hiện quá trình lập chỉ mục trang web của mình:

    - Truy cập code của trang bằng cách nhấn CTRL + U.

    - Copy và paste phần <head> của mã trang vào một tài liệu riêng biệt.

    - Đưa hướng dẫn chi tiết để các nhà phát triển sử dụng tài liệu này. Tập trung vào việc làm thế nào, ở đâu và thẻ meta robots được thêm vào code như thế nào.

    - Kiểm tra để đảm bảo rằng nhà phát triển đã triển khai thẻ một cách chính xác. Tôi khuyên bạn nên sử dụng The Screaming Frog SEO Spider để làm điều đó.

    Ảnh chụp màn hình dưới đây cho thấy thẻ meta robot trông như thế nào (hãy kiểm tra dòng code đầu tiên):

    Nhung thuc hanh tot nhat de thiet lap the meta robots va robots_txt 5

    Thứ 3: thẻ meta robots được chấp nhận bởi các công cụ tìm kiếm chính như: Google, Bing, Yahoo và Yandex. Bạn không phải chỉnh code cho từng công cụ tìm kiếm hoặc trình duyệt.

    Các thông số chính của thẻ meta robots

    Như đã đề cập ở trên, REP có 4 tham số chính: follow, index, nofollow và noindex. Đây là cách bạn có thể sử dụng chúng:

    - index, follow: cho phép bots tìm kiếm index một trang và follow liên kết của nó.

    - noindex, nofollow: chặn bots tìm kiếm index một trang và follow liên kết của nó.

    - index, nofollow: cho phép công cụ tìm kiếm index một trang nhưng ẩn liên kết của nó khỏi spider tìm kiếm.

    - noindex, follow: loại trừ một trang khỏi công cụ tìm kiếm nhưng cho phép follow các liên kết của nó (link juice giúp tăng SERPs).

    Các tham số thẻ REP là khác nhau. Dưới đây là một trong số ít những tham số ít sử dụng:

    - none

    - noarchive

    - nosnippet

    - unavailabe_after

    - noimageindex

    - nocache

    - noodp

    - notranslate

    Thẻ robots meta rất cần thiết nếu bạn cần tối ưu hóa các trang cụ thể. Chỉ cần truy cập vào code và hướng dẫn nhà phát triển những việc cần làm.

    Nếu trang web của bạn chạy trên CMS nâng cao (OpenCart, PrestaShop) hoặc sử dụng các plugin cụ thể (như WP Yoast), bạn cũng có thể chèn thẻ meta và các thông số của chúng vào mẫu trang. Điều này cho phép bạn chứa nhiều trang cùng một lúc mà không cần phải nhờ sự giúp đỡ từ các nhà phát triển.

    Các nguyên tắc cơ bản để thiết lập robots.txt và thẻ meta robots

    Biết cách thiết lập và sử dụng tập tin robots.txt và thẻ meta robots là rất quan trọng. Một lỗi có thể dẫn đến cái chết cho toàn bộ chiến dịch của bạn.

    Tôi biết một số nhà marketing digital dành nhiều tháng làm SEO chỉ để nhận ra rằng các trang web của họ đã đươc đóng từ chỉ mục trong robots.txt. Những người khác lạm dụng thẻ "nofollow" rất nhiều và họ đã bị đánh mất một vài backlinks.

    Việc xử lý tập tin robots.txt và thẻ REP có thể dẫn đến nhiều sai lầm. Rất may là có một số quy tắc cơ bản sẽ giúp bạn thực hiện thành công.

    Robots.txt

    - Đặt tập tin robots.txt của bạn vào thư mục cấp cao nhất của mã trang web để đơn giản hóa trình thu thập và lập chỉ mục.

    - Cấu trúc đúng tập tin robots.txt như sau: ser-agent → Disallow → Allow → Host → Sitemap.

    - Đảm bảo rằng mọi URL bạn muốn “Allow:” hoặc “Disallow:” được đặt trên một dòng riêng biệt. Nếu một số URL xuất hiện trên một dòng đơn, trình thu thập sẽ gặp sự cố khi truy cập chúng.

    - Sử dụng chữ thường để đặt tên robots.txt của bạn. Việc đặt "robots.txt" luôn tốt hơn "Robots.TXT". Ngoài ra, tên tập tin phân là phân biệt chữ hoa chữ thường.

    - Không tách các thông số truy vấn với khoảng trống. Ví dụ: một truy vấn dòng như thế này "/ cars / / audi /" sẽ gây ra những sai lầm trong tập tin robots.txt.

    - Không sử dụng ký tự đặc biệt ngoại trừ * và $. Các ký tự khác không được nhận dạng.

    - Tạo tập tin robots.txt riêng biệt cho các subdomain khác nhau. Ví dụ: "hubspot.com" và "blog.hubspot.com" có các tập tin riêng lẻ với chỉ thị directory- và page-specific.

    - Sử dụng # để để lại comment trong tập tin robots.txt của bạn. Trình thu thập không coi trọng các dòng có ký tự #.

    - Không dựa vào robots.txt vì mục đích bảo mật. Sử dụng mật khẩu và các cơ chế bảo mật khác để bảo vệ trang web của bạn khỏi bị hacker, scrap và gian lận dữ liệu.

    Thẻ meta robots

    - Hãy phân biệt chữ hoa chữ thường. Google và các công cụ tìm kiếm khác có thể nhận ra thuộc tính, giá trị và thông số ở cả chữ hoa và chữ thường và bạn có thể chuyển đổi chúng nếu bạn muốn. Tôi đề nghị bạn gắn nó vào một trong những lựa chọn để cải thiện khả năng đọc code.

    - Tránh nhiều thẻ <meta>. Bằng cách này, bạn sẽ tránh xung đột trong code. Sử dụng nhiều giá trị trong thẻ <meta> của bạn. Giống như thế này: <meta name = "robots" content = "noindex, nofollow">.

    - Không sử dụng các thẻ meta xung đột để tránh những sai sót trong quá trình lập chỉ mục. Ví dụ: nếu bạn có một số dòng code có thẻ meta như <meta name=“robots” content=“follow”> và <meta name=“robots” content=“nofollow”>, chỉ "nofollow" vào tài khoản.

    Lưu ý: Bạn có thể dễ dàng thực hiện thẻ robots.txt và meta robots. Tuy nhiên, hãy cẩn thạn để tránh gây nhầm lẫn.

    Nếu bạn "allow" index một trang cụ thể trong tập tin robots.txt nhưng vô tình "noindex” trong <meta>, spider sẽ index trang.

    Ngoài ra, hãy nhớ rằng: nếu bạn muốn đưa ra hướng dẫn cụ thể cho Google, hãy sử dụng <meta> "googlebot" thay vì "robots". Giống như thế này: <meta name = "googlebot" content = "nofollow">. Nó tương tự như "robot" nhưng tránh tất cả các trình thu thập thông tin tìm kiếm khác.

    Kết luận

    Tối ưu hóa công cụ tìm kiếm không chỉ là về từ khóa, liên kết và nội dung. Phần kỹ thuật của SEO cũng rất quan trọng. Trên thực tế, nó có thể tạo ra sự khác biệt cho toàn bộ chiến dịch marketing digital của bạn. Do đó, hãy học cách sử dụng đúng và thiết lập tập tin robot.txt và các thẻ meta robots càng sớm càng tốt. Tôi hy vọng những thực hành và các đề xuất của tôi trong bài viết này sẽ hướng dẫn bạn thực hiện một cách suôn sẻ.


    Sơn nhà Gia Phátnguyenhuutinh1992 thích bài này.
  2. CHo mình hỏi sau khi cập nhật file robots mới thì bao lâu nó mới xuất hiện trong wmt vậy, mình update xong f5 lại nó vẫn là file cũ???
  3. quangcaodanan

    quangcaodanan Top 9

    Gia nhập:
    14/3/17
    Bài viết:
    81
    Đã được thích:
    8
    Rất chi tiết và dễ hiểu. cảm ơn chủ topic nhé
  4. haikv240987

    haikv240987 Top 8

    Gia nhập:
    20/11/13
    Bài viết:
    503
    Đã được thích:
    45
    Web:
    Đây là kiến thức cơ bản mà bất kì SEOer nào cũng phải biết, nhưng thực tế nhiều người đã bỏ qua điều này
  5. nguyenhuutinh1992

    nguyenhuutinh1992 Top 7

    Gia nhập:
    26/9/13
    Bài viết:
    1,778
    Đã được thích:
    165
    Web:
    thường thì những site mã nguồn mở bây giờ đều có cập nhật file tự động luôn rồi, em cũng ít khi động đến cái này lắm trừ khi cần chặn google truy suất vào mục nào mình mong muốn khác nữa thôi.
  6. Lucifez

    Lucifez Top 8

    Gia nhập:
    18/2/17
    Bài viết:
    162
    Đã được thích:
    25
    Nơi ở:
    Nghệ An
    Web:
    mới thêm cho blog, cảm ơn top đã chia sẻ
  7. HEO BA ROI

    HEO BA ROI Top 9

    Gia nhập:
    1/4/15
    Bài viết:
    34
    Đã được thích:
    2
    Web:
    Chia sẻ hay. Rất chi tiết, dễ hiểu.
    Cho mình hỏi thêm - Cấu trúc đúng tập tin robots.txt như sau: ser-agent → Disallow → Allow → Host → Sitemap. Nếu cấu trúc trên bị đổi ngược ví dụ đưa sitemap lên đầu tiên thì có ảnh hưởng gì không các bác?
  8. trangcucai

    trangcucai Moderator

    Gia nhập:
    23/5/15
    Bài viết:
    581
    Đã được thích:
    97
    Nơi ở:
    1b Quảng Khánh, Quảng An, Tây Hồ Hà
    Web:
    Lập chỉ mục rất quan trọng, nó như là bản đồ chỉ đường cho google tiếp cận trang web của mình
  9. Sơn nhà Gia Phát

    Sơn nhà Gia Phát Top 9

    Gia nhập:
    22/8/16
    Bài viết:
    131
    Đã được thích:
    8
    Nơi ở:
    Hà Nội
    Web:
    Một bài viết rất chi tiết, cám ơn tác giả. Nhưng để áp dụng được đối với những người bước chân ngang sang SEO thì quả thực vẫn còn chút khó khăn. Tuy nhiên cũng đã áp dụng được đôi chút. Thánks
  10. haoking

    haoking Top 9

    Gia nhập:
    2/5/16
    Bài viết:
    112
    Đã được thích:
    9
    Đôi khi hiểu về code để tạo ra các thẻ meta thì sẽ là tốt nhất. Hơn là việc bạn cứ đi hỏi những điều căn bản này của seoer.
  11. benhxahoihcm

    benhxahoihcm Top 8

    Gia nhập:
    23/10/15
    Bài viết:
    316
    Đã được thích:
    35
    Nơi ở:
    thiet ke shop Viky Design
    Web:
    Thông tin rất hữu ích, cảm ơn Admin đã chia sẻ :D.
  12. Máy chiếu VNPC

    Máy chiếu VNPC Top 8

    Gia nhập:
    26/1/16
    Bài viết:
    289
    Đã được thích:
    27
    Nơi ở:
    73/4 Tân Sơn Nhì - Q.Tân Phú - TP.HCM
    Web:
    Nếu muốn chặn nhiều url có cấu trúc giống nhau hoặc thư mục nào đó trên hosting để botsearch không index được thì xài Disallow trên file robots.txt là chuẩn rồi.
  13. unicharm

    unicharm Top 10

    Quan trọng là cái thẻ meta robots . file robots txt là phải có sau khi làm web và trước khi bắt đầu SEO rồi.
    Chủ yếu cho google nó hướng đến key chính mà mình cần SEO .
    Khi tạo file robot txt cần chú ý :

    - Không sử dụng quá một thư mục trong dòng lệnh Disallow
    - Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng.
    - Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác "nhòm ngó". nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index!
    Admin thích bài này.
  14. devondale

    devondale Top 8

    Gia nhập:
    13/3/17
    Bài viết:
    120
    Đã được thích:
    29
    Web:
    Em cập nhật khoảng 1 tuần là nó cập nhật nhé bác. Webmaster tool cứ 1 tuần cập nhật 1 lần mà
  15. khaitauvd

    khaitauvd Top 9

    Gia nhập:
    6/9/15
    Bài viết:
    68
    Đã được thích:
    1
    Web:
    theo bạn file robots chuẩn cho wordpress 2017 như thế nào
  16. zimmypro88

    zimmypro88 Top 9

    Gia nhập:
    31/8/13
    Bài viết:
    212
    Đã được thích:
    15
    Có nên chặn file JS và CSS không cả nhà?
  17. Lư Khúc Thành

    Lư Khúc Thành Top 9

    Gia nhập:
    29/3/18
    Bài viết:
    69
    Đã được thích:
    1
    Khi bạn up lên là robots.txt nó đã thay đỗi rồi chứ đâu có chờ gì nữa đâu bác.
    Last edited: 28/4/18

Nội quy khi thảo luận:

Dù bạn có cố tình spam bằng cách nào khi BQT diễn đàn phát hiện sẽ lập tức banned nick và xoá toàn bộ bài viết của bạn. Ngoài ra khi phát hiện ra Spam hãy gửi thông báo cho BQT diễn đàn. Hãy suy nghĩ trước khi hành động..!
✓ Khi muốn trả lời ai đó, bạn gõ @ cộng thêm nick diễn đàn của người đó phía sau @, giống như tag tên trên Facebook.
✓ Yêu cầu khi bình luận, bạn phải gõ chữ rõ ràng, không viết tắt, gõ tiếng Việt đầy đủ dấu câu.
✓ Nên dùng font chữ mặc định của diễn đàn, không tô màu lòe loẹt hay dùng size chữ quá lớn khi bình luận.
✓ Bài viết, comment... không được phép quảng cáo dịch vụ, rao vặt, pr... Loại trừ ở chuyên mục Rao vặt đã cho phép.
✓ Nghiêm cấm các chủ đề dạng: Cứu em với, help me, giật tít, câu view... dưới mọi hình thức.
✓ Tất cả các thành viên tham gia diễn đàn cần đọc kỹ Nội quy chung và nghiêm túc tuân thủ.


Chia sẻ trang này

Đang tải...