1. Hiện tại có một số member mạo danh BQT để giao dịch trên diễn đàn và đã LỪA ĐẢO khá nhiều tại chuyên mục Adwords... Mọi người cảnh giác và đọc bài: Giới thiệu giao dịch đảm bảo bởi @Admin

Tìm hiểu tập tin robots.txt để tránh rò rỉ URL và mất lưu lượng truy cập

Thảo luận trong 'Onpage Seo - Tối ưu các yếu tố trên trang web' bắt đầu bởi thegioiseo, 22/12/15.

Lượt xem: 3,458
  1. thegioiseo

    thegioiseo Điều Hành Viên

    Gia nhập:
    22/5/11
    Bài viết:
    1,206
    Đã được thích:
    2,688
    (Thegioiseo) - Hôm nay tôi sẽ chia sẻ quá trình xử lý sự cố của mình để xác định các vấn đề với robots.txt khiến lưu lượng truy cập trên trang web của tôi đã bị giảm trong một thời gian dài.

    Trước đây tôi cũng đã viết rất nhiều về các vấn đề kỹ thuật SEO có thể dẫn đến sự sụt giảm nghiệm trọng về thứ hạng và lưu lượng truy cập. Từ thẻ meta robots đến rel=canonical đến cloaked 404s và một số vấn đề khác có thể gây thiệt hại nghiêm trọng cho trang web của bạn.

    slide

    Vậy chuyện gì đã xảy ra? Và tầm quan trọng của việc kiểm soát tập tin robots.txt của bạn là gì?

    Khi nói chuyện với khách hàng về những mối nguy hiểm SEO, tôi thường đề cập đến tập tin robots.txt. Đó là một tập tin văn bản đơn giản nhưng nó có tác động lớn trên những nỗ lực SEO của bạn nếu không được xử lý một cách chính xác.

    Mặc dù hầu hết các SEO hiểu rằng việc chối bỏ trong robot.txt sẽ gây ra vấn đề lớn, có nhiều tình huống khác có thể gây ra vấn đề.

    Một số có thể xảy ra từ từ và khiến các URL quan trọng bị rò rỉ khỏi chỉ mục của Google - và nếu những URL là quan trọng thì bạn đã gặp một vấn đề lớn.

    Lưu lượng truy cập giảm, thứ hạng bị cuốn đi và URL bị deindex

    Một công ty đã tìm đến với tôi sau khi nhận thấy một số từ khóa quan trọng của họ không còn được xếp hạng. Họ đã vô cùng lo lắng về điều này.

    Nhưng với nhiều thay đổi xảy ra với Google, thứ hạng bị giảm có phải là tất cả với họ? Có lẽ đó là một bản cập nhật thuật toán hoặc có thể là một trò chơi của họ hoặc có thể là một vấn đề kỹ thuật nào đó gây ra sự sụt giảm về bảng xếp hạng. Vì vậy, tôi đã vào cuộc để thực hiện công việc điều tra.

    Khi đi sâu vào phân tích tình hình, tôi nhanh chóng kiểm tra các URL được xếp hạng một lần với các từ khóa đó. Thú vị là một số URL vẫn được xếp hạng trong khi một số khác thì không thể được tìm thấy. Có một số URL đã bị biến mất khỏi chỉ mục của Google.

    Tim hieu tap tin robots

    Vì vậy, tôi đã kiểm tra thẻ meta robots. Tôi đã kiểm tra tiêu đề x-robots để đảm bảo noindex không được xuất hiện trong header.

    Sau đó, tôi kiểm tra các URL. Về cơ bản, CMS không sử dụng các URL "đẹp" cho một tỷ lệ lớn các trang web (được thiết lập dựa trên CMS).

    Tôi đã bắn lên robots.txt Tester trong Google Search Console (GSC) và bắt đầu thử nghiệm các loại URL. Một số URL được hiển thị như kiểu bị chặn trong khi một số khác hiển thị là cho phép.

    Tim hieu tap tin robots 2

    Tôi cũng export một danh sách các URL mà trước đó đã nhận được lưu lượng truy cập từ Google và thu thập chúng. Điều đó giúp tôi có thể xem bất kỳ URL hiện đang bị chặn bởi robots.txt. Một lần nữa tôi nhận thấy rằng một số bị chặn và một số cho phép. Sau nhiều phân tích, tôi đã đúc kết được 2 vấn đề.

    Có 2 vấn đề quan trọng: trường hợp nhạy cảm và những thay đổi trực tiếp từ bên thứ 3

    Xem lại file robots.txt và tôi đã nhận thấy 2 vấn đề chính này.

    Đầu tiên, chỉ thị mới đã được thêm vào robots.txt bởi nhà cung cấp CMS, và chủ sở hữu trang web không nhận thấy rằng nó đã xảy ra. Trang web có hàng chục ngàn các URL được index, vì vậy ngay cả một thay đổi nhỏ trong chỉ thị robots.txt có thể là nguy hiểm.

    Thứ 2, chỉ thị này đã thay đổi một chút. Điều đó có nghĩa là những chỉ thị nhầm lẫn có thể bị bỏ lỡ các URL trên trang web.

    Ví dụ, nếu bạn nhắm mục tiêu vào các directory /Category/ nhưng thư mục là /CATEGORY/, sau đó bạn sẽ không cho phép các URL được giải quyết trong thư mục /Category/, đây là một thư mục nhạy cảm. Đó là một điểm quan trọng cần lưu ý cho mọi SEO, webmaster và chủ doanh nghiệp. Xem ảnh chụp màn hình dưới đây.

    Tim hieu tap tin robots 3

    Nguy hiểm của việc rò rỉ chậm

    Giữa các thư mục được thêm hoặc bị xóa, công ty này đã vô tình chối bỏ các URL quan trọng. Khi URL bị chối bỏ, Google không thể thu thập dữ liệu trang để xác định các nội dung mà họ có và điều này đã khiến cho một số URL bị giảm khỏi chỉ mục của Google theo thời gian. Điều này là không tốt.

    John Mueller nói về robots.txt

    Vào tháng 8, trong Google Webmaster Trends Analyst, John Mueller đã dành riêng hangout này để nói về robots.txt. Với những người có liên quan với kỹ thuật SEO thì cần phải xem xét.

    Lẽ ra John Mueller phải đứng ra để giải thích URL bị chối bỏ được Google xử lý như thế nào. Ví dụ, sẽ chối bỏ các URL vẫn còn trong chỉ mục, sẽ giảm và bao lâu chúng sẽ bị giảm?

    Tại phút thứ 32 trong video, John giải thích rằng Google sẽ giảm thông tin về các URL bị chối bỏ từ các lần thu thập trước đó và nó có thể index các URL với các thông tin cơ bản.

    Ngoài ra, Google có thể giảm các URL từ các chỉ mục theo thời gian. Không có gì đảm bảo rằng các URL sẽ bị giảm nhưng điều đó chắc chắn có thể xảy ra. Hãy xem video ở đây:


    Nếu bạn muốn nghe John nói về những trường hợp nhạy cảm, bạn có thể xem ở phút 13:50 trong video. Ông đã đưa ra một số điểm quan trọng về các thư mục, trường hợp nhạy cảm và các ký tự phù hợp.

    Làm thế nào để tránh việc rò rỉ URL khi thay đổi robots.txt

    Vậy làm thế nào bạn có thể tránh điều này xảy ra trên trang web của bạn? Tôi sẽ cung cấp một số lời khuyên dưới đây để giúp bạn hiểu khi thay đổi được thực hiện trong tập tin robots.txt của bạn và làm thế nào để phát hiện ra nếu các URL được sử dụng để lái lưu lượng truy cập mà đang bị chối bỏ bởi robots.txt.

    - Thu thập thông tin và audit trang web của bạn thường xuyên. Tôi đã nói điều này rất nhiều trong thời gian gần đây. Bạn càng thu thập trang web của bạn càng nhiều thì bạn càng hiểu về điểm mạnh, điểm yếu và rủi ro trên trang web của bạn. Và như là một phần của việc thu thập dữ liệu, bạn có thể xem các URL bị chối bỏ thông qua một công cụ (ví dụ như Screaming Frog, DeepCrawl và một vài công cụ khác). Bạn chỉ có thể lấy các URL quan trọng đang bị chặn. Nếu vậy, hãy đào sâu và tìm ra gốc rễ của vấn đề.

    - Lịch sử thay đổi robots.txt. Bạn có thể yêu cầu thông báo từ nhà cung cấp của bạn bất cứ khi nào CMS được thay đổi với tập tin robots.txt của bạn. Nếu họ có thể gửi email hoặc tin nhắn cho bạn về những thay đổi thì bạn có thể nhanh chóng kiểm tra chúng. Và bạn có thể di chuyển một cách nhanh chóng để khắc phục mọi vấn đề.

    - Tự động phát hiện những thay đổi trong tập tin robots.txt. Bạn cũng có thể sử dụng một dịch vụ để ping tập tin robots.txt của bạn hàng ngày. Bất cứ khi nào có một sự thay đổi gì đó thì nó sẽ gử email cho bạn. Sau đó, bạn có thể xem xét và thực hiện thay đổi khi cần thiết. Nó giống như một Google Alert về kỹ thuật SEO. Ví dụ, Robotto có thể phát hiện một số thay đổi quan trọng và thông báo cho bạn.

    Tim hieu tap tin robots 4

    - Audit Google Search Console (GSC) liên tục. Bạn phải liên tục audit báo cáo Google Search Console. Có một số báo cáo có thể giúp bạn xác định những vấn đề mới với trang web của bạn từ góc độ kỹ thuật SEO. Với tình huống này, sử dụng robots.txt Tester trên các URL quan trọng sẽ giúp đỡ bạn. Bạn cũng có thể kiểm tra Index Status với “blocked by robots", nó có thể tiết lộ về sự gia tăng về số lượng các URL bị chặn bởi robots.txt. Và sau đó bạn có thể kiểm tra Smartphone Crawl Errors với “Blocked”. Điều này có thể được tìm thấy trong tab Smartphone nhưng hoàn toàn có thể liên quan đến URL destop,

    - Sử dụng Wayback Machine để kiểm tra robots.txt. Vâng, bạn có thể sử dụng nó để xem lại tập tin robots.txt của bạn theo thời gian. Với nhiều trang web, bạn sẽ thấy những phiên bản khác nhau của robots.txt trên các website. Nó có thể cung cấp một manh mối quan trọng về việc các trang bị giảm truy cập.

    Tim hieu tap tin robots 5

    Tóm lại

    Như bạn có thể thấy với trường hợp này, những thay đổi kỹ thuật SEO có thể có một tác động lớn trên bảng xếp hạng và lưu lượng truy cập. Mặc dù robots.txt là một tập tin văn bản đơn giản, các chỉ thị của nó có thể chặn các URL quan trọng (có thể dẫn đến việc URL bị giảm khỏi chỉ mục của Google).

    Và nếu những trang bị giảm khỏi chỉ mục, chúng sẽ không có cơ hội xếp hạng. Và không có cơ hội xếp hạng thì đồng nghĩa với việc chúng không thể lái lưu lượng truy cập. Do vậy, hãy làm theo các khuyến cáo của tôi ở trên và tránh việc các URL bị rò rỉ.


    olalavuiAdmin thích bài này.
  2. evnbay

    evnbay Top 7

    Gia nhập:
    29/2/12
    Bài viết:
    561
    Đã được thích:
    145
    Web:
    File robot.txt cũng khá là quan trọng nếu không chú ý có thể khiến cho website của mình không đưowjc index nữa vì thế nếu muốn chặn thư mục nào ko cho index hãy lựa chọn chính xác mục đó tránh việc bị chặn toàn bộ
  3. thienbao

    thienbao Top 9

    Gia nhập:
    24/8/15
    Bài viết:
    444
    Đã được thích:
    14
    Biết file robots quan trọng nhưng bài viết chỉ cách kiểm tra mình còn thấy mơ hồ quá, chủ thớt có thể tạo 1 bài viết nói chi tiết từng bước làm được không?
  4. haikv240987

    haikv240987 Top 8

    Gia nhập:
    20/11/13
    Bài viết:
    503
    Đã được thích:
    45
    Web:
    kiểu này chắc phải thường xuyên cập nhật lại file robot.txt quá nhỉ
  5. miencotich

    miencotich Top 9

    Gia nhập:
    10/6/15
    Bài viết:
    86
    Đã được thích:
    10
    Web:
    Dân Việt Nam mình giờ đa phần sử dụng các mã nguồn mở free để thiết kế website như Wordpress, Joomla, Drupal... các mã nguồn này đều có các plugin hỗ trợ tạo ra file robots.txt một cách tối ưu nhất nên các Seoer không cần quan tâm nhiều lắm tới file này.
  6. tunghapoco

    tunghapoco Top 9

    Gia nhập:
    22/12/15
    Bài viết:
    55
    Đã được thích:
    3
    Nơi ở:
    Hải Phòng
    Web:
    thế này nguy hiểm quá , chắc phải cập nhật lại file mất
  7. huuphathd

    huuphathd Top 9

    Gia nhập:
    14/3/15
    Bài viết:
    269
    Đã được thích:
    6
    Web:
    Cách cập nhập làm sao nhỉ, có bạn nào hướng dẫn cụ thể giúp mình tí không :(
  8. trangpt

    trangpt Seo Newbie

    Gia nhập:
    3/7/15
    Bài viết:
    4
    Đã được thích:
    0
    Web:
    Cập nhật và chỉnh sửa file robots.txt như thế nào? file này mình chẳng biết gì về nó cả :((
  9. nguyenanhtuan2607

    nguyenanhtuan2607 Top 9

    Gia nhập:
    26/11/15
    Bài viết:
    63
    Đã được thích:
    12
    Nơi ở:
    Đường Phạm Văn Bạch - Quận Tân Bình - TPHCM
    Web:
    Một lên thẳng google webmaster mà update thêm, hai là vào thẳng host tìm đến file robot bạn up trước đó mà update.
  10. nguyenanhtuan2607

    nguyenanhtuan2607 Top 9

    Gia nhập:
    26/11/15
    Bài viết:
    63
    Đã được thích:
    12
    Nơi ở:
    Đường Phạm Văn Bạch - Quận Tân Bình - TPHCM
    Web:
    thấy web bạn có sitemap mà file robot không update đường dẫn cho sitemap he. file robots cũng như là một tiếp tân, google là khách. khách vào sẽ gặp tiếp tân đầu tiên , sau đó mới đến cái khác. rất quan trọng.
  11. sakura_ngoz

    sakura_ngoz Top 9

    Gia nhập:
    4/9/13
    Bài viết:
    115
    Đã được thích:
    6
    Web:
    Có 1 mẫu chuẩn nào của file robots.txt k các bác
    em lên mạng tìm thấy nhìu kiểu quá
    cơ bản thì hiểu nhưng k bjt mẫu chuẩn mực thế nào
    nhiều khi kiểm tra trong google master tool thấy bị chặn bởi robots nhưng k hiểu lắm
  12. nguyenanhtuan2607

    nguyenanhtuan2607 Top 9

    Gia nhập:
    26/11/15
    Bài viết:
    63
    Đã được thích:
    12
    Nơi ở:
    Đường Phạm Văn Bạch - Quận Tân Bình - TPHCM
    Web:
    Mỗi web cấu trúc thư mục khác nhau mà

    User-agent: *
    Disallow: /cgi-bin/
    Sitemap:
  13. Thanh Lan

    Thanh Lan Top 9

    Gia nhập:
    3/11/15
    Bài viết:
    113
    Đã được thích:
    2
    Phải cập nhật file thôi. Nguy hiểm quá đi mất.
  14. seoerhlv

    seoerhlv Top 9

    Gia nhập:
    4/4/13
    Bài viết:
    508
    Đã được thích:
    4
    Web:
    file robots.txt chỉ chặn ko cho index thôi chứ. nếu website có lượt truy cập bình thường mà file robots ko thay đổi thì lượt truy cập giảm thì làm sao liên quan tới file robots dc chứ các bạn
  15. thangemxuananh

    thangemxuananh Top 9

    Gia nhập:
    18/11/15
    Bài viết:
    224
    Đã được thích:
    23
    Web:
    mới làm seo nên vẫn chưa hiểu rõ về tập tin robots, đọc bài chia sẻ của bác thì hiểu thêm được chút ít, bắt đầu thấy hơi lo rồi, chắc phải cần thận hơn :(
  16. dogdong

    dogdong Seo Newbie

    Gia nhập:
    22/12/15
    Bài viết:
    5
    Đã được thích:
    0
    làm sao để kiểm tra tập tin robots được vậy mọi người
  17. What happend

    What happend Top 9

    Gia nhập:
    9/8/14
    Bài viết:
    58
    Đã được thích:
    3
    Web:
    File này quan trọng coi như nhất rồi còn gì , index hay không dựa vào file này
  18. sthaihien

    sthaihien Top 8

    Gia nhập:
    16/4/15
    Bài viết:
    1,589
    Đã được thích:
    15
    Ai không có file robots.txt thì cập nhật lại đi nha. Cái này khá là quan trọng trong việc xếp hạng :)
  19. thienbao

    thienbao Top 9

    Gia nhập:
    24/8/15
    Bài viết:
    444
    Đã được thích:
    14
    Cho mình hỏi thường trong nội dung file robot có những câu lệnh nào quan trọng nhất vậy? mình sd wordpress
  20. hoangpv90

    hoangpv90 Top 9

    Gia nhập:
    8/9/15
    Bài viết:
    81
    Đã được thích:
    10
    Web:
    Thường thì file robots.txt chỉ nên chặn một vài thứ thôi các bạn nhé, k nên chặn hết để google bot còn vô index

Nội quy khi thảo luận:

Dù bạn có cố tình spam bằng cách nào khi BQT diễn đàn phát hiện sẽ lập tức banned nick và xoá toàn bộ bài viết của bạn. Ngoài ra khi phát hiện ra Spam hãy gửi thông báo cho BQT diễn đàn. Hãy suy nghĩ trước khi hành động..!
✓ Khi muốn trả lời ai đó, bạn gõ @ cộng thêm nick diễn đàn của người đó phía sau @, giống như tag tên trên Facebook.
✓ Yêu cầu khi bình luận, bạn phải gõ chữ rõ ràng, không viết tắt, gõ tiếng Việt đầy đủ dấu câu.
✓ Nên dùng font chữ mặc định của diễn đàn, không tô màu lòe loẹt hay dùng size chữ quá lớn khi bình luận.
✓ Bài viết, comment... không được phép quảng cáo dịch vụ, rao vặt, pr... Loại trừ ở chuyên mục Rao vặt đã cho phép.
✓ Nghiêm cấm các chủ đề dạng: Cứu em với, help me, giật tít, câu view... dưới mọi hình thức.
✓ Tất cả các thành viên tham gia diễn đàn cần đọc kỹ Nội quy chung và nghiêm túc tuân thủ.


Chia sẻ trang này

Đang tải...