1. Hiện tại có một số member mạo danh BQT để giao dịch trên diễn đàn và đã LỪA ĐẢO khá nhiều tại chuyên mục Adwords... Mọi người cảnh giác và đọc bài: Giới thiệu giao dịch đảm bảo bởi @Admin

Cải thiện việc crawl và index của trang web

Thảo luận trong 'Onpage Seo - Tối ưu các yếu tố trên trang web' bắt đầu bởi thegioiseo, 21/7/16.

Lượt xem: 26,292
  1. thegioiseo

    thegioiseo Điều Hành Viên

    Gia nhập:
    22/5/11
    Bài viết:
    1,206
    Đã được thích:
    2,687
    (Thegioiseo) - Craw và index - đây là hai nhiệm vụ chính của Google bot. Webmaster có thể tạo thuận lợi cho việc index trang web của họ bằng cách tạo ra một số thay đổi. Điều này cho phép bot có thể thực hiện công việc một cách kỹ lưỡng và cung cấp cho các trang web cơ hội để xếp hạng tốt hơn. 5 bước dưới đây có thể giúp bạn tối ưu hóa trang web của bạn và trang web của bạn có thể được tìm thấy dễ dàng hơn trên web.

    slide

    1. Khái niệm cơ bản

    1.1. Robots.txt

    Robots.txt là một tập tin văn bản đơn giản hướng dẫn Google bot index các trang web của bạn. Đây là những khu vực thường xuyên chứa dữ liệu nhạy cảm, chẳng hạn như tài khoản và đăng nhập của khách hàng, nó không cần phải được index.

    Khi tạo ra tập tin robots.txt, điều quan trọng là phải đảm bảo các bot có quyền truy cập vào tất cả các nguồn tài nguyên cần thiết để hiển thị một cách chính xác trang web của bạn. Ví dụ, bạn nên tránh chặn CSS hay JavaScript trong robots.txt.

    Nếu bạn muốn loại bỏ một thư mục cụ thể từ crawl, trong robots.txt bạn sử dụng mã sau đây:
    Dấu * là một ký tự đại diện, nó sẽ đại diện cho tất cả các nội dung khác liên quan đến thư mục này. Sau khi tạo ra file robots.txt, bạn cần phải lưu nó trong thư mục gốc của trang web:

    www.thegioiseo.com/robots.txt

    Tip:

    Sử dụng Google Search Console để kiểm tra robots.txt của bạn. Xin lưu ý điều này đòi hỏi bạn đã đăng ký website vào Search Console.

    Cai thien viec crawl va index cua trang web

    1.2. XML Sitemap

    Bên cạnh robots.txt, có một tập tin mà đóng một vai trò quan trọng cho việc index đó là XML Sitemap. Đây là một tập tin máy có thể đọc được danh sách tất cả các URL trên trang web của bạn. Những dữ liệu có cấu trúc được tạo ra bằng hình thức văn bản và lưu dưới định dạng XML. Tập tin này cũng cho phép bạn truyền tải thêm các thông tin khác ngoài các URL, chẳng hạn như khi các URL khác nhau được cập nhật cuối cùng.

    Sau khi bạn đã tạo ra tập tin XML, thêm nó vào Google Search Console để thông báo cho Google URL hiện có. Tuy nhiên, XML sitemap chỉ nên bao gồm các URL đến Google và không cung cấp cho bot hướng dẫn như trong tập tin robots.txt. Do đó, Google sẽ bỏ qua các nội dung của tập tin khi index trang web.

    XML sitemap thường được xử lý kém mặc dù thực tế nó rất hữu ích trong việc index các trang web mới. Ví dụ, nếu bạn có nội dung mới trên trang web mà không được liên kết với nhau, sử dụng sitemap để thông báo cho Google về nội dung này.

    Cai thien viec crawl va index cua trang web 2

    Có nhiều cách khác nhau để tạo ra một sitemap. Một số CMS thậm chí đi kèm với các công cụ có liên quan để tạo ra sitemap tự động. Bạn cũng có thể sử dụng bất kỳ chương trình miễn phí có sẵn.

    Sau khi sitemap đã sẵn sàng, lưu nó vào thư mục gốc của trang web của bạn:

    www.thegioiseo.com/sitemap.xml

    Nén sitemap hoặc lưu nó tự động để tiết kiệm không gian trên máy chủ.

    Google khuyên nên tách sitemap nếu bạn có hơn 50.000 URL. Trong trường hợp này, bạn cần sử dụng một chỉ số và tạo ra một “sitemap of the sitemap”. Các chỉ số sitemap nên chứa tất cả các liên kết đến các XML sitemap khác nhau. Điều này có thể trông giống như:

    Cai thien viec crawl va index cua trang web 3
    Sau đó bạn nên tải tập tin vào Search Console để cho phép Google re-crawl sub-pages.

    Nếu bạn có rất nhiều video và hình ảnh trên trang web của bạn, bạn cũng nên kiểm tra việc index bằng cách tạo ra sitemap riêng biệt cho những hình ảnh và video. Cấu trúc của một XML sitemap cho các tập tin truyền thông là tương tự như sitemap thông thường.

    Tip:

    Trong nhiều trường hợp, bạn muốn trang web của bạn phải được re-crawl càng sớm càng tốt sau khi bạn đã thực hiện một vài thay đổi. Google Search Console sẽ giúp bạn trong những trường hợp như thế này. Chức năng này giới hạn 500 URL mỗi tháng cho một trang web.

    Cai thien viec crawl va index cua trang web 4

    2. Sử dụng ngân sách crawl

    Google bot là một chương trình máy tính được thiết kế để follow các liên kết, thu thập URL và sau đó giải thích, phân loại và index nội dung. Để làm được điều này, bot có một ngân sách crawl giới hạn. Số lượng các trang được crawl và index phụ thuộc vào thứ hạng trang của trang web tương ứng.

    Kiến trúc trang web được tối ưu hóa sẽ làm cho bot làm việc dễ dàng hơn nhiều. Đặc biệt, hệ thống phân cấp giúp bot truy cập tất cả các webpage có sẵn.

    Việc crawl có thể bị ảnh hưởng bởi cách sử dụng các liên kết internal của bạn. Với menu điều hướng bạn có thể cung cấp cho bot các gợi ý về cách URL sử dụng các liên kết sâu trong văn bản. Bằng cách này, các liên kết trỏ đến nội dung quan trọng từ trang chủ của bạn sẽ được crawl nhanh hơn. Việc sử dụng các thẻ anchor để mô tả mục tiêu liên kết cung cấp thêm thông tin cho bot và cách để chúng phân loại nội dung.

    Để bot có thể thu thập nội dung của bạn nhanh hơn, bạn có thể sử dụng h-tags. Ở đây, bạn nên đảm bảo cấu trúc trong thẻ được đặt theo thứ tự. Điều này có nghĩa là sử dụng thẻ h1 cho tiêu đề chính và sau đó là h2, h3... cho các subheadings của bạn.

    Nhiều CMS và những nhà thiết kế web sử dụng h-tags để định dạng kích thước tiêu đề trang của họ. Điều này có thể gây nhầm lẫn cho Google bot khi crawl. Bạn nên sử dụng CSS để xác định kích thước font chữ độc lập với nội dung.

    3. Tránh để bot đi đường vòng

    Bất cứ khi nào Google bot gặp một trang lỗi, nó không thể follow bất kỳ các liên kết khác và do đó nó sẽ trở lại và bắt đầu lại từ một trang khác. Các trình duyệt hoặc trình thu thập thường không thể tìm thấy một URL sau khi các nhà vận hành trang web xóa sản phẩm từ cửa hàng trực tuyến của họ hoặc sau khi thay đổi URL. Trong trường hợp này, máy chủ trả về một mã lỗi 404 (không tìm thấy). Tuy nhiên, số lượng lỗi lớn như vậy tiêu tốn một phần ngân sách crawl rất lớn. Các webmaster phải sửa chữa những lỗi đó một cách thường xuyên (xem mục 5).

    Các trang Orphan là những trang không có các liên kết inbound internal nhưng có thể có các liên kết external. Các bot không thể thu thập các trang đó hoặc đột ngột buộc phải dừng lại việc crawl. Nó tương tự như một lỗi 404, bạn nên cố gắng tránh các trang này. Những trang này thường là do sai sót trong thiết kế web hoặc cú pháp cảu các liên kết internal không còn chính xác.

    4. Tránh trùng lặp nội dung

    Theo Google, nội dung trùng lặp là một điều không tốt đối với họ. Nếu SEO hoặc webmaster không làm bất cứ điều gì, công cụ tìm kiếm sẽ đi về phía trước và bỏ qua những nội dung đó. Việc theo dõi và kiểm soát cách Google xử lý các nội dung bằng cách sử dụng 3 biện pháp sau:

    - Chuyển hướng 301: nội dung trùng lặp có thể xảy ra rất nhanh chóng, đặc biệt nếu đó là phiên bản www. Điều tương tự cũng áp dụng cho các kết nối được bảo đảm thông qua https. Để tránh việc trùng lặp nội dung, bạn nên sử dụng chuyển hướng 301 để trỏ đến phiên bản ưa thích của trang web. Điều này đòi hỏi bạn phải sửa đổi tập tin .htaccess của bạn cho phù hợp hoặc bổ sung thêm phiên bản ưa thích trong Google Search Console.

    - Thẻ Canonical: các cửa hàng trực tuyến có nguy cơ trùng lặp nội dung rất cao. Để giải quyết vấn đề này, bạn có thể sử dụng thẻ canonical. Thẻ này sẽ thông báo cho Google bot về các phiên bản URL gốc phải được index. Có những công cụ khác nhau mà bạn có thể sử dụng để kiểm tra thẻ canonical của bạn. Những công cụ này giúp bạn xác định các trang không có thẻ canonical hay những thẻ canonical bị lỗi. Lý tưởng nhất, mỗi trang cần phải có một thẻ canonical.

    - Thẻ rel=alternate: thẻ này rất hữu ích nếu trang web có sẵn các ngôn ngữ khác nhau hoặc nếu bạn có một phiên bản desktop và mobile trên trang web của bạn. Thẻ này sẽ thông báo cho Google bot về một URL được thay thế.

    5. Monitoring: khắc phục nhanh

    Thường xuyên kiểm tra dữ liệu trong Google Search Console luôn là một cách tốt để biết cách Google crawl và index trang web của bạn. Search Console cung cấp rất nhiều lời khuyên giúp bạn tối ưu hóa trang web của bạn.

    Cai thien viec crawl va index cua trang web 5

    Dưới “crawl errors”, bạn sẽ sẽ tìm thấy một danh sách chi tiết tất cả các lỗi 404 và cái gọi là “Soft 404 errors". Soft 404 errors không được hiển thị một cách chính xác và máy chủ không trả lại bất kỳ mã lỗi nào.

    Cai thien viec crawl va index cua trang web 6

    Bên cạnh “Fetch as Google” và “robots.txt Tester”, công cụ “URL parameters” cũng có thể rất hữu ích. Nó cho phép các webmaster và SEO xác định cách Google bot xử lý các thông số cụ thể của một URL. Ví dụ, xác định tầm quan trọng một thông số cụ thể của URL giúp bạn tối ưu hóa hơn nữa ngân sách crawl của bot.

    Kết luận

    Các tùy chọn được giải thích trong bài viết này sẽ giúp bạn tối ưu hóa trang web của bạn để được crawl và index bởi Google bot. Và điều này sẽ làm cho trang web của bạn dễ dàng được tìm thấy trên Google. Như vậy, các tùy chọn nói trên thiết lập những nguyên tắc cơ bản để trang web thành công, vì vậy không có gì sẽ ngăn cản bạn đến con đường xếp hạng tốt hơn.

    Ghi nguồn www.thegioiseo.com khi đăng tải lại bài viết này.
    Bài viết có tham khảo và sử dụng nội dung từ Onpage và SEL.
    Link: Cải thiện việc crawl và index của trang web.

    thungthung12, huyenmy and Admin like this.
  2. huyenmy

    huyenmy Top 8

    Gia nhập:
    21/8/15
    Bài viết:
    612
    Đã được thích:
    89
    Web:
    thường thì những nội dung trùng lặp trên 1 website hay bị google loại bỏ bớt đi, vậy có công cụ nào có thể check được các nội dung trên toàn site để biết nó có bị trùng lặp hay không?
  3. thungthung12

    thungthung12 Top 9

    Gia nhập:
    22/8/15
    Bài viết:
    126
    Đã được thích:
    9
    Web:
    đây là những điều vô cùng cần thiết để trước khi xuất bản web đến người dùng. với một seoer chuyên nghiệp thì làm mấy điều này thật đơn giản nhưng với nhiều bạn mới vào nghề seo thì điều này thật không đơn giản để có thể tạo chuẩn được.
  4. bmw2013

    bmw2013 Top 9

    Gia nhập:
    16/6/16
    Bài viết:
    87
    Đã được thích:
    13
    Web:
    bạn có thể dùng chính webmastertool có phần thông báo trùng lặp tiêu đề, mô tả, nội dung nhé
    hoặc WebSite Auditor tích hợp trong bộ ứng dụng của Power Suit
  5. thienbao

    thienbao Top 9

    Gia nhập:
    24/8/15
    Bài viết:
    444
    Đã được thích:
    14
    tui sợ nhất là bị dính chưởng việc trùng lặp nội dung. copy có 1 bài mà seo hoài ko lên nổi :(
  6. nguyenminhtam

    nguyenminhtam Top 9

    Gia nhập:
    28/5/16
    Bài viết:
    61
    Đã được thích:
    2
    mình mới vào nghề seo, đúng là làm được điều đó không hề dễ
  7. nguyenhuutinh1992

    nguyenhuutinh1992 Top 7

    Gia nhập:
    26/9/13
    Bài viết:
    1,778
    Đã được thích:
    165
    Web:
    Craw thì sợ nhất nhà Craw errors có những URL dù đã redriect rồi nhưng nó vẫn báo lỗi liên tục làm ảnh hưởng khá nhiều đến thứ hạng site và sự tăng hạng của từ khóa.
  8. seo4u

    seo4u Top 9

    Gia nhập:
    1/4/15
    Bài viết:
    249
    Đã được thích:
    14
    Nơi ở:
    Hà Nội
    Web:
    Một bài viết khá hay, mảng này không nhiều người để ý, nhưng nó lại là một yếu tố quan trọng trong việc xếp hạng từ khóa của Google.

    Các file đính kèm:

  9. haopro

    haopro Top 8

    Gia nhập:
    2/8/13
    Bài viết:
    366
    Đã được thích:
    26
    Web:
    cái sitemap site tớ nó cắt ra làm 2 giờ phải làm sao mấy bạn, sitemap1.xml va sitemap2.xml , mình dùng wordpress và dung plguin yoseo
  10. tuanti886

    tuanti886 Top 9

    Gia nhập:
    8/7/16
    Bài viết:
    95
    Đã được thích:
    10
    Mình cũng bị 404 khá nhiều mà tích vào cái đánh dấu là cố định nó mất đi nhưng hình như một thời gian sau lại quay lại sao ý.bác biết làm cách nào cho hết hẳn không
  11. trungphucqndk

    trungphucqndk Top 9

    Gia nhập:
    11/5/16
    Bài viết:
    47
    Đã được thích:
    4
    Thực tế tốc độ load trang ảnh hưởng rất nhiều đến khả năng index, nếu load quá chậm thì bot nó bỏ qua link luôn.
  12. duasap

    duasap Top 10

    Gia nhập:
    16/6/16
    Bài viết:
    16
    Đã được thích:
    1
    Web:
    Cái này không biết hiệu quả ra sao
  13. nhuaduong

    nhuaduong Seo Newbie

    Gia nhập:
    23/7/16
    Bài viết:
    2
    Đã được thích:
    0
    Web:
    File robots.txt của website mình ban có 1 lúc sitemap.xml và sitemap_index.xml có vấn đề gì không ạ
  14. Vinaseo.edu.vn

    Vinaseo.edu.vn Top 9

    Gia nhập:
    8/6/16
    Bài viết:
    42
    Đã được thích:
    8
    Bạn vào google gửi sitemaps là ok thôi bạn.
  15. Máy chiếu VNPC

    Máy chiếu VNPC Top 8

    Gia nhập:
    26/1/16
    Bài viết:
    289
    Đã được thích:
    27
    Nơi ở:
    73/4 Tân Sơn Nhì - Q.Tân Phú - TP.HCM
    Web:
    Làm website code tay thì ngoài file robots.txt ra là tạo nhanh chóng và duy nhất một lần thì file sitemap.xml cứ phải cập nhập online rồi tải file về và upload lên hosting đè file cũ hoài, còn như wordpress thì chỉ cần cài plugin tạo sitemap là xong và nó cập nhập tự động nữa nên rất thuận lợi cho việc định hình site.
  16. haopro

    haopro Top 8

    Gia nhập:
    2/8/13
    Bài viết:
    366
    Đã được thích:
    26
    Web:
    bài viết rất chi tiết, rất hay ad ạ . Tớ thấy bài này các mem mới nên đọc và làm ngay luôn đi
  17. mình mới làm seo, mà thấy nhiều link của mình nó bị lỗi trùng lặp, muốn chuyển hướng nó về link chính xác mà chưa biết làm thế nào cả. Nhân đây mong mọi người chỉ giáo để tối ưu lại vs ạ!
  18. cách này của bác hay quá, em đang mầy mò và áp dụng xem như thế nào đây. Thanks bác trước nhé!
  19. nguyenminhtam

    nguyenminhtam Top 9

    Gia nhập:
    28/5/16
    Bài viết:
    61
    Đã được thích:
    2
    mình cũng đang chờ kết quả đây
  20. vannguyen

    vannguyen Top 8

    Gia nhập:
    5/4/15
    Bài viết:
    305
    Đã được thích:
    34
    Theo kinh nghiệm và khảo sát của mình thì cái lệnh được gửi trong file XML Sitemap không có giá trị cao bằng đặt code trong html của code

Nội quy khi thảo luận:

Dù bạn có cố tình spam bằng cách nào khi BQT diễn đàn phát hiện sẽ lập tức banned nick và xoá toàn bộ bài viết của bạn. Ngoài ra khi phát hiện ra Spam hãy gửi thông báo cho BQT diễn đàn. Hãy suy nghĩ trước khi hành động..!
✓ Khi muốn trả lời ai đó, bạn gõ @ cộng thêm nick diễn đàn của người đó phía sau @, giống như tag tên trên Facebook.
✓ Yêu cầu khi bình luận, bạn phải gõ chữ rõ ràng, không viết tắt, gõ tiếng Việt đầy đủ dấu câu.
✓ Nên dùng font chữ mặc định của diễn đàn, không tô màu lòe loẹt hay dùng size chữ quá lớn khi bình luận.
✓ Bài viết, comment... không được phép quảng cáo dịch vụ, rao vặt, pr... Loại trừ ở chuyên mục Rao vặt đã cho phép.
✓ Nghiêm cấm các chủ đề dạng: Cứu em với, help me, giật tít, câu view... dưới mọi hình thức.
✓ Tất cả các thành viên tham gia diễn đàn cần đọc kỹ Nội quy chung và nghiêm túc tuân thủ.


Chia sẻ trang này

Đang tải...