Google bot khác Google index ở đâu - tại sao Google ko index

Thảo luận trong 'Bing, yahoo và bộ máy tìm kiếm khác' bắt đầu bởi tienanh, 23/12/16.

  1. Các tài khoản comment câu bài, comment không ý nghĩa, đăng bài sai mục... đều bị xử lý mà không cần thông báo!
Lượt xem: 32,675
  1. tienanh

    tienanh Super Moderator

    Gia nhập:
    1/7/13
    Bài viết:
    843
    Đã được thích:
    372
    Chào mọi người, bài tổng quan về Google bot có lẽ em viết cũng khá lâu rồi, tuy nhiên vẫn chưa có thời gian chỉnh sửa cho hoàn thiện. Nhân dịp đang trong Đà Nẵng có rảnh rang đợi máy bay ở nhà đứa em, nên em cũng dành chút thời gian ngồi chỉnh chút bài tổng quan Googlebot và những điều chưa nói. Lưu ý bài này khá trừu tượng, nên anh em nào thấy không hiểu chỗ nào comment ngay hỏi em nhé.

    Google bot là gì ?

    • Googlebot là web crawler được sử dụng bởi Google.
    • Nó được sử dụng bởi Google để tìm và lấy các trang web.
    • Thông tin thu thập bằng Googlebot được sử dụng để cập nhật Google index
    Googlebot truy cập hàng tỷ trang web và liên tục truy cập vào khắp nơi trên trang web


    [​IMG]
    Google bot ( Ảnh : internet )​


    Web crawler là gì ?

    Web crawler (còn được gọi là bot, robot hoặc spiders) là một loại phần mềm được thiết kế chuyên để đi theo link, thu thập thông tin và sau đó gửi thông tin thu thập được đến một nơi nào đó.

    Google bot làm gì ?

    • Đầu tiên Google bot sẽ lấy nội dung của các trang web (từ word, code và các tài nguyên khác tạo nên trang web).
    • Tiếp đến nếu mà lấy nội dung có liên kết đến nơi khác sẽ được ghi lại
    • Sau đó bot sẽ gửi thông tin tới Google để được index và cập nhật Google index
    Googlebot và trang web của mọi người

    Thông tin mà Googlebot gửi trở lại các máy tính của Google cập nhật Google index

    Google index là nơi mà các trang web được so sánh và xếp hạng.

    Để cho trang web của mọi người được tìm thấy trong Google, họ phải được hiển thị cho Googlebot.
    Để cho trang web của mọi người để xếp hạng tối ưu, tất cả trang web tài nguyên phải được truy cập bằng Googlebot.

    Sự khác biệt giữa Googlebot và Google index

    GoogleBot
    • Googlebot lấy nội dung từ các trang web.
    • Googlebot gần như không đánh giá nội dung dù sao nó chỉ lấy nội dung thôi
    • Các mối quan tâm duy nhất Googlebot có là "bot có thể truy cập nội dung này?" và "Có bất kỳ nội dung nào đi chăng nữa bot có thể truy cập vào?"
    Google index
    • Index các thể loại nội dung mà nó nhận được từ Googlebot và sử dụng nó để xếp hạng trang web
    => Bước đầu tiên để được xếp hạng ở Google là được Google bot lấy nội dung !

    Đảm bảo Googlebot có thể xem trang của mọi người

    Google cập nhật index , đó là điều cần thiết mà Googlebot có thể nhìn thấy trang của mọi người.

    Đều mà SEOer hay webmaster nên lưu ý là :
    1. Googlebot "nhìn thấy" trang web của tôi?
    2. Googlebot truy cập vào tất cả các nội dung và liên kết của tôi ?
    3. Googlebot có thể truy cập vào tất cả tài nguyên trang của tôi ?
    1. Googlebot có "nhìn thấy" trang web của tôi ?

    Nếu mọi người không biết Google bot có thấy trang web của mọi người hay không cứ thử ra Google và tìm theo cú pháp
    site:yourwebsite.comLưu ý :

    - Mọi người thay cái yourwebsite bằng trang web của mọi người ạ, nhớ lúc dán ra thanh search là ko có http:// đâu ạ

    - Hãy chắc chắn rằng không có dấu cách giữa "site:" và tên miền của mọi người

    Ví dụ :
    site:tienanhplus.comNếu mọi người nhìn thấy index ít hơn mọi người mong đợi, mọi người sẽ phải chắc chắn rằng website của mọi người không chặn Googlebot qua robots.txt hoặc chặn nó bằng meta robots

    2. Googlebot có truy cập tất cả các nội dung và liên kết của tôi ?

    Bước tiếp theo để đảm bảo Google nhìn thấy nội dung và liên kết của mọi người một cách chính xác.

    Chỉ vì Googlebot có thể xem trang của mọi người không có nghĩa rằng Google có một hình ảnh hoàn hảo của chính xác là những gì các trang đó.

    Google bot không nhìn thấy một trang web cùng một cách như con người làm. Trong hình ảnh ở trên là một trang web với một hình ảnh trên nó. Con người có thể xem hình ảnh, nhưng những gì Googlebot thấy là code gọi hình ảnh đó.

    Googlebot có thể truy cập vào trang web đó (các tập tin html), nhưng không thể truy cập vào hình ảnh tìm thấy trên trang web đó vì nhiều lý do.

    Trong kịch bản mà Google lập chỉ mục sẽ không bao gồm hình ảnh đó, có nghĩa là Google có một sự hiểu biết không đầy đủ trang web của mọi người .

    Làm thế nào Goolebot "nhìn thấy" trang web


    Googlebot không nhìn thấy toàn bộ trang web, nó chỉ thấy các phần riêng lẻ của trang đó.

    Nếu trang bất kỳ của những phần riêng lẻ Googlebot không thể truy cập, nó sẽ không lập chỉ mục

    Như ví dụ trước đó chúng ta nhắc tới việc Google không thể đọc được hình ảnh, Google chỉ đọc được các html hoặc css, chính vì thế nó không lập chỉ mục hình ảnh.

    Nó không phải là chỉ cần hình ảnh. Có rất nhiều mảnh để một trang web. Đối với Google để có thể để xếp hạng trang web của mọi người tối ưu, Google nhu cầu bức tranh hoàn chỉnh.

    Có rất nhiều tình huống mà Googlebot có thể không có thể truy cập web nội dung, dưới đây là một vài những cái phổ biến.
    • Tài nguyên bị chặn bởi robots.txt
    • Trang liên kết không thể đọc được hoặc không chính xác
    • Phụ thuộc vào Flash hoặc công nghệ khác sinh ra lỗi thu thập dữ liệu
    • Code lỗi
    • url động quá phức tạp
    Hầu hết những điều này có thể được kiểm tra một cách nhanh chóng bằng cách sử dụng công cụ hướng dẫn của Google.

    Nếu mọi người có một tài khoản Google sử dụng công cụ "fetch và render" có trong giao diện Google search console, mọi người có thể kiểm tra nhanh chóng

    3. Googlebot truy cập tất cả tài nguyên trang của tôi ?


    Nếu tập tin CSS và javascript đang bị chặn bởi tập tin robots.txt của mọi người sau đó nó có thể gây ra một số hiểu lầm trầm trọng về nội dung trang web của mọi người (nhiều tồi tệ hơn chỉ là một hình ảnh mất tích).

    Một trang web có thể thực sự là khác nhau, hoặc có nội dung khác nhau nếu các nguồn tài nguyên trang không được nạp.

    Một ví dụ để minh họa điều này sẽ là một trang điện thoại di động sử dụng CSS hoặc javascript để xác định những gì để hiển thị tùy thuộc vào những gì điện thoại nhìn vào trang. Nếu Googlebot có thể không truy cập vào các CSS hoặc Javascript của trang đó, nó có thể không nhận ra trang có thể được điện thoại di động.

    Trong trường hợp này và những người khác như nó, Google sẽ "thấy" trang web của mọi người , và thậm chí có thể hiểu nó, nhưng nó có thể không biết nó đủ để nhận ra rằng nó có thể được xếp hạng trong nhiều trường hợp khác hơn những gì HTML một mình trình bày.

    Điều này cũng có thể được kiểm tra để sử dụng công cụ hướng dẫn của Google.

    Tôi có thể kiểm soát Googlebot?


    Googlebot theo các hướng dẫn nó nhận được thông qua các tiêu chuẩn robots.txt và thậm chí đã nâng cao cách để kiểm soát nó là Google cụ thể.

    Một số cách mọi người có thể kiểm soát Googlebot là...
    • Bằng cách sử dụng một tập tin robots.txt
    • Bao gồm hướng dẫn robot trong siêu dữ liệu của trang web của mọi người
    • Bao gồm hướng dẫn robot trong tiêu đề của mọi người
    • Bằng cách sử dụng sơ đồ trang web
    • Bằng cách sử dụng Google tìm kiếm giao diện điều khiển

    Phổ biến nhất cách bởi đến nay sử dụng các tập tin robots.txt

    Một tập tin robots.txt là gì?


    Các tập tin robots.txt kiểm soát như thế nào công cụ tìm kiếm nhện như Googlebot xem và tương tác với trang web của mọi người.

    Trong ngắn hạn, một file robots.txt cho Googlebot những việc cần làm khi nó truy cập vào trang của mọi người theo danh sách tập tin và thư mục mà mọi người không muốn Googlebot truy cập.

    Tìm hiểu thêm về nó trong hướng dẫn của tôi để các tập tin robots.txt.

    Để xem tập tin robots.txt của mọi người,mọi người có thể nhập một url (ví dụ trang chủ của mọi người) trong công cụ dưới đây và nó sẽ cho mọi người thấy nó ngay ở đây trên Trang này.

    Đây là một vài nguồn lực từ Google mà nói về robot hướng dẫn:
    • tập tin robots.txt
    • Kỹ thuật tổng quan về cách Google xử lý robots.txt
    • Thẻ meta Robots và tiêu đề
    Site map và Googlebot

    Sơ đồ trang web là một cách mà mọi người có thể giúp Googlebot hiểu trang web của mọi người, hoặc là Google nói...

    "Một sơ đồ trang web là một tập tin mà mọi người có thể liệt kê các trang web của trang web của mọi người để cho Google và các công cụ tìm kiếm về tổ chức của nội dung trang web của mọi người. Tìm kiếm web trình thu thập như Googlebot đọc tập tin này một cách thông minh hơn thu thập dữ liệu trang web của mọi người."

    Google nói rằng sơ đồ trang web tốt nhất sử dụng trong các tình huống nhất định, đặc biệt...

    • Trang web của mọi người là thực sự lớn.
    • Trang web của mọi người có một kho lưu trữ lớn của nội dung trang được cô lập hoặc tốt không được liên kết với nhau.
    • Trang web của mọi người là mới và có vài bên ngoài liên kết với nó.
    • Trang web của mọi người sử dụng nội dung đa phương tiện, được thể hiện trong Google News, hoặc sử dụng chú thích sơ đồ trang web-tương thích khác.

    Sơ đồ trang web đang được sử dụng cho nhiều điều bây giờ, nhưng như xa như Googlebot đi, sơ đồ trang web về cơ bản tạo ra một danh sách các URL và dữ liệu khác mà Googlebot có thể sử dụng làm hướng dẫn khi truy cập vào trang web của mọi người.

    Google giải thích làm thế nào để xây dựng sơ đồ trang web ở đây : https://support.google.com/webmasters/answer/183668?ref_topic=4581190

    Googlebot và Google search console

    Một nơi mọi người có thể kiểm soát Googlebot là Google search console

    Nếu Googlebot truy cập vào máy chủ web của mọi người quá nhanh, mọi người có thể thay đổi tỷ lệ thu thập dữ liệu.

    Mọi người có thể cũng xem tổng quan về làm thế nào Googlebot truy cập vào trang web của mọi người, kiểm tra robots.txt của mọi người, hãy xem Googlebot thu thập dữ liệu lỗi, và thực hiện "lấy và đưa ra" yêu cầu đó sẽ giúp mọi người hiểu cách Google nhìn thấy trang web của mọi người.

    Có chín loại khác nhau của Google webcrawlers
    • Googlebot (Google Web search)
    • Googlebot News
    • Googlebot Images
    • Googlebot Video
    • Google Smartphone
    • Google Mobile AdSense
    • Google AdSense
    • Google Ads Bot landing page quality check
    • Google app crawler
    [​IMG]
    Các loại Google bot​

    Nếu mọi người muốn chi tiết về mỗi loại mọi người hãy xem ở đây ạ : https://support.google.com/webmasters/answer/1061943

    Googlebot và ngôn ngữ / địa điểm

    Nếu trang của mọi người hiển thị các ngôn ngữ khác nhau hoặc các nội dung này tùy thuộc vào vị trí người truy cập hoặc ngôn ngữ người truy cập lựa chọn, Googlebot có thể không luôn luôn nhìn thấy tất cả các nội dung của mọi người (vì vậy mà Google khuyên mọi người nên sử dụng hreflang).

    Khi sếp của mọi người trước đó yêu cầu với mọi người rằng : " tôi muốn người dùng tại Việt Nam truy cập vào website sẽ thấy tiếng việt ngay lập tức, tuy nhiên nếu họ là người Nga cũng phải ngay lập tức nhìn thấy tiếng nga xuất hiện và tất nhiên ở Mỹ thì tiếng anh phải trước mặt người dùng ".

    Tuy nhiên mọi người hẳn rất băn khoăn : " Vậy, Googlebot có trụ sở tại Mỹ, thì làm thế nào mà làm việc với tất cả các ngôn ngữ kia, làm thế nào Googlebot ở Mỹ lại đọc được tiếng Nga "

    Googlebot sử dụng hai kỹ thuật chính (mà Google nói với chúng tôi) để tạo ra thu thập dữ liệu miền địa phương, nhận thức...
    • Geo-distributed crawling : Googlebot có vẻ đang sử dụng các IP ngoài nước Mỹ, tất nhiên vẫn có dùng các IP cố định tại Mỹ
    • Language-dependent crawling : Googlebot thu thập với một trường Accept-Language đặt trong HTTP header
    Vì vậy nói cách khác, Googlebot sử dụng các phương pháp thu thập dữ liệu các trang web như là một người sử dụng từ bất cứ nơi nào.

    Lý do Google bot không index


    Dưới đây em sẽ gợi ý thêm một vài lý do mà Google bot không nhận website của mọi người, mà trước đó một số anh em hay hỏi em :

    - Website bị lỗi 404 hoặc 500
    - Website bị block bởi robots.txt
    - Website bị chặn bởi meta robot
    - “Noindex” X-Robots Tag
    - Trùng lặp với nội dung trong website
    - Trùng lặp với nội dung ngoài website
    - Thời gian tải trang quá lâu
    - Đường dẫn động
    - Các trang không có liên kết nội bộ
    - Các trang chứa ít nội dung mà lại chứa nhiều quảng cáo
    - Bị lỗi ở htaccess
    - Site map không được cập nhật thường xuyên

    Nói chung bài về Google bot này nó khá trừu tượng có thể nó sẽ khiến anh em khó hiểu, tuy nhiên nếu có câu hỏi nào anh em cứ comment ở cái box dưới, em sẽ giải đáp hết ạ.

    Những thành viên đã thích bài này: thuykom haopro Trần Hào Quang
  2. haopro

    haopro Top 9

    Gia nhập:
    2/8/13
    Bài viết:
    319
    Đã được thích:
    22
    quá hay, 1 phần nào hiểu rõ cơ chế để tìm ra giải pháp tối ưu hóa cao hơn, miễn sao cho Google bot vào được site là tốt rồi, sâu đó thì tìm backlink chất lượng để Google index . thế là xog, cơ mà làm hơi khó đó mọi người .
  3. Phùng Văn Trường

    Phùng Văn Trường Seo Newbie

    Gia nhập:
    4/10/16
    Bài viết:
    12
    Đã được thích:
    0
    các lý do google bot k index mà ad nêu trên liệu đã đầy đủ hết!! cảm ơn vì bài viết chia sẻ
  4. wildness

    wildness Top 9

    Gia nhập:
    28/4/12
    Bài viết:
    156
    Đã được thích:
    18
    Từ trước tới giờ em cứ nghĩ chỉ có một loiaj bot của google, đọc topic này thêm mở mang kiến thức.
  5. Máy chiếu VNPC

    Máy chiếu VNPC Top 9

    Gia nhập:
    26/1/16
    Bài viết:
    265
    Đã được thích:
    17
    Bài viết khá chi tiết và dễ hiểu về google bot và việc lập chỉ mục của google. Tuy nhiên, nếu webmaster quá lạm dụng và submit quá nhiều url trong một khoảng thời gian nhất định thì sẽ bị bắt nhập mã captcha hình ảnh và lúc đó url vừa được gửi để lập chỉ mục và các bot search vào sẽ không được đưa vào index.
  6. bluesea.seo

    bluesea.seo Top 9

    Gia nhập:
    11/3/16
    Bài viết:
    69
    Đã được thích:
    2
    Bài viết rất hay về google bot, kiến thức hữu ích để anh em SEOer có định hướng sáng suốt nhất.
  7. Lưới an toàn Hà Nội

    Lưới an toàn Hà Nội Top 10

    Gia nhập:
    23/11/16
    Bài viết:
    12
    Đã được thích:
    2
    bài viết rất hay không ngờ gu gờ bot cũng nhiều vấn đề như vậy :))
  8. damtoan123

    damtoan123 Top 9

    Gia nhập:
    3/7/16
    Bài viết:
    61
    Đã được thích:
    5
    bài viết rất hữu ích thanks bác nhé
  9. billionairehope

    billionairehope Seo Newbie

    Gia nhập:
    30/7/16
    Bài viết:
    16
    Đã được thích:
    1
    Đây là bài tổng quan về GG index và bot xúc tích, đầy đủ nhất mà mình từng đọc. Đọc xong bài này làm mình hiểu hơn về GG, cũng như cách lựa chọn các trang sao cho phù hợp
  10. lethuc1102

    lethuc1102 Top 9

    Gia nhập:
    20/9/16
    Bài viết:
    140
    Đã được thích:
    7
    Bài viết rất hay,tổng kết lại là như sau: Google bot có nhiệm vụ thu thập dữ liệu,còn Google index là xử lý số liệu để đánh giá và xếp hạng trang.
  11. cali9x

    cali9x Top 9

    Gia nhập:
    11/3/16
    Bài viết:
    173
    Đã được thích:
    9
    Thật sự đọc xong em chả hiểu cái mute gì luôn. Có phải googlebot là con bot vẫn hay vào website của chúng ta phải không.
  12. tiwenger

    tiwenger Top 9

    Gia nhập:
    19/5/14
    Bài viết:
    166
    Đã được thích:
    4
    không có liên kết nội bộ chắc hay bị gặp lắm luôn
  13. judenguyen

    judenguyen Top 9

    Gia nhập:
    9/10/15
    Bài viết:
    62
    Đã được thích:
    3
    Em mới update lại sitemap cho website, số url được submit là 2340 nhưng số URL được index chỉ có 595, không biết phải mất bao lâu để có thể index được đầy đủ số URL vậy ?
  14. niemphonghanghoa

    niemphonghanghoa Top 9

    Gia nhập:
    20/5/16
    Bài viết:
    196
    Đã được thích:
    19
    tìm có thể dùng tìm nạp trong google webmaster tool để đẩy mạnh tốc độ index nhé
  15. tienanh

    tienanh Super Moderator

    Gia nhập:
    1/7/13
    Bài viết:
    843
    Đã được thích:
    372
    em nên chia sẻ những link mà chưa index lên Google + nhé, hiện tại bot hoạt động khá tốt khi qua google +
  16. DuongToan

    DuongToan Top 8

    Gia nhập:
    10/5/16
    Bài viết:
    406
    Đã được thích:
    27
    Một công cụ mới với em quá. Nhưng mà đọc qua là hiểu ngay. Nó là công cụ truy cập web tốt, còn gg index nó giúp nâng cao thứ hạng. Mỗi cái đều có chức năng riêng. Cảm ơn bác chủ thớt nhé. :)
  17. olympia

    olympia Top 9

    Gia nhập:
    3/11/16
    Bài viết:
    56
    Đã được thích:
    3
    Thank admin đã chia sẻ thông tin bổ ích. Web em có tới 4 - 500 bài viết nhưng chỉ mới có 85 link :( không biết có cần phải add lại sitemap k ạ ?
  18. tienanh

    tienanh Super Moderator

    Gia nhập:
    1/7/13
    Bài viết:
    843
    Đã được thích:
    372
    Em làm lại site map rồi add vào wmt nhé, ngoài ra em có thể chia sẻ bài viết lên Google plus để được index tốt hơn nhé ;)
  19. trangcucai

    trangcucai Top 9

    Gia nhập:
    23/5/15
    Bài viết:
    76
    Đã được thích:
    5
    bài viết của anh hay quá ạ, giờ em hiểu hơn google bot rùi hì
  20. xuanquyet80

    xuanquyet80 Seo Newbie

    Gia nhập:
    8/12/16
    Bài viết:
    26
    Đã được thích:
    0
    Đúng là làm với google mà không hiểu rõ cơ chế hoạt động của nó thì sẽ không có hiệu quả đâu. Cảm ơn chủ top đã chia sẻ bài viết rất hay

Chia sẻ trang này

Link hữu ích: Xem phim - Báo Phụ Nữ - Watch Movie - Cao đẳng Dược Hà Nội - Cao đẳng Y Hà Nội - Trung cấp Y Hà Nội - Vinhomes riverside the harmony - Đồ chơi ô tô - Máy lạnh cũ giá rẻ