1. Hiện tại có một số member mạo danh BQT để giao dịch trên diễn đàn và đã LỪA ĐẢO khá nhiều tại chuyên mục Adwords... Mọi người cảnh giác và đọc bài: Giới thiệu giao dịch đảm bảo bởi @Admin

Những bài học từ thử nghiệm GoogleBot thu thập dữ liệu Javascript

Thảo luận trong 'Onpage Seo - Tối ưu các yếu tố trên trang web' bắt đầu bởi thegioiseo, 14/5/15.

Lượt xem: 2,056
  1. thegioiseo

    thegioiseo Điều Hành Viên

    Gia nhập:
    22/5/11
    Bài viết:
    1,206
    Đã được thích:
    2,687
    (Thegioiseo) - Có phải Google không có khả năng xử lý JavaScript? Hãy cân nhắc lại điều này. Adam Audette đã chia sẻ những kết quả hình thành từ một loạt các thử nghiệm được thực hiện cùng những đồng nghiệp của mình tại Merkle/RKG để xác minh xem các chức năng khác nhau của JavaScript sẽ được thu thập và lập chỉ mục bởi Google như thế nào.

    TL;DR

    1. Chúng tôi đã tiến hành một loạt các thử nghiệm nhằm xác minh liệu Google có khả năng thực hiện và lập chỉ mục JavaScript cùng với vô số hệ thống xử lý. Chúng tôi cũng khẳng định rằng Google có khả năng hoàn trả toàn bộ trang và đọc được DOM, từ đó lập chỉ mục nội dung tự động.

    2. Tín hiệu SEO trong DOM (các loại thẻ:tiêu đề, mô tả, canonical và meta robots, etc.) được tôn trọng. Nội dung chèn tự động vào DOM cũng được thu thập và lập chỉ mục. Hơn nữa, trong một vài trường hợp, tín hiệu DOM thậm chí còn được ưu tiên hơn cả các báo cáo mâu thuẫn nhau trong mã nguồn HTML. Điều này đòi hỏi phải xem xét nhiều hơn nhưng nó đã từng xuất hiện trong các thử nghiệm của chúng tôi.

    Phần mở đầu: Google thực thi Javascript và đọc DOM

    Đầu năm 2008, Google đã thu thập dữ liệu Javascript, nhưng có lẽ còn nhiều hạn chế.

    Hiện nay, rõ ràng là Google đã phát triển những loại JavaScript mà họ đã thu thập dữ liệu và lập chỉ mục, nhưng họ đã có bước tiến dài trong việc hoàn trả các trang web (đặc biệt trong 12 đến 18 tháng cuối).

    Tại Merkle, đội ngũ kỹ thuật SEO của chúng tôi luôn mong muốn hiểu sâu sắc các loại dữ liệu JavaScript mà Google có thể thu thập và lập chỉ mục. Chúng tôi cũng tìm thấy các kết quả xác thực và xác minh rằng Google không chỉ thực thi nhiều loại dữ liệu của JavaScript mà họ còn lập chỉ mục nội dung tự động. Làm thế nào vậy nhỉ? Google đọc DOM.

    DOM là gì?

    Có vẻ sẽ khó khăn đối với một vài SEO để hiểu Mô hình đối tượng tài liệu hoặc DOM.


    slide
    Điều gì sẽ xảy ra khi 1 trình duyệt yêu cầu trang web, và làm thế nào để các DOM tham gia

    Khi được sử dụng trong trình duyệt web, DOM là một giao diện lập trình ứng dụng, hoặc API, nhằm đánh dấu và cấu tạo dữ liệu như HTML và XML. Nó là một giao diện cho phép các trình duyệt web để tạo nên văn bản có cấu trúc.

    DOM được định nghĩa là làm thế nào mà cấu trúc đó được tập hợp và điều khiển. Trong khi DOM là một API ngôn ngữ bất khả tri (không ràng buộc với ngôn ngữ lập trình hoặc thư viện cụ thể), nó thông thường được sử dụng trong ứng dụng web cho JavaScript và nội dung động.

    DOM là giao diện, hoặc “cây cầu” kết nối các trang web và ngôn ngữ lập trình. HTML phân tích cú pháp, JavaScript thực thi, và DOM là kết quả. Nội dung của trang web không chỉ là mã nguồn, nó là DOM. Điều này cũng khá quan trọng.

    Nhung bai hoc tu thu nghiem GoogleBoot thu thap du lieu Javascript
    Làm thế nào JavaScript làm việc với giao diện DOM

    Chúng ta đã rất sốc khi khám phá ra rằng Google có khả năng đọc DOM và giải thích các tín hiệu và nội dung được chèn tự động, như các thẻ tiêu đề, nội dung trang, tiêu mục và meta annotation như rel=canonical. Vì vậy hãy đọc thật kĩ.

    Chuỗi thử nghiệm và kết quả

    Chúng ta đã tạo ra một loạt các thử nghiệm để kiểm tra xem các chức năng khác nhau của JavaScipt được thu thập dữ liệu và lập chỉ mục như thế nào, cô lập các hành vi đối với Googlebot. Sự kiểm soát đảm bảo rằng URLs sẽ được nhận biết trong sự cô lập đó. Dưới đây, chúng ta sẽ xem xét chi tiết hơn về các kết quả thử nghiệm. Chúng được phân chia trong 5 danh mục sau:

    1. Điều hướng JavaScript.
    2. Liên kết JavaScript.
    3. Nội dung chèn tự động
    4. Siêu dữ liệu và thành phần trang chèn tự động
    5. Một ví dụ quan trọng với rel=”nofollow”.

    Nhung bai hoc tu thu nghiem GoogleBoot thu thap du lieu Javascript 2

    Một ví dụ về trang sử dụng để thử nghiệm khả năng Goolgebot để hiểu về JavaScript

    1. Điều hướng JavaScript

    Chúng ta đã thử nghiệm điều hướng Javascript thông thường, thay đổi việc URL được giới thiệu trong các cách khác nhau. Cách thức chúng ta lựa chọn là chức năng window.location. Hai thử nghiệm đã được thực hiện: Thử nghiệm A bao gồm URL tuyệt đối được cho là nằm trong chức năng window.location. Thử nghiệm B sử dụng một URL có liên quan.

    Kết quả: Các điều hướng nhanh chóng được theo sau bởi Google. Từ khía cạnh lập chỉ mục, chúng được thể hiện như là 301s – URLs mới đã thay thế URLs điều hướng trong chỉ mục Google.

    Trong các thử nghiệm tiếp theo, chúng tôi sử dụng trang có ưu thế và thực hiện điều hướng JavaScript đến một trang mới trên một site với nội dung tương tự nhau. URL gốc đã được xếp hạng trên trang đầu tiên của Google trong các truy vấn phổ biến.

    Kết quả: Như mong đợi, điều hướng đã được theo sau bởi Google và trang gốc giảm chỉ mục. URL mới được lập chỉ mục và ngay lập tức được xếp hạng ở vị trí giống nhau vì truy vấn giống nhau. Điều này làm chúng tôi rất ngạc nhiên, và dường như chỉ ra rằng điều hướng JavaScript có thể (vào thời gian đó) hoạt động giống như điều hướng 301 cố định từ góc nhìn xếp hạng.

    Thời gian tới có thể khách hàng của bạn sẽ muốn thực hiện điều hướng JavaScript cho việc di chuyển site của họ, bạn nên trả lời rằng “ Xin đừng làm vậy”. Nó sẽ xuất hiện sự chuyển giao tín hiệu xếp hạng trong mối quan hệ này. Tham khảo thêm trích dẫn từ hướng dẫn của Google.

    Sử dụng JavaScript để điều hướng người sử dụng là hành động hợp pháp. Ví dụ, nếu bạn điều hướng người sử dụng đến một trang nội bộ một khi họ đăng nhập, bạn có thể sử dụng JavaScript để thực hiện. Khi kiểm tra JavaScript hoặc các phương pháp điều hướng khác nhằm đảm bảo site của bạn luôn gắn bó mật thiết với hướng dẫn, hãy xem xét đến mục đích. Ghi nhớ rằng điều hướng 301 là tốt nhất cho việc di chuyển site, nhưng bạn có thể sử dụng một điều hướng JavaScript cho mục đích này nếu bạn không muốn truy cập vào máy chủ của website của mình.

    2. Liên kết JavaScript

    Chúng tôi đã thử nghiệm các loại liên kết JavaScript khác nhau, mã hóa chúng theo nhiều cách.

    Chúng tôi đã tiến hành thử nghiệm danh sách liên kết thả. Trong thực tế, các công cụ tìm kiếm vẫn chưa có khả năng theo sau các loại liên kết này. Thử nghiệm của chúng tôi đã nhận thấy rằng để xác minh liệu bộ xử lý dữ liệu onchange có được theo sau không. Điều quan trọng là chúng ta đang đề nghị một sự tương tác để thay đổi một vài thứ, không phải là hành động ép buộc giống như điều hướng JavaScript bên trên.

    Nhung bai hoc tu thu nghiem GoogleBoot thu thap du lieu Javascript 3

    Một ví dụ chọn ngôn ngữ thả xuống chọn ngôn ngữ Google cho trang làm việc

    Kết quả: Các liên kết hoàn toàn được thu thập dữ liệu và theo sau.

    Chúng ta cũng đã thử nghiệm liên kết JavaScript chuẩn . Đây là các loại liên kết JavaScript phổ biến nhất mà các SEO đề nghị để thay đổi đối với văn bản thuần túy. Các thử nghiệm này bao gồm các liên kết JavaScript được mã hóa với:

    - Chức năng bên ngoài của href Attribute-Value Pair (AVP) trongthẻ (“onClick”).
    - Chức năng bên trong href AVP (“javascript:window.location”).
    - Chức năng bên ngoài của a nhưng được gọi trong href AVP (“javascript: openlink()”).
    - etc.

    Kết quả: Các liên kết hoàn toàn được thu thập dữ liệu và theo sau.

    Thử nghiệm tiếp theo của chúng tôi là kiểm tra bộ quản lý dữ liệu sâu hơn như thử nghiệm onchange phía trên. Đặc biệt, chúng tôi đang tìm kiếm ý tưởng của việc di chuyển chuột giống như bộ xử lý dữ liệu và khi đó ẩn đi URL với các biến số cái chỉ thực hiện khi bộ xử lý dữ liệu (trong trường hợp onmousedown và onmouseout) bị cháy.

    Kết quả: Các liên kết hoàn toàn được thu thập dữ liệu và theo sau.

    Các liên kết ghép nối: chúng ta đều biết Google có thể thực thi JavaScript nhưng lại muốn xác nhận họ đang đọc biến số trong mã. Trong thử nghiệm này, chúng ta sẽ nối kết chuỗi ký tự, cái tạo ra một URL khi nó được hình thành.

    Kết quả: Các liên kết hoàn toàn được thu thập dữ liệu và theo sau.

    3. Nội dung chèn tự động

    Rõ ràng là: văn bản, hình ảnh, liên kết chèn tự động và sự điều hướng. Nội dung văn bản chất lượng có tính quyết định đến việc hiểu rõ chủ đề và nội dung một trang của công cụ tìm kiếm. Trong kỷ nguyên của web động điều này đóng vai trò rất quan trọng.

    Những thử nghiệm này được thực hiện để kiểm tra việc văn bản chèn tự động trong 2 trường hợp khác nhau.
    1. Thử nghiệm khả năng của công cụ tìm kiếm để giải thích về việc văn bản chèn tự động khi văn bản nằm trong nguồn HTML của trang.

    2. Thử nghiệm khả năng của công cụ tìm kiếm để để giải thích về việc văn bản chèn tự động khi văn bản ở bên ngoài nguồn HTML của trang (trong tệp tin JavaScript bên ngoài).
    Kết quả: Trong cả hai trường hợp, văn bản được thu thập dữ liệu và lập chỉ mục, và trang đã được xếp hạng cho nội dung, Vậy là chiến thắng rồi!

    Để hiểu sâu hơn điều này, chúng tôi đã thử nghiệm điều hướng toàn cầu của khách hàng, cái đã được mã hóa trong JavaScript, với tất cả các liên kết đã được chèn với chức năng document.writeIn, và xác nhận chúng đã hoàn toàn được thu thập dữ liệu và theo sau. Chú ý rằng loại chức năng này của Google giải thích cho việc làm thế nào mà site xây dựng sử dụng framework AngularJS và HTML5 History API (PushState) có thể được hoàn trả và lập chỉ mục bởi Google, xếp hạng như các trang HTML tĩnh thông thường. Đó là lý do vì sao không phong tỏa Googlebot từ việc truy nhập các tệp tin bên ngoài và tài sản của JavaScipt, cũng như tại sao Google đang rời xa việc hỗ trợ Ajax cho hướng dẫn SEO. Ai cần HTML snapshot khi bạn có thể hoàn trả toàn bộ trang?

    Thử nghiệm của chúng tôi tìm ra kết quả tương tự nhau không tùy thuộc vào loại nội dung. Ví dụ, hình ảnh được thu thập dữ liệu và lập chỉ mục khi được tải trong DOM. Chúng tôi thậm chí còn tạo ra một bài test bằng cách tạo tự động data-vocabulary.org structured data markup for breadcrumbs và chèn nó vào DOM. Kết quả là? Breadcrumbs rich snippets đã nằm trong trang kết quả công cụ tìm kiếm của Google (Google’s SERP).

    Chú ý là nhớ đánh dấu JSON-LD cho một số dữ liệu đã được hình thành. Tôi chắc vậy.

    4. Siêu dữ liệu và thành phần trang chèn tự động

    Chúng tôi đã chèn tự động trong DOM các thẻ khác nhau, cái đóng vai trò quyết định trong SEO:

    • Thành phần tiêu đề
    • Thẻ mô tả
    • Thẻ meta robot
    • Thẻ canonical

    Kết quả: trong tất cả các trường hợp các thẻ đã được thu thập dữ liệu một cách nghiêm túc, được coi như là thành phần HTML trong mã nguồn.

    Trong thử nghiệm thú vị tiếp theo sẽ giúp chúng tôi hiểu được thứ tự ưu tiên. Khi xung đột với tín hiệu tồn tại, cái gì sẽ chiến thắng? Điều gì xẽ xảy ra nếu có noindex.nofollow trong mã nguồn và noinde,nofollow trong DOM? HTTTP x-robot sẽ phản hồi lại header giống như các biến số khác trong sự sắp xếp này? Điều này sẽ là một phần của thử nghiệm toàn diện trong tương lai. Tuy nhiên, thử nghiệm của chúng tôi cũng chỉ ra rằng Google có thể sẽ coi nhẹ các thẻ trong mã nguồn có lợi cho DOM.

    5. Ví dụ quan trọng với rel=”nofollow”.

    Một ví dụ mang tính hướng dẫn. Chúng tôi muốn thử nghiệm xem Google sẽ phản ứng lại như thế nào đối với thuộc tính nofollow cấp độ liên kết đặt trong mã nguồn và đặt trong DOM. Chúng tôi cũng sẽ tạo ra sự kiểm soát mà không có sự áp dụng nofollow.

    Nhung bai hoc tu thu nghiem GoogleBoot thu thap du lieu Javascript 4

    Kiểm tra nofollow cô lập mã nguồn của chúng ta với DOM tạo ra các chú thích

    Các nofollow trong mã nguồn đã hoạt động đúng như mong đợi (liên kết không được theo sau). Nofollow trong DOM không hoạt động (liên kết đã được theo sau, và trang đã được lập chỉ mục). Tại sao lại vậy nhỉ? Bởi vì sự biến đổi của thành phần href trong DOM xảy ra quá chậm: Google đã thu thập hầu hết các liên kết và sắp xếp các URL trước khi nó thực hiện chức năng JavaScript là thêm thẻ rel=”nofollow”. Tuy nhiên, nếu toàn bộ nhân tố a href cùng nofollow được chèn trong DOM, nofollow sẽ được thấy như cùng lúc như liên kết (và URL của nó) và nó đã được tôn trọng.

    Sự phân nhánh

    Trong thực tế, SEO thường tập trung vào nội dung “văn bản thuần túy”. Nội dung chèn tự động, AJAX và liên kết Javascipt có thể sẽ làm hại SEO, đến các công cụ tìm kiếm của SEO. Rõ ràng là, điều này chẳng bao lâu nữa sẽ xảy đến với Google. Liên kết Javascript hoạt động theo cách thức tương tự như các liên kết HTML thuần túy (chúng ta hầu như không biết cái gì sẽ xảy ra đằng sau các thuật toán).

    • Điều hướng Javascript được đối xử tương tự như điều hướng 301.

    • Nội dung chèn tự động, và các siêu tín hiệu như rel cannonical annotation được đối xử ngang bằng trong nguồn HTML, hoặc bị tiêu hủy sau khi HTML ban đầu bị phân tách với Javascript trong DOM.

    • Google xuất hiện để hoàn trả trang và xem xét DOM và không chỉ ở mức mã nguồn nữa. Thật tuyệt vời! (Hãy nhớ cho phép Googlebot truy cập đến các tệp tin bên ngoài và tài sản của Javascript).

    Google đã đổi mới với tốc độ kinh hoàng và để lại các công cụ tìm kiếm khác trong đám bụi. Chúng tôi cũng hy vọng sẽ thấy được sự tiến bộ như thế này từ các công cụ khác nếu chúng đang cạnh tranh và phù hợp trong kỷ nguyên mới của phát triển web, với nhiều hơn HTML5, Javascript và các website động.

    SEO cũng vậy, những người chưa hiểu thấu đáo những khái niệm trên và khả năng của Google sẽ cần nghiên cứu nhiều hơn nữa và những thành quả của họ sẽ là sự phản chiếu của nền công nghệ hiện đại. Nếu bạn không xem xét đến DOM, coi như bạn vẫn chưa xem hết một nửa còn lại của bức tranh.


    Admin thích bài này.
  2. ttanhtt

    ttanhtt Top 9

    Gia nhập:
    8/1/15
    Bài viết:
    90
    Đã được thích:
    6
    mình vẫn chặn file .js theo bài viết này thì mình và các bạn làm seo nên bỏ chặn file .js đúng không ạ
  3. taotay1988

    taotay1988 Top 9

    Gia nhập:
    12/2/15
    Bài viết:
    71
    Đã được thích:
    0
    Không hẳn là phải chặn js. Js làm khối lượng web của bạn lớn hơn thôi, và nó đã làm công việc thu thập dữ liệu phải tiêu nhiều hơn. Sự khó khăn này đã xảy ra trước kia và sự thật nhiều web được lập chỉ mục tương đối chậm. Còn trong tương lai thì bài toán đặt ra cho các công cụ search là phải hiểu hết cấu trúc web. Nhưng ít ra, bài viết trên chỉ là sự kiểm nghiệm đơn phương của tác giả nào đó mà chưa có sự công nhận của cộng đồng Seo.
  4. trankimxuyen

    trankimxuyen Top 10

    Gia nhập:
    27/4/15
    Bài viết:
    18
    Đã được thích:
    0
    Web:
    Việc Seo bắt đầu trở lên phức tạp khi đọc xong bài này. SEO giờ nhiều thứ để làm quá
  5. linh_seo_pro

    linh_seo_pro Top 9

    Gia nhập:
    31/1/15
    Bài viết:
    389
    Đã được thích:
    17
    Web:
    chuẩn rồi bác, bây giờ seo khó lắm mà dân seo càng lúc càng đông nữa!
  6. vocam

    vocam Top 9

    Gia nhập:
    6/8/14
    Bài viết:
    137
    Đã được thích:
    10
    Có bác thì khuyên nên chặn file .js, có bác lại bảo không nên chặn file .js, vậy kết luận nào là đúng và hiệu quả cho việc SEO hả các bác?
  7. hunghv63

    hunghv63 Top 9

    Gia nhập:
    4/8/14
    Bài viết:
    361
    Đã được thích:
    18
    chặn file .js liệu có thực sự cải thiện được cho trang web của mình không?
  8. phuongthviet

    phuongthviet Top 8

    Gia nhập:
    12/10/13
    Bài viết:
    197
    Đã được thích:
    33
    Web:
    Mình hỏi ngu tí: chặn file .js để làm gì vậy?
  9. hidemoto

    hidemoto Seo Newbie

    đọc xong thấy mệt quá. trang của mình có mấy file js khá lớn. vs chủ yếu làm đẹp, giờ thu thập chắc phải ngồi tinh chỉnh lại quá
  10. mfia88

    mfia88 Seo Newbie

    Gia nhập:
    28/11/14
    Bài viết:
    6
    Đã được thích:
    0
    Web:
    SEO như là một nghệ thuật...Chạy đua với các bài toán của các bác SE đưa ra...
  11. leroimatroi

    leroimatroi Top 9

    Gia nhập:
    11/4/15
    Bài viết:
    134
    Đã được thích:
    4
    Web:
    Cùng tâm trạng, mình thậm chí không biết cái file .js để làm gì nữa.
  12. dungca

    dungca Top 9

    Gia nhập:
    8/8/14
    Bài viết:
    482
    Đã được thích:
    17
    Nơi ở:
    hà nội
    phải thường xuyên thay đổi và học tập nhiều phương pháp khác nhau may ra mới thành công được bạn ak
  13. ngochuynh1609

    ngochuynh1609 Top 10

    Gia nhập:
    10/4/15
    Bài viết:
    13
    Đã được thích:
    1
    Nơi ở:
    199 Dũng Sĩ Thanh Khê Đà Nẵng
    Web:
    Nhiều mật nhiều rùi thôi bác ơi :)
  14. nguyenbum

    nguyenbum Top 9

    Gia nhập:
    13/5/15
    Bài viết:
    44
    Đã được thích:
    4
    Web:
    Truy quet của Google theo cơ chế nào? - cái này mình luôn quan tâm xem. Đọc xong bài này thì cũng ngộ ngộ ra vài điều.

    Đang nghiên cứu nên thay đổi web như thế nào thì sẽ được tối ưu. Cám ơn tác giả bài viết.
  15. dungca

    dungca Top 9

    Gia nhập:
    8/8/14
    Bài viết:
    482
    Đã được thích:
    17
    Nơi ở:
    hà nội
    chặn dữ liệu javascrip có thực sự tốt cho website site bán hàng không vậy các pro
  16. Weescape

    Weescape Top 9

    Gia nhập:
    28/4/15
    Bài viết:
    135
    Đã được thích:
    8
    Web:
    Tức là sao. Mình không hiểu cái Java này lắm. Không biết tí gì về code. Mọi người có thể mở mang thheme kiến thức cho mình được k?
  17. hunghv63

    hunghv63 Top 9

    Gia nhập:
    4/8/14
    Bài viết:
    361
    Đã được thích:
    18
    Bạn phải đầu tư 1 khóa thiết kế web thì mới hiểu rõ hết được . Chứ nghe mọi người nói thì sẽ rất khó đấy ạ?
    Weescape thích bài này.
  18. funwork_hochiminh

    funwork_hochiminh Seo Newbie

    Gia nhập:
    26/12/14
    Bài viết:
    3
    Đã được thích:
    0
    Cứ nghĩ javascipt chỉ làm đẹp cho trang wep vậy mà thật không ngờ. Tuy là cái này cũng thật rắc rối nhưng đọc xong bài này thì cũng ngộ ngộ ra vài điều.
  19. lulzsecd

    lulzsecd Seo Newbie

    Gia nhập:
    7/6/15
    Bài viết:
    3
    Đã được thích:
    0
    Web:
    Có nhiều bác nói nội dung nào copy muốn chặn google index thì cho vào trong javascript nhưng hiện nay google đọc được nó rồi còn đâu :p:eek:

Nội quy khi thảo luận:

Dù bạn có cố tình spam bằng cách nào khi BQT diễn đàn phát hiện sẽ lập tức banned nick và xoá toàn bộ bài viết của bạn. Ngoài ra khi phát hiện ra Spam hãy gửi thông báo cho BQT diễn đàn. Hãy suy nghĩ trước khi hành động..!
✓ Khi muốn trả lời ai đó, bạn gõ @ cộng thêm nick diễn đàn của người đó phía sau @, giống như tag tên trên Facebook.
✓ Yêu cầu khi bình luận, bạn phải gõ chữ rõ ràng, không viết tắt, gõ tiếng Việt đầy đủ dấu câu.
✓ Nên dùng font chữ mặc định của diễn đàn, không tô màu lòe loẹt hay dùng size chữ quá lớn khi bình luận.
✓ Bài viết, comment... không được phép quảng cáo dịch vụ, rao vặt, pr... Loại trừ ở chuyên mục Rao vặt đã cho phép.
✓ Nghiêm cấm các chủ đề dạng: Cứu em với, help me, giật tít, câu view... dưới mọi hình thức.
✓ Tất cả các thành viên tham gia diễn đàn cần đọc kỹ Nội quy chung và nghiêm túc tuân thủ.


Chia sẻ trang này

Đang tải...