1. Hiện tại có một số member mạo danh BQT để giao dịch trên diễn đàn và đã LỪA ĐẢO khá nhiều tại chuyên mục Adwords... Mọi người cảnh giác và đọc bài: Giới thiệu giao dịch đảm bảo bởi @Admin

3 bước để tìm và ngăn chặn Bots xấu

Thảo luận trong 'Onpage Seo - Tối ưu các yếu tố trên trang web' bắt đầu bởi thegioiseo, 1/9/15.

Lượt xem: 34,759
  1. thegioiseo

    thegioiseo Điều Hành Viên

    Gia nhập:
    22/5/11
    Bài viết:
    1,206
    Đã được thích:
    2,688
    (Thegioiseo) - Dữ liệu phân tích web của bạn đang bị sai lệch bởi bot truy cập trang web của bạn? Nếu đúng là như vậy thì hôm nay tôi sẽ có giải pháp giúp bạn giải quyết được vấn đề này.

    Hầu hết SEO đã nghe nói về việc sử dụng Log Files để hiểu hành vi Googlebot nhưng ít người biết được rằng chúng có thể được sử dụng để biết được bots đang thu thập site của bạn. Ngày càng có nhiều bot thực thi Javascript, thổi phồng các phân tích, lấy các nguồn tài nguyên, scrap và sao chép nội dung.

    slide


    Theo báo cáo của Incapsula năm 2014 cho thấy, bot đã chú ý đến 20.000 website (cả web lớn và nhỏ) trong khoảng 90 ngày và nhận thấy là bots chiếm 56% tất cả lưu lượng truy cập trên web; trong đó 29% là nguy hiểm.
    3 buoc de tim va ngan chan bots xau
    Bài viết này được hiểu là một điểm khởi đầu dễ dàng (bằng cách sử dụng excel) để hiểu những điều cơ bản về việc sử dụng Log Files, ngăn chặn bots xấu ở phía máy chủ và làm sạch báo cáo phân tích.

    1. Tìm tập tin log

    Tất cả các máy chủ giữ lại một danh sách tất cả các yêu cầu đến trang web mà chúng lưu trữ. Cho dù khách hàng đang sử dụng trình duyệt Firefox hay Googlebot đang tìm kiếm các trang mới được tạo ra thì tất cả các hoạt động sẽ được ghi lại trong một tập tin đơn giản.

    Vị trí tập tin này phụ thuộc vào loại máy chủ hoặc host mà bạn có. Dưới đây là một vài chi tiết trên các nền tảng phổ biến.

    - cPanel: một giao diện chung cho các máy chủ apache (xem dưới đây ) có thể dễ dàng tìm kiếm các tập tin log, bạn có thể click vào nó dễ dàng như việc click vào một liên kết.

    3 buoc de tim va ngan chan bots xau 2

    - Apache: tập tin log thường được tìm thấy trong /var/log và thư mục con; bạn cũng có thể sử dụng lệnh access.log để ghi lại nhật ký máy chủ một cách nhanh chóng.

    - IIS: máy chủ của Microsoft có thể được kích hoạt và cấu hình trong Internet Services Manager. Đi đến Control Panel -> Administrative Tools -> Internet Services Manager -> Select website -> Right-click sau đó Properties -> Website tab -> Properties -> General Properties tab.

    2. Nhận dạng số lượt xem theo IP và tác nhân người dùng

    Khi tập tin được tìm thấy, bạn mở excel (hoặc trình soạn thảo nào đó mà bạn thích ). Với hầu hết các trang web nhỏ và vừa, sử dụng một chiếc máy tính cũng có thể xử lý được vấn đề này.

    Bên dưới là một tập tin log được đưa vào một tập tin .txt mới sử dụng một trình soạn thảo văn bản đơn giản, sau đó mở excel sử dụng text-to-columns và “space” delimiter và thực hiện một vài chỉnh sửa trên các tiêu đề cột.

    3 buoc de tim va ngan chan bots xau 3

    Tìm kiếm số lượt xem theo IP

    Sau khi hợp nhất và mở các bản ghi trong excel, bạn sẽ dễ dàng tìm thấy số lượng truy cập theo IP.

    Để làm điều này:

    - Bạn tạo một Pivot Table và xem Client IP và có được các con số.

    - Copy và paste, đổi tên tiêu đề cột thành Client IP và Hits, sắp xếp giảm dần, sau đó chèn cột User Agent ở bên phải cột Hits.

    3 buoc de tim va ngan chan bots xau 4

    Tìm User Agents theo địa chỉ IP

    Bước cuối cùng, tìm user agents mà có liên quan đến các địa chỉ IP được xem nhiều nhất. Để làm điều này, quay trở lại pivot table và chỉ cần thêm phần Row Label vào Pivot Table.

    Bây giờ, việc tìm kiếm User Agent được kết hợp với các địa chỉ IP top đầu đơn giản giống như việc tìm kiếm một văn bản. Trong trường hợp này, không có tác nhân người dùng nào được được khai báo và bạn cũng nhìn thấy số lượt xem trang web nhiều hơn so với các địa chỉ IP khác.

    3 buoc de tim va ngan chan bots xau 5

    3. Ngăn chặn IP từ việc truy cập site và hiển thị trong Analytics

    Bây giờ bạn đã xác định được IP độc hại, sử dụng các hướng dẫn để ngăn chặn việc lạm phát số lượng trong Analytics, sau đó bạn chặn IP này để ngăn chặn hoàn toàn việc truy cập site.

    Chặn IP trong Analytics

    Sử dụng Filter trong Google Analytics, bạn có thể exclude những IP này. Chuyển hướng đến Admin -> Choose View -> Filters -> + New Filter -> Predefined -> Exclude traffic from the IP addresses -> Specify IP (regular expression).

    3 buoc de tim va ngan chan bots xau 6

    Mẹo: Google Analytics tự động ngăn chặn những trình thu thập được nhận biết bởi IAB. Bạn chỉ cần điều hướng đến Admin -> View Settings dưới “Bot Filtering", kiểm tra “Exclude all hits from known bots and spiders". Đây luôn là một thực hành tốt nhất để tạo ra một cái nhìn mới trước khi thay đổi cài đặt cấu hình.

    Nếu bạn sử dụng Omniture, có 3 phương pháp để exclude dữ liệu theo IP.

    - Exclude theo IP. Exclude hits tối đa từ 50 IP trở lên

    - Vista Rule. đối với công ty mà cần nhiều hơn 50

    - Processing Rule. Nó có thể tạo ra một quy luật để ngăn chặn việc hiển thị từ những IP cụ thể.

    Chặn IP từ cấp server

    Tương tự như việc xác định vị trí tập tin log, phương pháp ngăn chặn IP truy cập vào trang web của bạn ở cấp server thay đổi phụ thuộc vào loại máy chủ bạn sử dụng.

    - cPanel: sử dụng IP Address Deny Manager, IP có thể bị ngăn chặn và được quản lý trên một quy trình liên tục.

    3 buoc de tim va ngan chan bots xau 7

    - Apache: mod_authz_host được khuyến cáo cho việc này nhưng bạn cũng có thể sử dụng .htaccess.

    - IIS: Open IIS Manager -> Features View -> IPv4 Address and Domain Restrictions -> Actions Pane -> Add Deny Entry.

    Kết luận

    Giải pháp của bên thứ ba để xác định tất cả lưu lượng truy cập thông qua một mạng lưới là xác định bots (xấu và tốt) theo thời gian thực. Họ không chỉ chú ý đến IPs và User Agent Strings mà còn nhìn vào cả HTTP Headers, hành vi điều hướng site và các yếu tố khác. Một vài site sử dụng các phương thức giống như reCAPTCHA để chắc chắn rằng khách truy cập vào site của bạn là con người.

    Những phương pháp khác mà bạn đã nghe nói để giúp bạn bảo vệ chống lại "sự nổi dậy của bots xấu" là gì? Hãy cho chúng tôi biết ý kiến của bạn.

    Ghi nguồn www.thegioiseo.com khi đăng tải lại bài viết này.
    Link: 3 bước để tìm và ngăn chặn Bots xấu.

  2. sthaihien

    sthaihien Top 8

    Gia nhập:
    16/4/15
    Bài viết:
    1,589
    Đã được thích:
    15
    Tốt. Nhưng cũng có nhiều người dùng web hosting nên vấn đề can thiệp vào server gần như là không được :(
  3. lovemusic101

    lovemusic101 Top 9

    Gia nhập:
    16/6/14
    Bài viết:
    201
    Đã được thích:
    6
    Web:
    File log trên host của e có đợt lên đến hơn 200MB, mở lên đọc chẳng hiểu gì nên đành xóa đi!
  4. vantuan88291

    vantuan88291 Top 9

    Gia nhập:
    25/8/13
    Bài viết:
    295
    Đã được thích:
    14
    Web:
    chặn hết bot đi là xong cần j lằng nhằng tn
  5. thienlyma90

    thienlyma90 Top 7

    Gia nhập:
    7/6/13
    Bài viết:
    1,329
    Đã được thích:
    86
    Nơi ở:
    HN
    Web:
    Sau bài này anh em sẽ có nhiều hướng giải quyểt hơn rồi! Có lẽ vào tương lai không xa thì sẽ không còn tình trạng như của bạn @lovemusic101 nữa!
  6. tramy_94

    tramy_94 Top 7

    Gia nhập:
    29/7/15
    Bài viết:
    771
    Đã được thích:
    126
    mình thấy cách này làm dài dòng mà hơi khó hiểu cho người mới làm seo, mình cứ chặn tất bot là xong
  7. taigametop1

    taigametop1 Top 10

    Gia nhập:
    24/8/15
    Bài viết:
    20
    Đã được thích:
    5
    Cái này chặn được bot xấu thì site mình sẽ không bị phạt nếu rính thuật toán hả bác?
    hinhyeuphuong thích bài này.
  8. tunglienbao

    tunglienbao Top 9

    Gia nhập:
    19/8/15
    Bài viết:
    60
    Đã được thích:
    5
    Web:
    Chặn tất thì index làm sao hả bạn
  9. huyenmy

    huyenmy Top 8

    Gia nhập:
    21/8/15
    Bài viết:
    614
    Đã được thích:
    89
    Web:
    đúng là làm seo nhiều vấn đề quá, seo đã khó rồi lại còn hết spam, bot xấu rồi đủ các kiểu
  10. hanhuyet

    hanhuyet Top 9

    Gia nhập:
    5/11/14
    Bài viết:
    33
    Đã được thích:
    1
    Web:
    File log mình mở ra đọc chả hiểu, làm sao xác định được là bot xấu hay tốt
  11. Kiên Nguyễn Blog

    Kiên Nguyễn Blog Top 9

    Gia nhập:
    25/3/15
    Bài viết:
    150
    Đã được thích:
    16
    Web:
    Một bài viết rất hay, chặn bots xong kết hợp thêm cách này nữa thì còn gì bằng :D
  12. notviet022

    notviet022 Top 9

    Gia nhập:
    15/8/14
    Bài viết:
    191
    Đã được thích:
    9
    Nơi ở:
    Hồ Chí Minh
    Web:
    cái hay cho các bạn mới làm seo cố gắng xoá những bots xấu và tăng bot tốt nhiều nhiều vào lên top nhanh thôi.
  13. cinhe90

    cinhe90 Top 9

    Gia nhập:
    23/5/14
    Bài viết:
    87
    Đã được thích:
    11
    Web:
    event-tracking . com với Get-Free-Traffic-Now . com
    2 thằng này mình chặn rồi mà không được....! Có ngày tới mấy chục gần trăm lượt truy cập từ 2 anh này......
  14. htloveorg

    htloveorg Top 9

    Gia nhập:
    4/3/12
    Bài viết:
    210
    Đã được thích:
    17
    Web:
    Mình thường dùng Incapsula cho các site, vừa có tính năng CDN tăng tốc load vừa có thể chặn các bots xấu một cách triệt để.
  15. Hoa La

    Hoa La Seo Newbie

    Gia nhập:
    21/5/15
    Bài viết:
    10
    Đã được thích:
    0
    Nơi ở:
    Ho Chi Minh
    Web:
    Trong webmater tool nếu nư có lượng truy cập xấu hay những domail chỏ về mình đêu biết. Nhưng chặn bằng Chặn IP trong Analytics

    Sử dụng Filter trong Google Analytics, bạn có thể exclude những IP này. Chuyển hướng đến Admin -> Choose View -> Filters -> + New Filter -> Predefined -> Exclude traffic from the IP addresses -> Specify IP (regular expression).
    Cách này hay.
  16. Lê Xuân Thái

    Lê Xuân Thái Top 7

    Gia nhập:
    31/8/15
    Bài viết:
    351
    Đã được thích:
    735
    Mình thấy mình cái đó trên thực tế đơn giản vậy không biết bắt tay rô làm liệu có phức tạp không ta
    luyện văn trường thích bài này.
  17. luyện văn trường

    luyện văn trường Top 7

    Gia nhập:
    22/8/15
    Bài viết:
    368
    Đã được thích:
    739
    Ui cái này làm đơn giản lắm bác ơi khi bạn hiểu cơ bản thì là nó cực kì dễ luôn đó
    vanbacadLê Xuân Thái thích bài này.
  18. vanbacad

    vanbacad Top 7

    Gia nhập:
    26/7/15
    Bài viết:
    438
    Đã được thích:
    742
    Web:
    Nói vậy thôi chứ google nó cũng chỉ nắm một phần của mình mà nó cũng không dám tiết lộ đâu mấy bác không phải xoắn
    Lê Xuân Thái thích bài này.
  19. ichiase24h

    ichiase24h Top 9

    Gia nhập:
    17/6/15
    Bài viết:
    174
    Đã được thích:
    3
    Web:
    site của em cũng hay bị mấy trang kiểu này vào lắm không biết nó có ảnh hưởng gì không các bác mà em dùng bộ lọc google analytic chặn hoài ko được :(
  20. _CTPG_

    _CTPG_ Top 9

    Gia nhập:
    28/6/15
    Bài viết:
    56
    Đã được thích:
    10
    Web:
    Mình dùng blogspot chẳng dùng được cái nào @@

Nội quy khi thảo luận:

Dù bạn có cố tình spam bằng cách nào khi BQT diễn đàn phát hiện sẽ lập tức banned nick và xoá toàn bộ bài viết của bạn. Ngoài ra khi phát hiện ra Spam hãy gửi thông báo cho BQT diễn đàn. Hãy suy nghĩ trước khi hành động..!
✓ Khi muốn trả lời ai đó, bạn gõ @ cộng thêm nick diễn đàn của người đó phía sau @, giống như tag tên trên Facebook.
✓ Yêu cầu khi bình luận, bạn phải gõ chữ rõ ràng, không viết tắt, gõ tiếng Việt đầy đủ dấu câu.
✓ Nên dùng font chữ mặc định của diễn đàn, không tô màu lòe loẹt hay dùng size chữ quá lớn khi bình luận.
✓ Bài viết, comment... không được phép quảng cáo dịch vụ, rao vặt, pr... Loại trừ ở chuyên mục Rao vặt đã cho phép.
✓ Nghiêm cấm các chủ đề dạng: Cứu em với, help me, giật tít, câu view... dưới mọi hình thức.
✓ Tất cả các thành viên tham gia diễn đàn cần đọc kỹ Nội quy chung và nghiêm túc tuân thủ.


Chia sẻ trang này

Đang tải...