Googlebot cần thu thập dữ liệu trang web của bạn trước khi nó được hiển thị cho người dùng trong kết quả tìm kiếm. Mặc dù đây là một bước thiết yếu nhưng nó không được chú ý nhiều như nhiều chủ đề khác. Tôi nghĩ một phần là do Google không chia sẻ nhiều thông tin về cách Googlebot thu thập dữ liệu web.

1. Googlebot bỏ qua một số URL

Googlebot sẽ không truy cập mọi URL mà nó tìm thấy trên web. Một trang web càng lớn thì càng có nhiều rủi ro khi một số URL của nó không được thu thập thông tin và lập chỉ mục.

Tại sao Googlebot không truy cập vào mọi URL mà nó có thể tìm thấy trên web? Có hai lý do cho điều đó:

  1. Google có tài nguyên hạn chế. Có rất nhiều thư rác trên web, vì vậy Google cần phát triển các cơ chế để tránh truy cập các trang chất lượng thấp. Google ưu tiên thu thập thông tin các trang quan trọng nhất.
  2. Googlebot được thiết kế để trở thành một công dân tốt của web. Nó hạn chế việc thu thập thông tin để tránh sự cố máy chủ của bạn.

Cơ chế chọn URL để truy cập được mô tả trong bằng sáng chế của Google ” Phương pháp và công cụ để quản lý tồn đọng các lần thu thập thông tin URL đang chờ xử lý “:

“Thu thập thông tin URL đang chờ xử lý bị từ chối khỏi hồ sơ tồn đọng nếu mức độ ưu tiên của việc thu thập thông tin URL đang chờ xử lý không đạt ngưỡng ưu tiên”

“Nhiều tiêu chí khác nhau được áp dụng cho các lần thu thập thông tin URL được yêu cầu, để các lần thu thập thông tin URL ít quan trọng hơn bị từ chối sớm khỏi cấu trúc dữ liệu tồn đọng. “

5 điều bạn chưa biết về Googlebot
5 điều bạn chưa biết về Googlebot

Những trích dẫn này cho thấy rằng Google đang chỉ định mức độ ưu tiên thu thập thông tin cho mọi URL và có thể từ chối thu thập thông tin một số URL không đáp ứng tiêu chí ưu tiên.

Mức độ ưu tiên được chỉ định cho các URL được xác định bởi hai yếu tố:

  1. Mức độ phổ biến của một URL,
  2. Tầm quan trọng của việc thu thập thông tin một URL nhất định để duy trì tính mới của chỉ mục của Google.

“Mức độ ưu tiên có thể cao hơn dựa trên mức độ phổ biến của nội dung hoặc địa chỉ IP / tên miền và tầm quan trọng của việc duy trì tính mới của nội dung thay đổi nhanh chóng, chẳng hạn như tin nóng. Bởi vì khả năng thu thập thông tin là một nguồn tài nguyên khan hiếm, khả năng thu thập thông tin được bảo tồn với điểm ưu tiên. “

Chính xác thì điều gì làm cho một URL trở nên phổ biến? Bằng sáng chế ” Giảm thiểu khả năng hiển thị nội dung cũ trong tìm kiếm trên web bao gồm sửa đổi khoảng thời gian thu thập dữ liệu web của tài liệu ” của Google xác định mức độ phổ biến của URL là sự kết hợp của hai yếu tố: tỷ lệ xem và Xếp hạng trang.

Xếp hạng trang cũng được đề cập trong ngữ cảnh này trong các bằng sáng chế khác, chẳng hạn như Trình lập lịch cho trình thu thập thông tin của công cụ tìm kiếm .

Nhưng có một điều nữa bạn nên biết. Khi máy chủ của bạn phản hồi chậm, ngưỡng ưu tiên mà URL của bạn phải đáp ứng sẽ tăng lên.

“Ngưỡng ưu tiên được điều chỉnh, dựa trên ước tính xác suất được cập nhật về việc đáp ứng các thu thập thông tin URL được yêu cầu. Ước tính xác suất này dựa trên phần ước tính của các thu thập thông tin URL được yêu cầu có thể được đáp ứng. Phần thu thập thông tin URL được yêu cầu có thể được đáp ứng như tử số khoảng thời gian yêu cầu trung bình hoặc sự khác biệt về thời gian đến giữa các yêu cầu thu thập thông tin URL. “

Tóm lại, Googlebot có thể bỏ qua việc thu thập thông tin một số URL của bạn nếu chúng không đáp ứng ngưỡng ưu tiên dựa trên Xếp hạng trang của URL và số lượt xem mà nó nhận được.

Điều này có ý nghĩa mạnh mẽ đối với mọi trang web lớn.

Nếu một trang không được thu thập thông tin, nó sẽ không được lập chỉ mục và sẽ không được hiển thị trong kết quả tìm kiếm.

2. Google phân chia các trang thành các lớp để thu thập lại thông tin

Google muốn kết quả tìm kiếm càng mới và cập nhật càng tốt. Điều này chỉ khả thi khi có cơ chế thu thập lại thông tin nội dung đã được lập chỉ mục.

Trong bằng sáng chế ” Giảm thiểu khả năng hiển thị của nội dung cũ trong tìm kiếm trên web “, tôi đã tìm thấy thông tin về cách cơ chế này được cấu trúc.

Google đang chia các trang thành các cấp dựa trên tần suất thuật toán quyết định chúng cần được thu thập lại thông tin.

“Theo một phương án, tài liệu được phân chia thành nhiều lớp, mỗi lớp bao gồm nhiều tài liệu chia sẻ khoảng thời gian thu thập thông tin web tương tự.”

Vì vậy, nếu các trang của bạn không được thu thập thông tin thường xuyên như bạn muốn, chúng rất có thể nằm trong một cấp tài liệu có khoảng thời gian thu thập dữ liệu dài hơn.

Tuy nhiên, đừng tuyệt vọng! Các trang của bạn không cần phải ở trong bậc đó mãi mãi – chúng có thể được di chuyển.

Mỗi khi một trang được thu thập thông tin là một cơ hội để bạn chứng tỏ rằng trang đó đáng được thu thập lại thông tin thường xuyên hơn trong tương lai.

“Sau mỗi lần thu thập thông tin, công cụ tìm kiếm sẽ đánh giá lại khoảng thời gian thu thập thông tin web của tài liệu và xác định xem tài liệu có nên được chuyển từ cấp hiện tại sang cấp khác hay không.”

Rõ ràng là nếu Google nhận thấy một trang thường xuyên thay đổi, nó có thể được chuyển sang một cấp khác. Nhưng nó không đủ để thay đổi một số yếu tố thẩm mỹ nhỏ – Google đang phân tích cả chất lượng và số lượng các thay đổi bạn thực hiện cho các trang của mình.

3. Google không lập chỉ mục lại một trang mỗi lần thu thập thông tin

Theo tính năng Giảm thiểu khả năng hiển thị của nội dung cũ trong tìm kiếm trên web bao gồm cả việc sửa đổi các khoảng thời gian thu thập dữ liệu web của bằng sáng chế tài liệu , Google không lập chỉ mục lại một trang sau mỗi lần thu thập thông tin.

“Nếu tài liệu đã thay đổi nghiêm trọng kể từ lần thu thập thông tin cuối cùng, trình lập lịch sẽ gửi thông báo tới trình lập chỉ mục nội dung (không được hiển thị), trình này sẽ thay thế các mục nhập chỉ mục cho phiên bản trước của tài liệu bằng các mục nhập chỉ mục cho phiên bản hiện tại của tài liệu. Tiếp theo, trình lập lịch tính toán khoảng thời gian thu thập thông tin web mới cho tài liệu dựa trên khoảng thời gian cũ và thông tin bổ sung, ví dụ: tầm quan trọng của tài liệu (được đo bằng điểm số, chẳng hạn như Xếp hạng trang), tỷ lệ cập nhật và / hoặc tỷ lệ nhấp. Nếu nội dung của tài liệu có không bị thay đổi hoặc nếu nội dung thay đổi không quan trọng thì không cần lập chỉ mục lại tài liệu. “

Tôi đã nhìn thấy nó trong tự nhiên nhiều lần.

Hơn nữa, tôi đã thực hiện một số thử nghiệm trên các trang hiện có tại Onely com . Tôi nhận thấy rằng nếu tôi chỉ thay đổi một phần nội dung thông minh, Google sẽ không lập chỉ mục lại nội dung đó.

Làm:

Nếu bạn có một trang web tin tức và thường xuyên cập nhật các bài đăng của mình, hãy kiểm tra xem Google có lập lại chỉ mục đủ nhanh hay không. Nếu không phải như vậy, bạn có thể chắc chắn rằng có những tiềm năng chưa được sử dụng dành cho bạn trong Google Tin tức.

4. Tỷ lệ nhấp chuột và liên kết nội bộ

Trong phần trích dẫn trước, bạn có nhận thấy tỷ lệ nhấp chuột được đề cập như thế nào không?

“Tiếp theo, bộ lập lịch tính toán khoảng thời gian thu thập dữ liệu web mới cho tài liệu dựa trên khoảng thời gian cũ và thông tin bổ sung, ví dụ: tầm quan trọng của tài liệu (được đo bằng điểm số, chẳng hạn như Xếp hạng trang), tỷ lệ cập nhật và / hoặc tỷ lệ nhấp”

Trích dẫn này cho thấy rằng tỷ lệ nhấp ảnh hưởng đến tần suất URL được thu thập thông tin.

Hãy tưởng tượng chúng ta có hai URL. Một trang được người dùng Google truy cập 100 lần một tháng, một trang khác được truy cập 10000 lần mỗi tháng. Tất cả những thứ khác đều bình đẳng, Google nên truy cập lại trang có 10000 lượt truy cập mỗi tháng thường xuyên hơn.

Theo bằng sáng chế, Xếp hạng Trang cũng là một phần quan trọng của việc này. Đây là một lý do nữa để bạn đảm bảo rằng bạn đang sử dụng đúng cách liên kết nội bộ để kết nối các phần khác nhau trong miền của mình.

Làm:

  • Google và người dùng có thể dễ dàng truy cập các phần quan trọng nhất trên trang web của bạn không?
  • Có thể truy cập tất cả các URL quan trọng không? Có sẵn tất cả các URL của bạn trong sơ đồ trang web có thể là không đủ.

5. Không phải tất cả các liên kết đều như nhau

Theo các bằng sáng chế của Google, chúng tôi đã đề cập đến việc PageRank ảnh hưởng nặng nề đến việc thu thập thông tin như thế nào.

Việc triển khai đầu tiên của thuật toán PageRank không phức tạp, ít nhất là đánh giá theo các tiêu chuẩn hiện tại. Nó tương đối đơn giản – nếu bạn có một liên kết từ một trang * quan trọng *, bạn sẽ xếp hạng cao hơn các trang khác.

Tuy nhiên, lần triển khai đầu tiên của PageRank đã được phát hành cách đây hơn 20 năm. Google đã thay đổi rất nhiều kể từ đó.

Tôi đã tìm thấy các bằng sáng chế thú vị, chẳng hạn như Xếp hạng tài liệu dựa trên hành vi của người dùng và / hoặc dữ liệu tính năng , cho thấy rằng Google nhận thức rõ rằng một số liên kết trên một trang nhất định nổi bật hơn những liên kết khác. Và sau đó, Google có thể xử lý các liên kết này theo cách khác.

“Mô hình lướt web hợp lý này phản ánh thực tế là không phải tất cả các liên kết được liên kết với tài liệu đều có khả năng được theo dõi như nhau. Ví dụ về các liên kết không được theo dõi có thể bao gồm liên kết” Điều khoản dịch vụ “, quảng cáo biểu ngữ và liên kết không liên quan đến tài liệu.”

Vì vậy, Google đang phân tích các liên kết dựa trên các tính năng khác nhau của chúng. Ví dụ, họ có thể xem kích thước phông chữ và vị trí liên kết.

” Ví dụ: đơn vị tạo mô hình có thể tạo quy tắc chỉ ra rằng các liên kết có văn bản liên kết lớn hơn kích thước phông chữ cụ thể có xác suất được chọn cao hơn các liên kết có văn bản liên kết nhỏ hơn kích thước phông chữ cụ thể. Ngoài ra, hoặc cách khác, tạo mô hình đơn vị có thể tạo ra một quy tắc chỉ ra rằng các liên kết được đặt gần đầu tài liệu hơn có xác suất được chọn cao hơn các liên kết được đặt ở cuối tài liệu. “

Thậm chí, có vẻ như Google có thể tạo ra các quy tắc để đánh giá các liên kết ở cấp độ trang web. Ví dụ: Google có thể thấy rằng các liên kết trong “Các tin bài hàng đầu khác” được nhấp vào thường xuyên hơn để có thể tạo thêm sức nặng cho chúng.

“(…) đơn vị tạo mô hình có thể tạo ra một quy tắc chỉ ra rằng một liên kết được đặt trong tiêu đề” Các tin bài hàng đầu khác “trên trang web cnn com có xác suất cao được chọn. Ngoài ra, hoặc cách khác, đơn vị tạo mô hình có thể tạo quy tắc chỉ ra rằng liên kết được liên kết với URL mục tiêu có chứa từ “công viên miền” có xác suất được chọn thấp. Ngoài ra, hoặc cách khác, đơn vị tạo mô hình có thể tạo quy tắc cho biết rằng liên kết được liên kết với nguồn tài liệu chứa cửa sổ bật lên có xác suất được chọn thấp. “

Ngoài ra, trong một cuộc trò chuyện với Barry Schwartz và Danny Sullivan vào năm 2016 , Gary IIIyes đã xác nhận rằng Google gắn nhãn các liên kết, chẳng hạn như phần chân trang hoặc bị ảnh hưởng bởi Penguin.

“Về cơ bản, chúng tôi có rất nhiều nhãn liên kết; ví dụ, đó là liên kết chân trang, về cơ bản, có giá trị thấp hơn nhiều so với liên kết trong nội dung. Sau đó, một nhãn khác sẽ là nhãn thời gian thực Penguin.”

Những điều quan trọng

  • Google đang chỉ định mức độ ưu tiên cho mọi trang được thu thập
  • Trang web càng nhanh, Google có thể thu thập dữ liệu trang web càng nhanh.
  • Google sẽ không thu thập dữ liệu và lập chỉ mục mọi URL. Chỉ các URL có mức độ ưu tiên được chỉ định trên ngưỡng mới được thu thập thông tin.
  • Các liên kết được xử lý khác nhau tùy thuộc vào các tính năng và vị trí của chúng
  • Google không lập chỉ mục lại một trang sau mỗi lần thu thập thông tin. Nó phụ thuộc vào mức độ nghiêm trọng của những thay đổi đã được thực hiện.

Kết thúc

Như bạn có thể thấy, thu thập thông tin không phải là một quá trình đơn giản khi đi theo tất cả các liên kết mà Googlebot có thể tìm thấy. Nó thực sự phức tạp và nó có tác động trực tiếp đến khả năng hiển thị tìm kiếm của mọi trang web. Tôi hy vọng rằng bài viết này đã giúp bạn hiểu rõ hơn về việc thu thập thông tin và bạn sẽ có thể sử dụng kiến ​​thức này để cải thiện cách Googlebot thu thập dữ liệu trang web của bạn và kết quả là xếp hạng tốt hơn.

Tomek và nhóm của anh ấy luôn tìm hiểu các chủ đề mới thú vị xung quanh việc tìm kiếm mọi thứ. Bạn có thể tìm thấy các bài viết như thế này và hơn thế nữa trên blog Onely của họ .

Googlebot

Googlebot

Googlebot

LEAVE A REPLY

Please enter your comment!
Please enter your name here