
Các công cụ tìm kiếm hoạt động như thế nào ?
Trước khi bắt đầu tối ưu hóa trang web cho các công cụ tìm kiếm, bạn nên biết chúng hoạt động như thế nào. Không phải là các chi tiết kỹ thuật của nó – mà là những hiểu biết rõ hơn về những gì khiến một công cụ tìm kiếm hoạt động. Hiểu rõ mục đích của các công cụ tìm kiếm và cách chúng hoạt động là trọng tâm để làm SEO hiệu quả.
Nhiệm vụ của các công cụ tìm kiếm
Lúc này, quan trọng là phải hiểu rằng các công cụ tìm kiếm quan tâm, trước tiên và quan trọng nhất, đến việc cung cấp các kết quả tìm kiếm kịp thời, phù hợp, chất lượng cao cho người dùng. Bạn có thể nói đó là tôn chỉ hàng đầu của chúng – là lý do chúng tồn tại. Các công cụ tìm kiếm không ngừng nghiên cứu, phát triển, thử nghiệm và xác định những cách thức để nâng cao các dịch vụ mà chúng cung cấp – tìm cách tối ưu hóa sự phù hợp và chất lượng của các kết quả mà chúng trả lại cho người dùng ở mỗi truy vấn.
Lý do rất đơn giản: trải nghiệm tìm kiếm của người sử dụng càng tốt, uy tín của các công cụ tìm kiếm càng cao và nó càng thu hút được nhiều người sử dụng. Công cụ tìm kiếm càng được nhiều người sử dụng, thì càng hấp dẫn đối với các nhà quảng cáo, từ đó có được doanh thu quảng cáo càng lớn.
Coi trọng người dùng khiến các công cụ tìm kiếm thu lợi nhiều hơn… và điều đó khiến cổ đông của các công cụ tìm kiếm vui hơn. Xét ở khía cạnh này, Internet không có gì khác so với các kênh tiếp thị truyền thống như các ấn phẩm truyền hình, đài phát thanh hay in ấn. Người xem, thính giả và độc giả là những người mà các kênh này chăm sóc trước tiên là bởi họ là người mang lại các nhà quảng cáo. Nếu không có người xem, họ không có quảng cáo và không có quảng cáo, thì không có lợi nhuận.
Từ góc nhìn của một nhà tiếp thị, việc yêu cầu các công cụ tìm kiếm cải tiến liên tục trải nghiệm người dùng là một con dao hai lưỡi. Điều đó có nghĩa là các công cụ tìm kiếm tốt nhất có một nhóm khách hàng tiềm năng lớn hơn cho quảng cáo tìm kiếm trả tiền và những nỗ lực SEO hệ thống của bạn. Nhưng công bằng mà nói, trên thực tế mọi thứ liên tục thay đổi khiến quá trình tối ưu hóa trở thành một quá trình nhiều biến động và khốc liệt.
Tẩy rửa web
Để cung cấp các kết quả tìm kiếm chính xác, phù hợp, chất lượng cao đến người dùng, các công cụ tìm kiếm cần phải thu thập thông tin chi tiết về hàng tỷ trang web trên mạng. Chúng làm điều này bằng cách sử dụng các chương trình tự động hóa được gọi là “bot” (viết tắt của robot) – hay các “spider” (nhện) – được chúng thả ra để “bò” trên web.
Spider lần theo các siêu liên kết và thu thập thông tin về những trang mà chúng tìm thấy.
Khi một trang bị “nhện bò”, công cụ tìm kiếm lưu trữ thông tin chi tiết về nội dung của trang đó và các liên kết cả ra lẫn vào trang web, trong một cơ sở dữ liệu khổng lồ được gọi là chỉ mục. Chỉ mục này được tối ưu hóa cao để kết quả của bất kỳ yêu cầu tìm kiếm nào trong số hàng trăm triệu yêu cầu tìm kiếm nhận được mỗi ngày có thể được trích xuất gần như ngay lập tức.
Đó là một nhiệm vụ vô cùng lớn lao. Dù không ai biết con số thực tế của các trang web được truy cập trên mạng và công cụ tìm kiếm thường không công bố quy mô của các chỉ mục, nhưng một bài đăng trên blog chính thức của Google vào tháng 7 năm 2008 đã đưa ra một số quan sát hiếm hoi về quy mô của trang web:
Chỉ mục Google đầu tiên trong năm 1998 đã có 26 triệu trang và đến năm 2000 chỉ mục Google cán mốc 1 tỷ. Trong 8 năm qua, chúng tôi đã thấy có một lượng lớn nội dung được cung cấp. Gần đây, ngay cả các kỹ sư tìm kiếm của chúng tôi cũng thôi kiêng nể quy mô lớn của của các trang web ngày nay – khi mà hệ thống của chúng tôi xử lý các liên kết trên web để tìm kiếm đã cán cột mốc quan trọng: 1 nghìn tỷ (1.000.000.000.000) URL truy cập web cùng lúc!
Tất nhiên, các công cụ tìm kiếm không đánh chỉ mục từng URL trong hàng tỷ tỷ URL này. Nhiều URL trong số đó chứa những thông tin tương tự, trùng lặp nhau hoặc không thực sự phù hợp với tìm kiếm (hãy nghĩ đến một lịch sự kiện trực tuyến được tạo ra tự động với các liên kết đến “ngày trước” hoặc “ngày sau” – về lý thuyết, bạn có thể tiếp tục nhấp chuột mãi mãi, nhưng chỉ các trang chứa thông tin sự kiện có liên quan mới xuất hiện trong các kết quả tìm kiếm), do đó một số URL không được đưa vào chỉ mục.
Chúng tôi không biết có bao nhiêu trang trên web, do đó, có bao nhiêu trang được lưu trữ trong các chỉ mục của công cụ tìm kiếm (thông tin hiếm khi được cung cấp một cách tự nguyện), nhưng có thể nói rằng chúng tôi đang xử lý những con số rất lớn.
Danh sách kết quả cho bất kỳ truy vấn tìm kiếm nào thường chứa hàng triệu trang, được chạy qua thuật toán xếp hạng phức tạp của các công cụ tìm kiếm: những chương trình đặc biệt có sử dụng một loạt các công thức độc quyền được bảo vệ nghiêm ngặt để “chấm điểm” sự phù hợp của một trang đối với truy vấn ban đầu của người dùng. Kết quả sau đó sẽ được sắp xếp theo thứ tự phù hợp và trình bày trước người dùng trong SERP.
Các công cụ tìm kiếm xử lý một khối lượng khổng lồ các tìm kiếm, quét hàng tỷ chi tiết và cung cấp các trang có liên quan, xếp hạng các kết quả trong một phần rất nhỏ của một giây. Đối với người dùng, quá trình này có vẻ nhanh chóng, đơn giản và liên tục; nhưng có rất nhiều quy trình xảy ra sau nó. Google và Bing (mà sau một thỏa thuận vào năm 2010 giữa Yahoo và Microsoft, hiện cũng cung cấp các kết quả tìm kiếm Yahoo!) đang chạy một số ứng dụng máy tính phức tạp và yêu cầu cao nhất thế giới.