คําแนะนําอย่างละเอียดเกี่ยวกับวิธีการทํางานของ Google Search

Google Search คือเครื่องมือค้นหาแบบอัตโนมัติโดยสมบูรณ์ซึ่งใช้ซอฟต์แวร์ที่เรียกว่า Web Crawler ในการสำรวจเว็บเป็นประจำเพื่อค้นหาหน้าเว็บที่จะเพิ่มไปยังดัชนีของเรา ในความเป็นจริง หน้าเว็บส่วนใหญ่ที่แสดงในผลการค้นหาไม่ได้ส่งข้อมูลมาให้รวมไว้ในดัชนี แต่ระบบค้นพบและเพิ่มหน้าเว็บเหล่านั้นโดยอัตโนมัติในขณะที่ Web Crawler ทำการสำรวจเว็บ เอกสารฉบับนี้อธิบายขั้นตอนการทํางานของ Search ในบริบทของเว็บไซต์ การมีความรู้พื้นฐานนี้ช่วยให้คุณสามารถแก้ไขปัญหาการ Crawl, จัดทําดัชนีหน้าเว็บ และทราบวิธีปรับปรุงลักษณะที่เว็บไซต์ปรากฏใน Google Search

ข้อควรทราบก่อนที่เราจะเริ่ม

ก่อนที่เราจะลงรายละเอียดเกี่ยวกับวิธีการทํางานของ Search โปรดทราบว่า Google ไม่รับค่าตอบแทนในการ Crawl เว็บไซต์ให้บ่อยขึ้นหรือจัดอันดับให้สูงขึ้น โปรดอย่าเชื่อผู้ที่บอกข้อมูลต่างจากนี้

Google ไม่รับประกันว่าจะทำการ Crawl, จัดทําดัชนี หรือแสดงหน้าเว็บของคุณ แม้ว่าหน้าเว็บจะเป็นไปตาม Google Search Essentials ก็ตาม

การทํางานของ Google Search มี 3 ขั้นตอนต่อไปนี้ และหน้าเว็บบางหน้าอาจไม่ผ่าน��างขั้นตอน

  1. การ Crawl: Google ดาวน์โหลดข้อความ รูปภาพ และวิดีโอจากหน้าเว็บที่พบในอินเทอร์เน็ตด้วยโปรแกรมอัตโนมัติที่เรียกว่า Crawler
  2. การจั����ํา����������: Google ��ิเคราะห์ข้อความ รูปภาพ และไฟล์วิดีโอในหน้าเว็บ แล้วจัดเก็บข้อมูลไว้ในดัชนีของ Google ซึ่งเป็นฐานข้อมูลขนาดใหญ่
  3. การแสดงผลการค้นหา: เมื่อผู้ใช้ค้นหาใน Google เราจะแสดงข้อมูลที่เกี่ยวข้องกับคําค้นหาของผู้ใช้

การรวบรวมข้อมูล

ขั้นตอนแรกคือการค้นหาหน้าเว็บที่มีอยู่ในอินเทอร์เน็ต เนื่องจากไม่มีรีจิสทรีส่วนกลางสำหรับหน้าเว็บทั้งหมด Google จึงต้องค้นหาหน้าเว็บใหม่และหน้าเว็บที่อัปเดตอย่างสม่ำเสมอ แล้วเพิ่มลงในรายการหน้าเว็บที่รู้จัก กระบวนการนี้เรียกว่า "การค้นพบ URL" Google รู้จักหน้าเว็บบางหน้าเพราะเคยไปที่หน้านั้นแล้ว และจะค้นพบหน้าเว็บบางส่วนเมื่อ Google ตามลิงก์จากหน้าเว็บที่รู้จักไปยังหน้าเว็บใหม่อย่างหน้าฮับ เช่น หน้าหมวดหมู่ ลิงก์ไปยังบล็อกโพสต์ใหม่ ส่วนหน้าอื่นๆ จะค้นพบเมื่อคุณส่งรายการหน้าเว็บ (Sitemap) ให้ Google ทำการ Crawl

เมื่อค้นพบ URL ของหน้าเว็บ Google อาจไปที่ (หรือ "ทำการ Crawl") หน้านั้นเพื่อดูสิ่งที่อยู่ในหน้า เราใช้คอมพิวเตอร์จำนวนมากชุดหนึ่งในการรวบรวมข้อมูลหน้าเว็บหลายพันล้านหน้า โปรแกรมที่ทำการดึงข้อมูลเรียกว่า Googlebot (หรือที่เรียกกันว่า Crawler, โรบ็อต, บ็อต หรือสไปเดอร์ด้วย) Googlebot ใช้ขั้นตอนแบบอัลกอริทึมเพื่อระบุเว็บไซต์ที่จะทำการ Crawl, ความถี่ และจำนวนหน้าเว็บที่จะดึงข้อมูลจากเว็บไซต์แต่ละแห่ง Crawler ของ Google ยังได้รับการกำหนดค่าไว้ไม่ให้ทำการ Crawl เร็วเกินไปเพื่อหลีกเลี่ยงการ Crawl มากเกินไปด้วย กลไก��ี้อิงตามการตอบสนองของเว็บไซต์ (เช่น ข้อผิดพลาด HTTP 500 หมายถึง "ช้าลง")

อย่างไรก็ตาม Googlebot ไม่ได้รวบรวมข้อมูลหน้าเว็บทุกหน้าที่ค้นพบ เนื่องจากเจ้าของเว็บไซต์อาจไม่อนุญาตให้ทำการ Crawl หน้าเว็บบางหน้า จึงอาจเข้าถึงหน้าอื่นๆ ไม่ได้หากไม่ลงชื่อเข้าสู่ระบบในเว็บไซต์

ในระหว่างการ Crawl, Google จะแสดงหน้าเว็บและเรียกใช้ JavaScript ที่พบโดยใช้ Chrome เวอร์ชันล่าสุด ซึ่งคล้ายกับวิธีที่เบราว์เซอร์แสดงผลหน้าเว็บที่คุณเข้าชม การแสดงผลเป็นขั้นตอนสําคัญเนื่องจากเว็บไซต์มักจะใช้ JavaScript ในการนําเสนอเนื้อหาบนหน้าเว็บ และ Google อาจไม่เห็นเนื้อหานั้นหากไม่แสดงผล

การรวบรวมข้อมูลขึ้นอยู่กับว่าโปรแกรมรวบรวมข้อมูลของ Google เข้าถึงเว็บไซต์ได้หรือไม่ ปัญหาที่พบได้ทั่วไปเกี่ยวกับการเข้าถึงเว็บไซต์ของ Googlebot ได้แก่

การจัดทำดัชนี

หลังจากรวบรวมข้อมูลหน้าเว็บแล้ว Google จะพยายามทำความเข้าใจเนื้อหาในหน้า ขั้นตอนนี้เรียกว่า "การจัดทําดัชนี" ซึ่งรวมถึงการประมวลผลและวิเคราะห์เนื้อหาที่เป็นข้อความ รวมถึงแท็กและแอตทริบิวต์ของเนื้อหาหลัก เช่น องค์ประกอบ <title> และแอตทริบิวต์ Alt, รูปภาพ, วิดีโอ และอื่นๆ

ในระหว่างกระบวนการจัดทําดัชนี Google จะพิจารณาว่าหน้าเว็บซ้ำกับหน้าอื่นในอินเทอร์เน็ตหรือเป็นหน้า Canonical ซึ่งก็คือหน้าที่อาจแสดงในผลการค้นหา ในการเลือกหน้า Canonical ก่อนอื่นเราจะจัดหน้าเว็บที่พบในอินเทอร์เน็ตซึ่งมีเนื้อหาคล้ายกันไว้เป็นกลุ่ม (บ้างก็เรียกว่าคลัสเตอร์) จากนั้นจึงเลือกหน้าที่เป็นตัวแทนของกลุ่มดังกล่าวได้ดีที่สุด ส่วนหน้าอื่นในกลุ่มจะเป็นเวอร์ชันทางเลือกที่อาจแสดงในบริบทต่างๆ เช่น ในกรณีที่ผู้ใช้ค้นหาจากอุปกรณ์เคลื่อนที่ หรือมองหาหน้าเว็บที่เจาะจงมากจากคลัสเตอร์นั้น

นอกจากนี้ Google ยังรวบรวมสัญญาณเกี่ยวกับหน้า Canonical และเนื้อหาในหน้า ซึ่งอาจใช้ในขั้นตอนถัดไปที่เราแสดงหน้าเว็บนั้นในผลการค้นหา ตัวอย่างสัญญาณ เช่น ภาษาของหน้าเว็บ ประเทศที่เนื้อหาอยู่ และความสามารถในการใช้งานของหน้าเว็บ

ข้อมูลที่รวบรวมไว้เกี่ยวกับหน้า Canonical และคลัสเตอร์อาจจัดเก็บไว้ในดัชนีของ Google ซึ่งเป็นฐานข้อมูลขนาดใหญ่ที่โฮสต์ในคอมพิวเตอร์หลายพันเครื่อง Google ไม่รับประกันการจัดทําดัชนี ซึ่งหมายความว่าเราไม่ได้จัดทําดัชนีหน้าเว็บทุกหน้าที่ประมวลผล

การจัดทําดัชนียังขึ้นอยู่กับเนื้อหาของหน้าเว็บและข้อมูลเมตาด้วย ปัญหาทั่วไปเกี่ยวกับการจัดทำดัชนี ได้แก่

การแสดงผลการค้นหา

เมื่อผู้ใช้��้อนคำค้นหา เครื่องคอมพิวเตอร์ของเราจะค้นหาหน้าเว็บที่ตรงกันจากดัชนีแล้วแสดงผลลัพธ์ที่คิดว่ามีคุณภาพดีที่สุดแล���เ����่ยว��้อ��กั��ข���อ����ามค้นหาของผู้ใช้มากที่สุด ความเกี่ยวข้องจะพิจารณาจากปัจจัยหลายร้อยรายการ ซึ่งอาจรวมถึงข้อมูล เช่น ตําแหน่ง ภาษา และอุปกรณ์ (เดสก์ท็อปหรือโทรศัพท์) ของผู้ใช้ ตัวอย่างเช่น การค้นหา "ร้านซ่อมจักรยาน" จะแสดงผลลัพธ์ที่แตกต่างกันแก่ผู้ใช้ในปารีสและผู้ใช้ในฮ่องกง

ฟีเจอร์การค้นหาที่ปรากฏในหน้าผลการค้นหาจะเปลี่ยนแปลงไปตามคําค้นหาของผู้ใช้ด้วย ตัวอย่างเช่น การค้นหา "ร้านซ่อมจักรยาน" น่าจะแสดงผลการค้นหาในพื้นที่และไม่มีผลการค้นหารูปภาพ อย่างไรก็ตาม การค้นหา "จักรยานรุ่นใหม่" มีแนวโน้มที่จะแสดงผลการค้นหารูปภาพมากกว่าผลการค้นหาในพื้นที่ สํารวจองค์ประกอบ UI ที่พบบ่อยที่สุดของ Google Web Search ได้ในแกลเลอรีองค์ประกอบที่มองเห็น

Search Console อาจแจ้งว่ามีการจัดทําดัชนีหน้าเว็บแล้ว แต่คุณไม่เห็นหน้าดังกล่าวในผลการค้นหา ปัญหานี้อาจเกิดจากสาเหตุต่อไปนี้

แม้ว่าคู่มือนี้จะอธิบายวิธีการทํางานของ Search แต่เราพยายามปรับปรุงอัลกอริทึมอยู่เสมอ คุณติดตามการเปลี่ยนแปลงเหล่านี้ได้โดยไปที่บล็อก Google Search Central