หุ่นยนต์เครื่องมือค้นหามีหน้าที่ในการรวบรวมข้อมูลหน้าเว็บ โปรแกรมจะอ่านข้อมูลจากเว็บไซต์ทั้งหมดโดยอัตโนมัติและลงทะเบียนในรูปแบบที่เข้าใจได้สำหรับเครื่องมือค้นหา ดังนั้นในภายหลังระบบจะแสดงผลลัพธ์ที่เหมาะสมที่สุดสำหรับผู้ใช้
ฟังก์ชั่น
ข้อมูลที่จัดทำดัชนีทั้งหมดจะถูกบันทึกในฐานข้อมูลทั่วไป
หุ่นยนต์ค้นหาคือโปรแกรมที่เดินทางโดยอัตโนมัติผ่านหน้าต่างๆ ของอินเทอร์เน็ต ขอเอกสารที่จำเป็น และรับโครงสร้างของไซต์ที่รวบรวมข้อมูล หุ่นยนต์จะเลือกหน้าที่จะสแกนอย่างอิสระ ในกรณีส่วนใหญ่ ไซต์ที่จะสแกนจะถูกสุ่มเลือก
ประเภทบอท
หุ่นยนต์ทำงานไม่ถูกต้องจะเพิ่มภาระงานบนเครือข่ายและเซิร์ฟเวอร์อย่างมาก ซึ่งอาจทำให้ทรัพยากรใช้งานไม่ได้
เครื่องมือค้นหาแต่ละรายการมีหลายโปรแกรมที่เรียกว่าโรบ็อต แต่ละคนสามารถทำหน้าที่เฉพาะได้ ตัวอย่างเช่น ที่ Yandex หุ่นยนต์บางตัวมีหน้าที่สแกนฟีดข่าว RSS ซึ่งจะเป็นประโยชน์สำหรับการสร้างดัชนีบล็อก นอกจากนี้ยังมีโปรแกรมที่ค้นหาเฉพาะรูปภาพ อย่างไรก็ตาม สิ่งที่สำคัญที่สุดคือบอทการจัดทำดัชนี ซึ่งเป็นพื้นฐานสำหรับการค้นหาใดๆ นอกจากนี้ยังมีหุ่นยนต์เสริมความเร็วที่ออกแบบมาเพื่อค้นหาข้อมูลอัปเดตเกี่ยวกับฟีดข่าวและกิจกรรมต่างๆ
ขั้นตอนการสแกน
อีกวิธีหนึ่งในการป้องกันการรวบรวมข้อมูลเนื้อหาคือการสร้างการเข้าถึงเว็บไซต์ผ่านแผงการลงทะเบียน
เมื่อเยี่ยมชมไซต์ โปรแกรมจะสแกนระบบไฟล์เพื่อหาไฟล์คำสั่ง robots.txt หากมีเอกสาร การอ่านคำสั่งที่เขียนไว้ในเอกสารจะเริ่มต้นขึ้น Robots.txt สามารถห้ามหรืออนุญาตการสแกนบางหน้าและไฟล์บนเว็บไซต์
ขั้นตอนการสแกนขึ้นอยู่กับประเภทของโปรแกรม บางครั้งโรบ็อตจะอ่านเฉพาะชื่อหน้าและย่อหน้าไม่กี่ย่อหน้าเท่านั้น ในบางกรณี การสแกนจะเสร็จสิ้นทั่วทั้งเอกสาร ขึ้นอยู่กับมาร์กอัป HTML ซึ่งสามารถใช้เป็นวิธีการระบุวลีสำคัญได้เช่นกัน บางโปรแกรมเชี่ยวชาญในการซ่อนหรือเมตาแท็ก
เพิ่มในรายการ to
ผู้ดูแลเว็บทุกคนสามารถป้องกันไม่ให้เครื่องมือค้นหารวบรวมข้อมูลหน้าเว็บผ่าน robots.txt หรือแท็ก META นอกจากนี้ ผู้สร้างไซต์สามารถเพิ่มไซต์ลงในคิวการจัดทำดัชนีได้ด้วยตนเอง แต่การเพิ่มไม่ได้หมายความว่าโรบ็อตจะรวบรวมข้อมูลหน้าที่ต้องการในทันที ในการเพิ่มไซต์ลงในคิว เครื่องมือค้นหายังมีอินเทอร์เฟซพิเศษอีกด้วย การเพิ่มไซต์ทำให้กระบวนการสร้างดัชนีเร็วขึ้นอย่างมาก นอกจากนี้ สำหรับการลงทะเบียนอย่างรวดเร็วในเครื่องมือค้นหา ระบบวิเคราะห์เว็บ ไดเร็กทอรีไซต์ ฯลฯ สามารถใช้ได้