|
สไปเดอร์
สไปเดอร์ หรืออาจเรียกในชื่ออื่นว่า โรบอต หรือ ครอเลอร์ (Crawler) ทำหน้าที่อ่านเวบเพจในแต่ละ เวบไซต์ แล้วตรวจสอบลิงค์เพื่อเชื่อมไปยังเวบไซต์อื่นๆ เวบเพจที่อ่านมาได้นั้นจะถูกส่งไปยังอินเด็กเซอร์ต่อไป สไปเดอร์อาจจะกลับมาอ่านเวบเพจเดิมซ้ำว่ามีการเปลี่ยนแปลงหรือไม่ตามระยะเวลาที่กำหนดไว้
|
1. สร้างคิวของเวบเพจ ที่ต้องการจะทำดัชนีโดยในคิวนั้นเริ่มต้นมีอย่างน้อยที่สุดหนึ่งเวบเพจ
2. เลือกเวบเพจขึ้นมาจากคิวหนึ่งเวบเพจ
3. อ่านข้อมูลจากเวบเพจที่เลือกขึ้นมาจากขั้นที่ 2 แล้ววิเคราะห์ว่ามีลิงค์เชื่อมไปยังเวบเพจอื่นใดบ้าง จากนั้นให้เพิ่มลิงค์ของเวบเพจลงคิว
4. เก็บข้อมูลจากเวบเพจโดยจัดเก็บคำที่กำหนดด้วยคำสั่ง title หรืออื่นๆเข้าสู่ฐานข้อมูล
5. กลับไปยังขั้นที่ 2
นอกจาก สไปเดอร์ จะทำงานหาลิงค์เพิ่มโดยอัตโนมัตแล้ว เสิร์ชเอ็นจินส่วนใหญ่อนุญาตให้ส่ง URL เพื่อกำหนดให้สไปเดอร์มาทำดัชนีที่เวบไซต์ใดๆได้ ในปัจจุบันมีบริการที่จะส่ง URL ไปเสิร์ชเอ็นจิน หลายๆแห่งพร้อมกันในคราวเดียวเช่นที่ www.submit-it.com |
|
อินเด็กเซอร์
อินเด็กเซอร์จะรับข้อมูลจากสไปเดอร์มาทำดัชนี เทคนิคการทำดัชนีมักใช้การจัดเก็บแบบแฮชชิง เพื่อที่ช่วยให้ค้นหาข้อมูลได้สามารถค้นหาได้อย่างรวดเร็ว ขั้นตอนการทำงานของอินเด็กเซอร์แบ่งออกได้เป็น 3 ขั้นตอนหลักดังรูปที่ 2 คือ
1 .กรองคำด้วยฟิลเตอร์ 2.แยกคำ 3. จัดทำดัชนี |