เทคโนโลยีเสิร์ชเอ็นจิน

เทคโนโลยีเสิร์ชเอ็นจิน

สไปเดอร์

สไปเดอร์ หรืออาจเรียกในชื่ออื่นว่า โรบอต หรือ ครอเลอร์ (Crawler) ทำหน้าที่อ่านเวบเพจในแต่ละ เวบไซต์ แล้วตรวจสอบลิงค์เพื่อเชื่อมไปยังเวบไซต์อื่นๆ เวบเพจที่อ่านมาได้นั้นจะถูกส่งไปยังอินเด็กเซอร์ต่อไป สไปเดอร์อาจจะกลับมาอ่านเวบเพจเดิมซ้ำว่ามีการเปลี่ยนแปลงหรือไม่ตามระยะเวลาที่กำหนดไว้

1. สร้างคิวของเวบเพจ ที่ต้องการจะทำดัชนีโดยในคิวนั้นเริ่มต้นมีอย่างน้อยที่สุดหนึ่งเวบเพจ

2. เลือกเวบเพจขึ้นมาจากคิวหนึ่งเวบเพจ

3. อ่านข้อมูลจากเวบเพจที่เลือกขึ้นมาจากขั้นที่ 2 แล้ววิเคราะห์ว่ามีลิงค์เชื่อมไปยังเวบเพจอื่นใดบ้าง จากนั้นให้เพิ่มลิงค์ของเวบเพจลงคิว

4. เก็บข้อมูลจากเวบเพจโดยจัดเก็บคำที่กำหนดด้วยคำสั่ง title หรืออื่นๆเข้าสู่ฐานข้อมูล

5. กลับไปยังขั้นที่ 2

นอกจาก สไปเดอร์ จะทำงานหาลิงค์เพิ่มโดยอัตโนมัตแล้ว เสิร์ชเอ็นจินส่วนใหญ่อนุญาตให้ส่ง URL เพื่อกำหนดให้สไปเดอร์มาทำดัชนีที่เวบไซต์ใดๆได้ ในปัจจุบันมีบริการที่จะส่ง URL ไปเสิร์ชเอ็นจิน หลายๆแห่งพร้อมกันในคราวเดียวเช่นที่ www.submit-it.com

อินเด็กเซอร์

อินเด็กเซอร์จะรับข้อมูลจากสไปเดอร์มาทำดัชนี เทคนิคการทำดัชนีมักใช้การจัดเก็บแบบแฮชชิง เพื่อที่ช่วยให้ค้นหาข้อมูลได้สามารถค้นหาได้อย่างรวดเร็ว ขั้นตอนการทำงานของอินเด็กเซอร์แบ่งออกได้เป็น 3 ขั้นตอนหลักดังรูปที่ 2 คือ

1 .กรองคำด้วยฟิลเตอร์ 2.แยกคำ 3. จัดทำดัชนี

แหล่งอ้างอิง : นาย สุรศักดิ์ มากทวี

โดย : นาย ณัฐวุฒิ ธนารักษมงคล, มหาลัยราชภัฏวไลยอลงกรณ์, วันที่ 17 กุมภาพันธ์ 2548