Indeksavimas yra failo, esančio interneto šaltinyje, nuskaitymas paieškos robotu. Ši procedūra atliekama taip, kad svetainė būtų prieinama paieškos užklausų paieškos rezultatuose. Tarp didžiausių paieškos sistemų šiandien yra „Yandex“, kuri šį nuskaitymą atlieka savaip.
Nurodymai
1 žingsnis
Interneto svetainės indeksavimą vykdo specialios automatinės programos - paieškos robotai, kurie automatiškai stebi naujų svetainių atsiradimą pasauliniame žiniatinklyje, nuolat nuskaito internete esančius interneto puslapius, failus ir nuorodas į juos kiekviename šaltinyje.
2 žingsnis
Norėdami nuskaityti, robotas eina į katalogą, kuriame tam tikrame serveryje yra išteklius. Renkantis naują vietą, robotas vadovaujasi jo prieinamumu. Pavyzdžiui, yra nuomonė, kad „Yandex“pirmiausia nuskaito svetaines, sukurtas rusų kalba ir rusų kalba - ru, rf, su arba ua, ir tik tada persikelia į kitus regionus.
3 žingsnis
Robotas nueina į svetainę ir nuskaito jos struktūrą, pirmiausia ieškodamas failų, nurodančių tolesnę paiešką. Pvz., Svetainėje yra nuskaityta, ar yra Sitemap.xml arba robots.txt. Šiais failais galima nustatyti paieškos roboto elgseną nuskaitant. Naudodamas svetainės schemą (sitemap.xml), robotas gauna tikslesnę išteklių struktūros idėją. Žiniatinklio valdytojas naudoja robots.txt failams apibrėžti, kurių jis nenorėtų rodyti paieškos rezultatuose. Pavyzdžiui, tai gali būti asmeninė informacija ar kiti nepageidaujami duomenys.
4 žingsnis
Nuskaitęs šiuos du dokumentus ir gavęs reikalingas instrukcijas, robotas pradeda analizuoti HTML kodą ir apdoroti gautas žymas. Pagal numatytuosius nustatymus, jei nėra robots.txt failo, paieškos variklis pradeda apdoroti visus serveryje saugomus dokumentus.
5 žingsnis
Spustelėdamas dokumentuose esančias nuorodas, robotas taip pat gauna informaciją apie kitas svetaines, kurios yra eilės nuskaitymui sekant šį šaltinį. Nuskaityti failai svetainėje įrašomi kaip teksto kopija ir struktūra „Yandex“duomenų centruose esančiuose serveriuose.
6 žingsnis
Pakartotinio nuskaitymo poreikį automatiškai nustato ir robotai. Programa vėl palygina esamą nuskaitymo rezultatą su atnaujinta svetainės versija, kai vėl bus atliekamas indeksavimas. Jei programos gaunami duomenys skiriasi, svetainės kopija atnaujinama ir „Yandex“serveryje.