Виртуелна Македонија Форуми  

Одете назад   Виртуелна Македонија Форуми > Информатика > Интернет > Веб Дизајн и Програмирање

Важни забелешки

Веб Дизајн и Програмирање Веб дизајнирање и веб програмирање за почетници и професионалци, рецензии, совети, забелешки, помош за изработка на вебстрани.

 
 
Линкови Алатки за темата Начин на прикажување
Старо 03-05-2007, 15:35   #1 (Линк до мислењето) Најгоре
mixm
 
Аватарот на vardarce
 
Регистриран: Jun 2005
Локација: Buenos Aires
Мислења: 8.924
Блог записи: 34
Слики: 11
Популарност: vardarce ја има оневозможено популарноста
Испратете порака преку MSN до vardarce
Стандардно Robots.txt

Контролирање на тоа како пребарувачите пристапуваат и ја индексираат вашата вебстрана

Повеќето се прашувате како пребарувачите (search engines) работат, прашањето е како Google знае кои делови од вашата вебстрана сакате вие да бидат индексирани кај пребарувачот? Можат ли сопствениците на вебстраните да специфираат кои делови од нивните страни да бидат приватни и неиндексирани? Добрата вест е дека тие што ја имаат вебстраната имаат голема контрола на тоа која страна треба да се индексира и прикажува на некој пребарувач.

Решението е во едноставната датотека наречена robots.txt којa е стандард за оваа работа многу години наназад. Оваа датотека им дозволува на вебмастерите да контролираат како пребарувачите им пристапуваат на нивните вебстрани. Со robots.txt можете да го контролирате пристапот на повеќе нивоа – пристап до целата вебстрана, пристап до одредени директориуми, пристап до специфични страни, пристап до индивидуални страни итн. Корисната работа на robots.txt е во тоа што ви дава голема контрола на тоа како вашата вебстрана е индексирана и пребарувана, но не е секогаш очигледно како да го постигнете тоа што вие го сакате. Во подолните примери ќе објасниме како да ја користите robots.txt за да го контролирате пристапот на пребарувачите до вашите информации.


Каква функција има robots.txt

Пребарувачите како Google читаат низ сите информации на вашата вебстрана и креираат индекс од сите нив. Индексот им дозволува на пребарувачите да ги зимаат побарувањата од корисниците и да им ги прикажува вебстраните што одговараат на тој индекс кој го побарале.
Со цел ова да го направи Google има компјутери кој непрекинато ги скенираат (crawl) вебстраните низ интернетот. Тие компјутери имаат листа на сите вебстрани кој Google ги знае и континуирано скенираат низ информациите на вебстраната. Заедно сите овие машини се наречени Googlebot и уствари целта е Googlebot да има пристап до вашата вебстрана за да луѓето ја најдат при пребарувањето на Google.

Како и да е сигурно ќе има некои подстрани на вашата вебстрана што нема да сакате да бидат индексирани од пребарувачите. На пример имате директориум што содржи внатрешни логови или пак можеби имате некои вести и информации за кој мора да се има претплата за да се читаат. Страните што не сакате да бидат индексирани можете да ги дефинирате во текст датотека која ќе ја наречете robots.txt и ќе ја поставите во root директориумот на вашата вебстрана. Оваа датотека ќе содржи листа на сите работи што не сакате ботовите да имаат пристап и да се индексираат. Креирањето на robots.txt е отворено и дозволува напредно ниво на контрола како тоа пребарувачите да имаат пристап до вашите информации.


Максимална контрола

Како додаток на robots.txt преку кој можете да специфирате инструкции за голема листа на датотеки на вашата вебстрана, можете да користите и robots META tag за контрола на пристапот на индивидуални страни на вашата вебстрана. Да го имплементирате ова едноставно специфирајте META tags во HTML страните за контролирате како секоја индивидуална страна се индексира. Заедно, robots.txt и META tags ви даваат флексибилност да направите комплексни пристапни полиси на многу едноставен начин.


Како да направите robots.txt датотека

Оваа датотека можете да ја направите во било кој текст едитор. Мора да биде ASCII-encoded текст датотека, односно не HTML формат и името на датотеката мора да биде напишано со мали букви.

- Синтакса (Syntax)

Наједноставната robots.txt датотека користи две правила:

* User-Agent: роботот на кој следното правило се однесува.
* Disallow: страните кој сакате да не бидат индексирани.

Овие две линии се сметаат како една целина во датотекат и можете да вклучите колку сакате линии со правила во вашата датотека. Може да се вклучат повеќе Disallow линии и повеќе User-Agents линии во едно внесување.


Што треба да биде напишано во User-Agents линијата

User-Agent е одреден пребарувачки робот (бот) од некој пребарувач, листа со ботови од повеќе пребарувачи може да се најде на овој линк. Можете да специфирате одреден бот со пишување на неговото име или пак можете да ги забраните сите ботови со пишување на ѕвездичка.

Код:
User-Agent: *
Што треба да биде напишано во Disallow линијата

Во disallow линијата треба да се специфира листата на страните што сакате да ги блокирате од индексирање. Можете да специфирате одреден URL или пак некоја шема на страни и кодот мора секогаш да почнува со лева коса црта (/).

- Да ја блокирате цела вебстрана од индексирање едноставно само користете коса црта.

Код:
Disallow: /
- Да бокирате одреден директориум и се што има во него напишете го неговото име проследено со лева коса црта.

Код:
Disallow: /privaten_direktorium/
- Да блокирате одредена страна напишете го името на страната исто така проследено со лева коса црта.

Код:
Disallow: /privatna_strana.html/
Внимание: линковите се осетливи на големи и мали букви, така да на пример:

Код:
Disallow: /privatna_strana.html/
ќе ја блокира http://www.primer.com/privatna_strana.html но ќе дозволи индексирање на http://www.primer.com/Privatna_Strana.html


Забранете пристап директно до поединечна страна

На пример доколку имате некоја вест на вашата вебстрана што е достапна само за вашите претплатени корисници можете да ја блокирате од индексирање. За да го направите ова едноставно додадете сличен како овој META tag во HTML датотеката:

Код:
<html>
<head>
<meta name="googlebot" content="noindex">
...
Ова го спречува Google од индексирање на оваа поединечна страна каде е поставен овој таг. Овие тагови се корисни ако имате потреба од забранување на пристап на ботовите само до одредени страни и доколку сакате да го избегнете robots.txt односно ако немате потреба од комплетна контрола на ботовите на целата вебстрана (page-by-page).
vardarce моментално не е присутен  
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!
Одговорете со цитат
 

Тагови
robotstxt

Алатки за темата
Начин на прикажување

Правила за одговарање
Не можете да отварате нови теми
Не можете да испраќате мислења
Не можете да прикачувате додатоци
Не можете да ги изменувате вашите мислења

BB кодот е вклучен
Смешковците се вклучени
[IMG] кодот е вклучен
Директно отидете до:

Слични теми
Тема Темата е отворена од Форум Одговори Последно мислење
Robots and ogre power Paramount to box office lead (Reuters) BorisVM Македонски Забавник и Занимливости 0 04-01-2008 19:00


Времето е според зоната GMT +1. Моментално часот е 07:45.



1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68