Каталог статей
Меню сайта


Категории каталога
Общее [2]
Самые общие статьи...
Баннеры [2]
Всё о баннерной рекламе...
Поисковики [2]
Всё о поднятии ТИЦ и PR
Обмен ссылками [1]
Всё об эффективном обмене ссылками.


Форма входа


Поиск по каталогу


Друзья сайта



Приветствую Вас, Гость · RSS 2025-06-28, 11:42 AM
Начало » Статьи » Раскрутка » Поисковики

Яндекс - Индексирование
Когда Яndex обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится. Яndex создает очень компактный индекс, что особенно важно для локальной поисковой машины - Яndex.Site.

Индексирование документов
Правила индексации в машине Яndex

Яndex индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и внесет ее в очередь на индексирование (если она удовлетворяет описанным выше правилам). То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована. Робот Яndex хранит дату последнего обхода каждой страницы, дату ее изменения (присланную Web-сервером) и дату внесения
последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера.

Яndex индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.

Как запретить индексацию определенных страниц?

Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI
или ISAPI скрипты - наш робот индексирует их наравне с другими документами.

В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:

User-Agent: *
Disallow: /cgi-bin/

Детальное описание спецификации файла можно прочитать на странице: "Стандарт исключений для роботов". При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки:


  1. Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:

    Disallow: /cgi-bin
    Disallow: /forum

     

  2. Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка "Disallow: /forum" игнорируется, поскольку перед ней нет строки с полем User-Agent.

    User-Agent: *
    Disallow: /cgi-bin
    Disallow: /forum

  3. Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с "/cgi-bin /forum", которых, скорее всего, не существует (а не документов с префиксами "/cgi-bin" и "/forum"). 

    User-Agent: *
    Disallow: /cgi-bin /forum

  4. В строках с полем Disallow записываются не абсолютные, а относительные префиксы.
    То есть файл:

    User-Agent: *
    Dissalow: www.myhost.ru/cgi-bin

    запрещает, например, индексирование документа http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,
    но НЕ запрещает индексирование документа http://www.myhost.ru/cgi-bin/counter.cgi

  5. В строках с полем Disallow указываются именно префиксы, а не что-нибудь
    еще. Так, файл

    User-Agent: *
    Disallow: *

    запрещает индексирование документов, начинающихся с символа "*" (которых в
    природе не существует), и сильно отличается от файла:

    User-Agent: *
    Disallow: /

    который запрещает индексирование всего сайта.

Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно - достаточно добавить дополнительный тег META в HTML-код вашей страницы (внутри тега HEAD):

Тогда данный документ также не будет проиндексирован. Вы также можете использовать тэг

Он означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.

Как выяснить, что Yandex проиндексировал на моем сервере?

Подставьте ваш ресурс в форму на странице AddURL.


  • Если вы получили сообщение, что "Ваш URL __url__ был только что внесен в нашу базу данных.", это значит, что ваш URL ранее не был добавлен. Теперь он добавлен и будет проиндексирован в ближайшее время.
  • Если вы получили сообщение "Ваш URL __url__ уже известен роботу Яndex. Данный ресурс будет проиндексирован в ближайшее время.", то подождите еще пару дней.
  • Если вы получили сообщение "Ваш URL __url__ уже проиндексирован. Вы можете посмотреть, какие страницы вашего сайта проиндексированы в Яndex.Ru к настоящему времени", то, нажав на ссылку со слов "проиндексированы в Яndex.Ru", вы получите весь список документов вашего ресурса, проиндексированных в нашей поисковой машине.


Источник: http://1ps.ru/articles/doc/0111273528879/
Категория: Поисковики | Добавил: haemmid (2006-12-08) | Автор: Slawa
Просмотров: 501 | Рейтинг: 0.0 |

Всего комментариев: 0
Имя *:
Email *:
Код *: