развернуть Газель-спб.Компания перевозчик.

         
Советы вебмастеру

Добавление страниц
Индексирование
Динамические сайты
Положение страницы
Поиск: кнопки и формы
Типичные ошибки
Общие вопросы
Вредные советы
Как писать слово ВЫ

Индексирование
Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.

Яндекс создает очень компактный индекс, что особенно важно для локальной поисковой машины — Яndex.Site.

Индексирование документов

Правила индексации в машине Яндекс

Яндекс индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и внесет ее в очередь на индексирование (если она удовлетворяет описанным выше правилам). То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована. Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее изменения (присланную Web-сервером) и дату внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера. Робот Яндекс работает автоматически и обычно переиндексация происходит раз в две-три недели.

Изменения уже проиндексированных страниц робот Яндекс отслеживает самостоятельно при следующем заходе на сайт. У робота свой график работы и изменить его, к сожалению, невозможно, в том числе применяя такие тэги, как


<META NAME="REVISIT-AFTER" CONTENT=".. DAYS">.
Яндекс индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.

Как запретить индексацию определенных страниц?

Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует их наравне с другими документами.

В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:

User-Agent: *
Disallow: /cgi-bin/

Детальное описание спецификации файла можно прочитать на странице: «Стандарт исключений для роботов».
При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки:


Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:
Disallow: /cgi-bin
Disallow: /forum

Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка “Disallow: /forum” игнорируется, поскольку перед ней нет строки с полем User-Agent.
User-Agent: *
Disallow: /cgi-bin
Disallow: /forum

Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк. Например, нижеприведенный файл запрещает индексирование документов, начинающихся с “/cgi-bin /forum”, которых, скорее всего, не существует (а не документов с префиксами “/cgi-bin” и “/forum”).
User-Agent: *
Disallow: /cgi-bin /forum

В строках с полем Disallow записываются не абсолютные, а относительные префиксы. То есть файл:
User-Agent: *
Disallow: www.myhost.ru/cgi-bin


запрещает, например, индексирование документа

http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,

но НЕ запрещает индексирование документа

http://www.myhost.ru/cgi-bin/counter.cgi.


В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще. Так, файл:
User-Agent: *
Disallow: *


запрещает индексирование документов, начинающихся с символа «* » (которых в природе не существует), и сильно отличается от файла:

User-Agent: *
Disallow: /


который запрещает индексирование всего сайта.

Если вы не можете создать/изменить файл robots.txt, то еще не все потеряно — достаточно добавить дополнительный тег <META> в HTML-код вашей страницы (внутри тега <HEAD>):


<META NAME="ROBOTS" CONTENT="NOINDEX">
Тогда данный документ также не будет проиндексирован.

Вы также можете использовать тэг


<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Он означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.

Для одновременного запрета индексирования страницы и обхода ссылок с нее используется тэг


<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Как запретить индексацию определенных частей текста?

Чтобы запретить индексирование определенных фрагментов текста в документе, пометьте их тегами


<NOINDEX></NOINDEX>.

Как выбрать главный виртуальный хост из нескольких зеркал?
Если ваш сайт находится на одном сервере (одном IP), но виден во внешнем мире под разными именами (зеркала, разные виртуальные хосты), Яндекс рекомендует вам выбрать то имя, под которым вы хотите быть проиндексированы. В противном случае Яндекс выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.

Для того, чтобы индексировалось выбранное вами зеркало, достаточно запретить индексацию всех остальных зеркал при помощи robots.txt. Это можно сделать, используя нестандартное расширение robots.txt — директиву Host, в качестве ее параметра указав имя основного зеркала. Если www.glavnoye-zerkalo.ru — основное зеркало, то robots.txt должен выглядеть примерно так:

User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Host необходимо добавлять в группе, начинающейся с записи User-Agent, непосредственно после записей Disallow.
Аргументом директивы Host является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Если какой-либо сайт не указан в качестве аргумента для Host, для него подразумевается наличие директивы Disallow: /, т.е. полный запрет индексации (при наличии в группе хотя бы одной корректной директивы Host). Таким образом, файлы robots.txt вида

User-Agent: *
Host: www.myhost.ru

и
User-Agent: *
Host: www.myhost.ru:80

эквивалентны и запрещают индексирование как www.otherhost.ru, так и www.myhost.ru:8080.
Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки Host игнорируются.

# Примеры игнорируемых директив Host
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:0
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: www.mysi.te
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru

Если у вас сервер Apache, то можно вместо использования директивы Host задать robots.txt с использованием директив SSI:

<!--#if expr=" \"${HTTP_HOST}\" != \"www.главное_имя.ru\" " -->
User-Agent: *
Disallow: /
<!--#endif -->

В этом файле роботу запрещен обход всех хостов, кроме

www.главное_имя.ru.
Как включать SSI, можно прочесть в документации по вашему серверу или обратиться к вашему системному администратору. Проверить результат можно, просто запросив страницы:

http://www.главное_имя.ru/robots.txt
http://www.другое_имя.ru/robots.txt
и т.д. Результаты должны быть разные.

Рекомендации для веб-сервера Русский Apache
В robots.txt на сайтах с русским апачем должны быть запрещены для роботов все кодировки, кроме основной.

Если кодировки разложены по портам (или серверам), то надо выдавать на разных портах (серверах) РАЗНЫЙ robots.txt. А именно, во всех файлах robots.txt для всех портов/серверов, кроме «основного», должно быть написано:

User-Agent: *
Disallow: /

Для этого можно использовать механизм SSI, описанный выше.
Если кодировки в вашем Apache выделяются по именам «виртуальных» директорий, то надо написать один robots.txt, в котором должны быть примерно такие строчки (в зависимости от названий директорий):

User-Agent: *
Disallow: /dos
Disallow: /mac
Disallow: /koi


Как выяснить, что Yandex проиндексировал на моем сервере?

Подставьте ваш ресурс в форму на странице AddURL.

Если вы получили сообщение, что «Ваш URL __url__ был только что внесен в нашу базу данных.», это значит, что ваш URL ранее не был добавлен. Теперь он добавлен и будет проиндексирован в ближайшее время.
Если вы получили сообщение «Ваш URL __url__ уже известен роботу Яndex. Данный ресурс будет проиндексирован в ближайшее время.», то подождите еще пару дней.
Если вы получили сообщение «Ваш URL __url__ уже проиндексирован. Вы можете посмотреть, какие страницы вашего сайта проиндексированы в Яndex.Ru к настоящему времени», то, нажав на ссылку со слов «проиндексированы в Яndex.Ru», вы получите весь список документов вашего ресурса, проиндексированных в нашей поисковой машине.


Положение страницы на выдаче
Положение страницы в списке результатов зависит от многих факторов. В этом разделе мы не даем рекомендации, как сделать страницу ближе к началу списка на любой запрос. В общем случае это, наверное, и невозможно. Мы советуем, как сделать страницу более адекватной и соответствующей тем запросам, по которым вы хотели бы, чтобы ее находили.

Что учитывает Яндекс при поиске

Яндекс держит в своем индексе следующую информацию о каждом слове текста:

номер документа
номер предложения
номер слова в предложении
вес каждого слова
При поиске используется вся имеющаяся информация. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов. Так, например, если запрос из четырех слов не имеет точного ответа в базе данных, будут отранжированы выше предложения, содержащие три слова из запроса, в которых слова стоят в точно в той же последовательности, что и в запросе. Это дает возможность решать типичную поисковую задачу - искать документ по "неточному цитированию".
Вот что определяет положение сайта на первой странице поисковой системы при запросе по одному слову.

Частотные характеристики
Частота слова в базе.
Частота слова в документе
Размер базы
Размер документа
Привилегированное положение слова в документе (например, заголовок) и/или наличие его в списке ключевых слов
Присутствие слова в "авторитетных" ссылках на данный документ
"Взвешенный индекс цитирования" документа
Количество и ранг ("авторитетность") всех страниц сайта с этим словом
Как сделать, чтобы мою страницу нашли те, кому она нужна?

Есть ряд советов, которые помогут пользователям найти вашу страницу.


Задавайте уникальные заголовки документов, вкратце описывающие сайт и текущий документ (но не более 20-25 слов). Слова в заголовках имеют больший вес, чем остальные.

Давайте каждому документу описание в тэге description
<meta name="Description" content="Рекомендации по написанию страниц для web-мастеров, с учетом пожеланий разработчиков поисковой системы Yandex.Web">

Не забывайте о ключевых словах, по возможности уникальных для каждой страницы
<meta name="Keywords" content="rating, релевантность, relevancy, search engine, morphology, Russia, поисковая система, Россия, русский язык, морфология, CompTek, Yandex, Яндекс">

Делайте подписи к картинкам в тэге alt
<img src="yalogo.gif" alt="Яндекс" width=364 height=45 BORDER=0>

Чем длиннее документ, тем менее заметны в нем будут слова, заданные в запросе и, следовательно, ваша страница будет ниже в результатах поиска при прочих равных. Старайтесь разбивать длинные документы на более короткие.

Яндекс работает только с текстами и не умеет распознавать графические изображения. Поэтому, если название нарисовано, стоит продублировать его в текстовом виде.

Соблюдайте правила оформления документов
не набирайте слова в р а з р я д к у, если хотите, чтобы документ по ним находился (используйте для этого style sheet)
не набирайте слова большими буквами без необходимости, если это не аббревиатура
точки и запятые прижимайте к слову, за которым они стоят, после них ставьте пробел. Иначе Яндекс не распознает их как отдельные слова

И, наконец, подумайте, по каким словам и фразам вы сами искали бы сайт вашей тематики. Если ваш сайт посвящен разведению кур и вы не находите его по слову "куроводство" - значит, это слово мало используется в документах вашего сайта. Те, кто интересуется именно "куроводством", могут не найти ваш сайт. Давайте документам заголовки и редактируйте их текст соответственно тем запросам, по которым вы бы сами стали искать свой сайт.

Как работают ключевые слова (Meta keywords)?
Если слово из основного текста документа не расценено как спам и есть в "keywords" среди первых 50, то вес этого слова в запросе повышается, то есть документ получает более высокую релевантность.. Если слово есть в "keywords", но отсутствует в основном (видимом пользователю) тексте документа, то по умолчанию документ по этому слову не найдется. Его можно найти специальным запросом #keywords=(слово)
("Синтаксис языка запросов")
Это означает, что, с точки зрения Яндекса количество повторов слова в "keywords" не может "поднять" документ в результатах поиска - на ранжирование влияет совпадение фактов наличия этого слова и в ключевых словах, и в основном тексте документа (ну и, естественно, в запросе пользователя).

Поэтому повторов в "keywords" (как и в других местах) делать не рекомендуется. Во-первых, как сказано выше, это не помогает - вместо повторов лучше дать другие слова или варианты (например, перевод на другие языки, синонимы, транслитерацию и т.п.) - из тех, что есть в "видимом" тексте. Во-вторых, может и помешать - Яндекс может посчитать слишком частотные слова спамом.


Как найти свой сайт?
Чтобы проверить, как ваша страница проиндексирована, достаточно скопировать из нее какую-нибудь характерную строчку, лучше длинную (название, адрес, описание), и задать ее как запрос в Яндексе. Если на первой странице списка найденного вашей страницы не оказалось, проверьте, какие страницы вашего сайта были проиндексированы.

Поиск со своей страницы
Вы хотите, чтобы посетители вашей страницы могли искать с нее по всему Интернету? Или вы хотите сделать так, чтобы Яндекс искал только по вашей странице или сайту, ничего при этом не устанавливая на свой сервер? Все это возможно, достаточно выполнить простые инструкции по вписыванию HTML-кода в вашу страницу.

Бесплатные дополнения

Как искать в Яндексе со своей страницы
Вы можете у себя на странице сделать форму для обращения к Яндексу. При этом можно настроить запрос к Яндексу таким образом, чтобы на странице выдачи результатов стояла ссылка на ваш сервер. Как сделать такой запрос, написано на странице addyandex.html.

Может ли Яндекс искать только на моем сайте?
Может, и здесь есть два пути. Первый: ограничивать поиск Яндекса только вашим сайтом. Например, делать поиск только в страницах с адресами www.someserv.com/mypage/*.* Правда, в базе Яндекса вряд ли будут находиться изменения страниц, которые вы сделали в течение недели. Как сделать такой запрос, написано на странице addyandex.html.

ПРИМЕЧАНИЕ: поиск по вашему сайту через Яндекс будет совершаться только по тем страницам, которые Яндекс успел проиндексировать. Узнать список этих страниц очень просто - если в Расширенном поиске, в разделе "Сайт/вершина", в поле "Искать только на данном сайте" вы укажете свой URL и нажмете кнопку "Найти", то в результате поиска вы увидите все страницы вашего сервера, проиндексированные Яндексом.

Второй способ: установить бесплатную версию Яndex.Site на 5 мегабайт (учитываются только тексты) или платную версию на больший объем. В этом случае переиндексировать данные можно любое количество раз в день (обычно это делают раз в сутки). Кроме того, вы сможете использовать дополнительные возможности Яndex.Site (например, поиск на сайте по рубрикам).

Кнопки для поиска, встроенные в браузер
У вас есть возможность установить на панель браузера две кнопки: для поиска во всем Интернете и для поиска по текущему сайту (страницы которого вы сейчас смотрите). Яндекс-поиск по текущему сайту удобен тогда, когда вам необходимо найти страницу на сайте, где нет поиска. Кнопка устанавливается простым перетаскиванием мышкой. Подробнее об этом вы можете прочитать на странице установки кнопок.

Неправильно обрабатывается ошибка 404 "Not found"
Проверьте, что делают ваши скрипты в случае ошибок. Если скрипт сообщает об ошибке и при этом выдает код нормального завершения 200, то сообщение будет проиндексировано. Если же ваш скрипт вернет HTTP код 404, это сообщение об ошибке проиндексировано не будет.
Это относится и к обычным документам. Некоторые сервера настроены таким образом, что они в случае ошибки отсылают сообщение с кодом нормального завершения 200. Это мешает роботу удалить ссылку на страницу в базе данных. Любой современный web-сервер позволяет изменять стандартные сообщения об ошибках и отсылать их с правильным кодом ошибки.

Спам, или не нужно обманывать пользователя
Спам - это заголовки и ключевые слова, сдобренные большим количеством слов из самых популярных запросов, большие массивы текста, "написанные" на странице цветом фона или очень мелким шрифтом, а также многие другие уловки с целью привлечения пользователя на свои страницы обманом.
Их не стоит применять по двум причинам. Во-первых, это не добавляет славы создателю страниц и вызывает естественное раздражение пользователей. Во-вторых, Яндекс отслеживает такие ненормальные изменения и снижает место документа на странице результатов. Кроме этого, спам увеличивает размер документа и, следовательно, уменьшает контрастность слов в нем, что также влияет на место документа в списке найденного. В случаях злостного использования спама администрация Яндекса может исключить такие страницы и сайты из базы.
Страницы со временем перенаправления на другие страницы (redirect) равным нулю также исключаются из индексирования.
Поиск в Яндексе не решает задачу "раскрутки сайтов", он решает задачу удовлетворения потребности пользователя в нужной ему информации. Желающие раскрутить свой сайт с помощью Яндекса, однако, тоже могут это сделать, разместив у нас рекламу. Условия размещения рекламы можно прочитать по адресу: http://www.yandex.ru/advertising/.

Неправильные даты
На Яндексе работает поиск и сортировка по датам, но в 20% случаев серверы не выдают реальную дату изменения файлов. Настройте свой сервер правильно. Не лишайте пользователя дополнительной информации и воспользуйтесь возможностью корректно показать свои страницы при поиске по датам.

Веб-сервер, вместе с самим HTML-документом, присылает также дополнительную информацию в так называемых "заголовках HTTP". В частности, он может присылать дату последнего изменения документа в заголовке "Last-Modified". Настоятельно рекомендуем, чтобы ваш веб-сервер присылал эту дату. Добиться этого можно, соответствующим образом настроив сервер и, возможно, слегка исправив используемые CGI или ISAPI скрипты.

Ваша страница глазами Яндекса:

Неправильная кодировка
Веб-сервер, вместе с самим HTML-документом, присылает также дополнительную информацию в так называемых "заголовках HTTP". В частности, кодировка документа указывается в заголовке "Content-Type", параметр charset, например, так:

Content-Type: text/html; charset=windows-1251

или так:

Content-Type: text/html; charset=koi8-r

Веб-сервер должен указывать кодировку всех документов, написанных не на английском языке. Если кодировка не указана, пользователь будет вынужден самостоятельно устанавливать кодировку в браузере, что очень неудобно. Заставить сервер присылать кодировку можно, исправив конфигурацию сервера. Проверьте свой сервер.

Индексирование одинаковых документов в разных кодировках
Много ресурсов расходуется впустую при индексации одних и тех же документов, выдаваемых web-серверами в разных кодировках. При этом русские поисковые системы все равно держат в базах документы в одной из кодировок. Рекомендуется запрещать для индексирования все кодировки, кроме одной. Если кодировки выдаются по портам серверам, то надо выдавать на разных портах (серверах) разный robots.txt. Это значит, во всех портах/серверах, кроме основного, должно быть написано

user-agent: *
disallow: /

Если кодировки выдаются, к примеру, по директориям, то надо сделать один файл robots.txt, в котором будет написано

user-agent: *
disallow: /alt
disallow: /mac
disallow: /koi

Индексирование одного сайта на разных серверах
Эта проблема возникает, когда у сервера существуют зеркала, и/или кодировки делаются префиксами в имени хоста, например, для хоста www.chto-to.ru:
win.chto-to.ru, koi-www.chto-to.ru, wwwmac.chto-to.ru и т.д.
Робот не в состоянии самостоятельно определить "главный" адрес. Единственное, что он может делать (и делает) - это определить, что два документа совпадают с точностью до кодировок, и проиндексировать только один из них.
Таким образом, может оказаться, что разные части вашего сайта проиндексированы на разных хостах. Если вы хотите, чтобы весь ваш сайт был проиндексирован по одному адресу (хосту), запретите индексацию остальных, задав соответствующий файл robots.txt. Через некоторое время (по мере обхода роботом) все проиндексированные документы будут ссылаться на этот хост.

Не стоит открывать для роботов поисковых машин содержимое своего сайта под разными именами или портами. Это НЕ даст улучшения индексации вашего сайта, а, наоборот, приведет к излишней нагрузке на ваш сервер и сеть, а также может вызвать самые разные отрицательные эффекты.

Например, поисковые системы часто не в состоянии понять, какие "зеркала" вашего сайта являются главными, и могут выбрать из них произвольное, не согласующееся с вашими ожиданиями. Некоторые поисковые системы (напр. Альтависта) вообще могут удалить серверы с повторяющимся содержанием.

Для решения этой проблемы ваш сайт robots.txt (находящийся в корневой директории сервера), стоит написать так, чтобы запретить в нем индексирование всех "не основных" адресов.

Перечисленные выше проблемы присущи всем серверам, с установленным на них веб-сервером "Русский Apache". "Русский Apache" содержит механизм выдачи одного и того же документа в разных кодировках под разным URL. В результате роботы сканируют ваш сервер несколько раз, а именно - столько, сколько установлено кодировок. При этом роботы отечественных поисковых машин это учитывают и используют алгоритмы автоматического определения кодировок, чтобы слить все варианты в один документ. Принятая в "Русском Apache" система попарных перекодирующих таблиц, редактируемых пользователем, приводит к появлению нестандартных и некорректных символов в теле документов. Из-за этого документы при "формальном" сравнении отличаются и, таким образом, остаются неслитыми. Вот наши рекомендации, специально для веб-сервера "Русский Apache".


Почему я не могу найти свой сайт по своему запросу?
Посмотрите на статистику запроса, выдаваемую в результатах поиска. Может быть, документы вашего сервера просто находятся по второй сотне или даже тысяче результатов? Положение можно исправить, воспользовавшись нашими «Советами вебмастеру».
Как выяснить, что Яндекс проиндексировал на моем сервере, см. на этой странице.


Почему на моем сайте проиндексированы только несколько "верхних" страниц?
Робот обходит Интернет «послойно». Когда робот обнаруживает новую страницу, он ее индексирует. Затем берет с нее ссылки на последующие страницы, и таким образом обходит весь сайт. В среднем небольшой сайт индексируется за пару недель. Чем меньше сервер, тем быстрее робот его обойдет.
Робот оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера. Поэтому не торопитесь добавлять свой сайт, если он состоит из одной страницы с надписью UNDER CONSTRUCTION.
Робот Яндекса работает самостоятельно (в автоматическом режиме). Если сайт включен в базу Яндекса, то он будет последовательно обойден роботом.
ВНИМАНИЕ! Робот работает со стандартными ссылками языка HTML (href, link и frame), то есть так, как работал бы пользователь с отключенными Java и Java script. Если ссылки на страницы вашего сайта сделаны с помощью скриптов, надо добавить URL этих страниц через форму AddURL.

Мой сайт внесен в вашу базу без названия — добавьте, пожалуйста, заголовок и ключевые слова.

Обратите внимание на то, что Яндекс — это и поисковая система, и каталог. Поэтому уточняйте, какое описание вы имеете в виду. Каталог — это, как правило, база данных, в которой хранится ресурс (адрес) и его описание.
Описание ресурса на Яндексе делается составителями каталога (гидами) по строгим инструкциям. Так, например, запрещены тексты рекламного характера, слова «самый», «главный», «уникальный», прилагательные в превосходных степенях и т.д. Ознакомьтесь, пожалуйста, с Правилами описания ресурсов в каталоге.
Поисковая машина поступает по другому. Ее сетевой агент (робот, паук, червяк) обходит все заданные ему сервера и собирает у себя индекс, то есть информацию о словах и их адресах.
Яндекс — полнотекстовая поисковая система, то есть в индекс попадают все слова, найденные на Web-странице. Адресом слова в Яндексе являются документ (URL), номер предложения и номер слова внутри предложения.
Все слова, попавшие в индекс, являются доступными для поиска. Таким образом, то, как ваш сайт выглядит при поиске в Яндексе, зависит только от вас.

Принимаете ли вы ресурсы, которые размещены на иностранных сайтах (бесплатный хостинг)?
Да, мы индексируем такие ресурсы, если они содержат тексты на русском языке и/или принадлежат российским людям и компаниям.
Исключением являются сервера, на которых провайдер (обычно с целью показа собственной рекламы) использует датчик случайных чисел для генерации истинных адресов документов. Обычно это выглядит так: по нормальному адресу выдается фрейм, в котором верхнее окно — реклама провайдера, а нижнее — собственно сайт клиента. При этом URL нижнего окна выглядит, например, как
http://members.theglobe.com/julia76/poetry.html?nfhp=943345400&rld=53977687
или
http://freehosting2.at.webjump.com/390d280a0/cu/customs-webjump/right.html
Последовательности, выделенные жирным шрифтом, меняются при каждом новом заходе на сайт. Естественно, индексировать страницы с переменными адресами бессмысленно — их никогда нельзя будет найти по ссылке.

И советы от RAMBLER TOP100

Во-первых, от запроса - точнее, от релевантности Вашего сайта запросу. Чем большее и более важное место на Вашем сайте занимает слово или словосочетание, введенное пользователем, тем больше у него шансов оказаться "сверху".

Во-вторых, если запросу пользователя удовлетворяют аннотации каких-либо сайтов в Тор100, то несколько таких сайтов (до 5) могут быть выведены во главе списка найденного; такие сайты ранжируются по посещаемости. Подробнее о взаимодействии поиска и Тор100 см. ниже ответ на вопрос 20.

Можно ли за деньги сделать так, чтобы поисковая система всегда помещала ссылку на наш сайт первой в списке?

Нет, нельзя. Место в списке поиска определяется исключительно содержанием самих страниц.

В то же время Вы можете разместить в результатах поиска на Рамблере рекламу, которая будет показана при вводе пользователем интересующих Вас запросов.

Возможны следующие виды рекламы "под ключевые слова" или "под тематику" (показывается при вводе пользователем запроса выбранной Вами тематики):

одна или несколько текстовых ссылок в "блоке перевязок" над результатами поиска - там, где по другим запросам показываются ссылки на ресурсы Рамблера; такие ссылки фактически равносильны "нулевой ссылке" в списке найденного, и даже эффективнее ее;
текстовый блок с логотипом 50х100 в середине результатов поиска;
верхний баннер 468х60 (эксклюзивный или неэксклюзивный показ);
вертикальный HTML'ный блок или баннер в правом верхнем углу страницы результатов поиска размером до 160х800.
Подробнее см. Адресная реклама в результатах поиска.

Как сделать, чтобы по запросу выдавался не отдельный фрейм, а основная страница сайта?

Для того, чтобы при поиске зарегистрированного сайта, состоящего из фреймов, увидеть основную страницу (<frameset>), нужно щелкнуть по ссылке См. все документы с сайта либо по ссылке На том же сайте (всего найдено документов: ...).

Можно ли установить на панель моего браузера специальную кнопку для поиска в Рамблере?

Да, можно. Подробнее см. "Комфортный поиск".

Какие сайты индексируются Рамблером
Если робот Рамблера обходит весь Рунет, почему он не видит моего сайта?

Робот Рамблера обходит Сеть по ссылкам. Возможно, ссылка на Ваш сайт ему еще не попалась. У Вас есть выбор: ждать, пока робот сам дойдет до Вашего сайта (рано или поздно это, скорее всего, случится), или зарегистрировать его сейчас, сообщив, таким образом, ссылку на него поисковой системе.

Я заполнил(а) вашу форму для внесения в поисковую систему, но после этого не могу найти по ключевым словам свой документ. Почему?

Заполнив форму, Вы просто предоставили поисковой системе ссылку на Ваш ресурс. Теперь робот сможет отсканировать Ваши документы (если только Вы не запретили их сканирование директивами файла robots.txt). Это, однако, не значит, что робот сразу заиндексирует все документы Вашего сайта. Все подобные системы обладают инерционностью, т. к. ресурсов достаточно много и робот обходит их по кругу, извлекая с каждого сайта по одному документу. Переиндексация полученных документов производится с интервалом приблизительно в две недели. Не волнуйтесь, рано или поздно робот доберется и до Ваших документов.

Имейте в виду, что поиск ведется не по "ключевым словам", внесенным Вами в описание документа при регистрации, а по самому документу. При этом учитывается только его видимая часть: ключевые слова, указанные в скрытом (невидимом пользователю) поле <meta name="keywords" value="..."> при поиске игнорируются; подробнее см. ответ на вопрос 18.

Какова скорость обновления базы?

Это зависит от многих факторов (например, от скорости, с которой нашему роботу отвечают сервера), но в среднем робот Рамблера скачивает около двух миллионов страниц в сутки.

Обрабатывает ли Рамблер переадресацию (редиректы)?

Программа индексирования обрабатывает переадресацию (редиректы) только в том случае, если перенаправление выполняется в домен .ru или в домены некоторых стран СНГ (см. ниже ответ на вопрос 14). В остальных случаях переадресация не выполняется, так как домены .com, .net, .org и др. не обрабатываются роботом автоматически.

Что прописывает робот в строке HTTP_USER_AGENT? Сообщите IP-адрес робота, чтобы я мог найти его в логах.

Наш HTTP_USER_AGENT - "StackRambler". IP-адреса могут меняться произвольным образом.

Регистрация сайта в поисковой системе
Как зарегистрировать свой сайт в поисковой системе?

Для этого нужно заполнить регистрационную форму.

Можно ли зарегистрировать отдельные страницы?

Да, можно зарегистрировать отдельные страницы сайта. Для этого следует для каждой страницы заполнить регистрационную форму.

Как зарегистрироваться на Рамблере, если мой сайт находится вне русского сегмента Интернета?

Без специального "приглашения" робот Рамблера посещает только сайты, расположенные в национальных доменах .ru, .su, .ua, .by, .kz, .kg, .uz, .ge. Если Ваш сайт расположен в одной из других доменных зон (например, в .com, .net или .org, либо в других национальных доменах), по умолчанию роботы Рамблера не будут посещать Ваши страницы - даже если Вы заполните регистрационную анкету.

Если Вы считаете, что Ваш сайт содержит информацию, представляющую интерес для русскоязычных пользователей, Вы можете обратиться к администратору сайта через страницу обратной связи (пункт "Регистрация сайта в поисковой машине") с просьбой включить Ваш сайт в число сканируемых.

Как определить, прошла ли регистрация моего сайта?

Робот сканирует страницы сайта в течение суток с момента регистрации. При этом он сразу же обходит сайт на некоторую глубину (сканирует страницы, на которые ссылается зарегистрированная Вами страница). Скачанные роботом страницы появляются в поисковой базе с некоторой задержкой. Просмотреть полный список страниц сайта, доступных для поиска, можно здесь.

Что индексируется, а что нет
Возможна ли индексация сайта, выполненного на флэш-технологии? Индексирует ли Рамблер динамические страницы?

Поисковая машина Рамблер умеет извлекать ссылки из объектов flash и потому может обрабатывать сайты, построенные на флэш-технологии. Однако сами тексты flash-объектов пока не индексируются. Такое решение было принято потому, что большая часть flash-объектов содержит элементы навигации, заставки, меню и другие фрагменты, очень важные в качестве источника гиперссылок, но малоинформативные как текст. Поэтому если Ваш сайт выполнен целиком на флэш-технологии, желательно изготовить для него HTML-копию и зарегистрировать ее в поисковой машине.

Фрагменты HTML, размеченные тегами <script ...> ...</script>, Рамблером не индексируются.

Рамблер обрабатывает все "динамические" страницы с именами вида *.asp*, *.php*, *.pl*, */cgi-bin/* и т. п. для посещаемых сайтов (по данным top100), а также сайтов, содержащих уникальную информацию, полезную пользователям поисковой машины. Для остальных сайтов обрабатывается часть таких страниц.

Учитываются ли при индексации ключевые слова и информация в тегах meta?

При индексации учитывается лишь та информация, которую пользователь может увидеть на странице.

Скрытые поля <meta name="keywords"...> и все другие поля <meta...>, кроме <meta name="robots"...>, при индексировании сайтов игнорируются.

То же самое относится к комментариям в HTML-коде сайта. Не следует также использовать невидимый текст, в котором цвет шрифта совпадает с цветом фона.

Будут ли верно проиндексированы те страницы моего сайта, кодировка которых отличается от кодировки его головной страницы?

Да, будут.

Поиск Рамблера и Top100
Как связана поисковая система с системой рейтингов Top100?

Поисковая машина и рейтинг Rambler's Top100 возникли как независимые системы, и регистрация в них производится раздельно. Однако поиск учитывает данные Top100. В частности, сейчас первые несколько позиций (до пяти) в результатах поиска отданы сайтам, которые нашлись при поиске в базе зарегистрированных в Top100 ресурсов. Упорядочены эти ресурсы по их посещаемости.

В течение какого времени после изменения информации в рейтинге Top100 происходит ее обновление в поисковой системе?

Обновление происходит в течение одного-двух дней.

Я зарегистрировал(а) сайт в рейтинге Rambler's Top100. Почему при вводе слов, имеющихся на странице, робот не находит наш сайт?

Рейтинг Rambler's Top100 и поисковая система - это разные службы, регистрация в одной из них не заменяет регистрации в другой. Рано или поздно сайт, зарегистрированный в Top100 и соответствующий нашим рекомендациям будет проиндексирован - однако для ускорения процесса рекомендуется зарегистрировать его и в поисковой системе Рамблера.

Вообще, регистрация в Top100, хотя и повышает шансы Вашего сайта попасть в число первых в результатах поиска, но отнюдь не гарантирует такого результата: сайтов, удовлетворяющих интересующему Вас запросу, в Тор100 может быть много, а в результаты поиска "подмешиваются" не более пяти.

Наш сайт зарегистрирован в поисковой машине в разделе "Связь". Можно ли зарегистрировать его еще в других разделах каталога, чтобы статистика подсчитывалась также и в них?

В поисковой машине Рамблера нет каталога, разделов и статистики. Ваш вопрос относится к регистрации в рейтинге Rambler's Top100 (mailto:counter@rambler-co.ru).

Изменение и удаление данных о моем сайте
Регистрировать ли изменившиеся сайты?

При любых изменениях Ваших сайтов или их частей рекомендуем Вам заново выполнить регистрацию.

Как изменить неверно зарегистрированный или изменившийся адрес-URL ресурса в поисковой системе?

В этом случае следует прислать нам заявку на удаление неправильного адреса (страница обратной связи, пункт "Удаление страниц из индекса поисковой системы") а затем заново зарегистрировать верный адрес-URL; см. также следующие два вопроса.

Как изменить данные о своем сайте в поисковой системе?

Если данные, которые робот Рамблера брал с Вашего сайта, изменились, надо просто еще раз заполнить регистрационную форму. Если указанный URL уже был ранее зарегистрирован, регистрационная информация просто будет обновлена.

Перерегистрацию имеет смысл производить только в случае изменения информации на страницах самого ресурса. Изменение описания сайта или ключевых слов не окажет влияния на поиск (см. ответ на вопрос 17).

Как удалить данные о моих страницах из поисковой системы?

Для того, чтобы сделать это, нужно на странице обратной связи выбрать пункт "Удаление страниц из индекса поисковой системы", а в текст сообщения ввести полный перечень точных URL Ваших страниц, подлежащих удалению (каждый URL в отдельной строке). Не присылайте полный листинг результатов поиска, нам необходимы только адреса документов.

Учтите, что информацию о работающем ресурсе мы не удаляем (см. следующий пункт).

Как удалить из поисковой системы сведения о работающем ресурсе?

Мы не удаляем информацию о работающем ресурсе из поисковой системы, поскольку такой ресурс все равно может быть заново найден при сканировании Интернета и проиндексирован. Кроме того, трудно проверить, кто конкретно хочет удалить информацию о работающем сайте (Вы же не хотите, чтобы Ваши конкуренты удалили Ваш сайт из Рамблера, подписавшись Вашим именем!).

Чтобы запретить индексирование Ваших страниц поисковой машиной, необходимо создать специальный файл robots.txt и поместить его в корневой каталог Вашего сайта. Формат записей в таком файле и несколько примеров см. на странице "Как управлять индексированием сайта".

Учтите, что если Ваш сайт зарегистрирован в Top100, он будет находиться по некоторым запросам, даже если информация из индексной базы удалена.

Форма поиска в Рамблере на моем сайте
Могу ли я держать на своем сайте форму запроса, в качестве действия которой будет указан поиск в вашей поисковой системе?

Да, можете - причем как для поиска по всему Интернету, так и для поиска по Вашему сайту. При использовании нашего поискового механизма должен быть сохранен формат вывода документов, включая рекламные материалы.

Необходимо только правильно прописать в Вашей форме все имена полей; мы просим Вас также внести в свой документ дополнительное скрытое поле:
<input type="hidden" name="remote" value="site_name">,
где site_name - URL страницы, где установлена поисковая форма.

Если Вы хотите ограничить поиск только Вашим сайтом, Вы можете сделать это, используя в форме дополнительное поле:
<input type="hidden" name="filter" value="your.domain.name">
Правда, при этом Вам никто не гарантирует, что Ваш сайт будет отсканирован полностью.

Пример:





HTML-текст примера:

<table border="0" cellspacing="0" cellpadding="0"><tr><td width="95" height="80" background="form_zdnet_BG.gif" bgcolor="#003399" align="center">
<form method="get" action="http://search.rambler.ru/cgi-bin/rambler_search" name="Search">
<input type="hidden" name="where" value="1">
<input type="hidden" name="remote" value="http://www.your-page-address.ru">
<table border="0" cellspacing="5" cellpadding="0" background="">
<tr><td height="19"></td></tr>
<tr><td align="center">
<input type="text" name="words" size="11" style="font-size:12px">
</td></tr>
<tr><td align="center">
<input type="submit" style="font-size:12px" value="Найти!">
</td></tr></form>
</table>
</td></tr></table>

Если возникли проблемы
Никак не находится давно зарегистрированный сайт. Что делать?

Обычно индексация сайта в поисковой машине производится в течение двух-четырех недель после регистрации.

Если же по истечении месяца Вы не сможете найти свой сайт, пожалуйста, пришлите нам все те сведения, которые Вы ввели при заполнении регистрационной формы. См. также "Как сделать, чтобы Rambler находил мои документы".

Я зарегистрировал(а) сайт, несколько дней он был виден, а теперь я не могу его найти, почему?

Скорее всего, Вы зарегистрировались не в поисковой системе, а в рейтинге Rambler's Top100 (при этом поиск производился по данным, внесенным в рейтинг), однако забыли установить на сайте код счетчика Top100. В этом случае информация о сайте удаляется из таблиц рейтинга через 7 дней и, соответственно, он перестает быть видимым и в результатах поиска.

Возможно, также, Ваш сайт теперь не входит в пятерку наиболее посещаемых сайтов из Top100, удовлетворяющих интересующему Вас запросу.

Почему поисковая система перестала находить мой сайт?

По-видимому, Ваш сайт был недоступен во время очередной переиндексации. В этом случае данные о сайте автоматически удаляются из поисковой системы. Вам следует снова зарегистрировать этот сайт.

Почему в результатах поиска описание сайта старое, а дата сегодняшняя?

При поиске учитывается информация, полученная из рейтинга Rambler's Top100, если сайт в нем зарегистрирован. Число показывает, когда была получена эта информация. Информация по Top100 обновляется практически каждый день.

Почему я не получаю ответа от администрации сервера на мои письма?

Может быть несколько причин:


Вы обратились не по адресу: например, вопросы по Top100 были заданы на адрес search.support@rambler-co.ru. Вопросы по Top100 следует посылать только на служебный адрес counter@rambler-co.ru, либо через страницу обратной связи, указав в качестве темы "рейтинг Тop100" или "регистрация сайта в Тop100"
Вы написали письмо в нечитаемой для нас кодировке. Следует направлять письма в кодировке koi8-r, предпочтительно в виде 8-bit plain text, т.к. весь большой поток писем на Rambler сначала обрабатывается автоматическим препроцессором почты. Лучше всего воспользоваться страницей обратной связи, выбрав в ней соответствующий раздел.

Почему при поиске моего ресурса выводится не та аннотация, которую я использовал(а) при регистрации?

В результатах поиска в качестве аннотации выводятся не те данные, которые Вы приводите при регистрации ресурса в анкете, а тот текст, который увидит пользователь. Причем с Вашего сайта выбираются именно те фрагменты, которые соответствуют запросу пользователя (в данном случае, Вашему).

Исключением из этого правила являются данные из рейтинга Rambler's Top100 (если ресурс в нем зарегистрирован), которые сейчас используются в поиске. Если описание зарегистрированного Вами в Top100 ресурса устарело и Вас не удовлетворяет, Вы можете его отредактировать.

Как удалить накопившиеся запросы в Internet Explorer 4-5.x в строке "Поиск"?

Для этого следует в меню Tools выбрать команду Internet Options. В появившемся окне надо выбрать вкладку Content и в группе Personal Information нажать кнопку AutoComplete. Появится окно AutoComplete Settings, в котором надо нажать кнопку Clear Forms. На этой же вкладке можно отключить отображение предыдущих слов, по которым производился поиск - следует в группе Use AutoComplete for снять флажок Forms.

Могу ли я увидеть статистику по наиболее популярным поисковым словам?

Да, мы публикуем статистику в разделе Руметрика.


Как можно изменить URL страницы в рейтинге Top100?
В целях исключения подделки статистики - никак. Вы можете только удалить свой старый account (кнопка Удалить на головной странице Top100) и зарегистрировать новый счетчик.

Я не могу посмотреть свою статистику в Top100. Почему не работает мой счет (Username/Password)?
Скорее всего, автомат исключил вашу страницу из рейтинга. Это может произойти в том случае, если наша система не получала с вашей страницы хитов в течение недели. В любое время вы можете зарегистрировать свою страницу вновь и получить новый номер и HTML-фрагмент.

Почему на моей странице количество посетителей в Top100 значительно уменьшилось? Откуда такая разница между показаниями счетчика и моими лог-файлами?
Счетчик счетчику рознь. Наш счетчик построен по принципу картинки (image). Многие современные браузеры (MSIE 4.0, например) имеют встроенный механизм извлечения документов в локальный кэш без участия самого человека. При этом такой браузер работает как робот, извлекая все, что ему попадается (в том числе и наш счетчик) по несколько раз в день. В поле User-Agent браузер ставит значение MSIECrawler, которое говорит о том, что это робот, а не живой человек. Не так давно мы перестали засчитывать такие хиты. Если Ваша посещаемость резко снизилась, советуем обратить внимание на графики почасового распределения хитов на Вашей странице. Если Вы там обнаружите четыре явных пика в 00, 06, 12 и 18 часов, значит раньше большую часть Ваших хитов порождали роботы от MS, т. к, по умолчанию, именно на это время настроено пересканирование.
Вторая часть вопроса: счетчик работает через image, значит он так же, как и другие картинки, может "оседать" в локальном кэше компьютера и не вызываться повторно за сессию. Не засчитываются обращения от пользователей, у которых отключен показ "картинок". Кроме того, Top100 не засчитывает повторные обращения с одного адреса с интервалом менее 30 секунд. Мы распознаем обращения от некоторых роботов и не засчитываем их, как это описано выше. Не засчитываются также хиты, у которых совсем нет поля User-Agent и/или Referer.
Вы можете сравнить показания счетчика с количеством вызовов какого-либо другого изображения (image) с Вашей страницы. При этом следует отсечь не полностью переданные изображения.

Мы решили с помощью Top100 наградить юбилейного посетителя, приславшего нам эмблему с юбилейными цифрами, но таких людей оказалось несколько. Почему?
Дело в том, что в Top100 существует тридцатисекундный барьер на засчитывание обращений с одного и того же сайта. Представьте себе, что пять человек сидят и непрерывно нажимают Reload в ожидании заветного числа. После второго нажатия Reload их хиты не засчитываются, и счетчик показывает неизменные цифры. В это время на страничку приходит реальный посетитель, счетчик благополучно увеличивается на единицу и достигает заветной цифры. Все пятеро опять дружно нажимают Reload, и их хиты не засчитываются снова, однако все они видят заветный результат, полученный "правильным" посетителем.

Как удалить свой сайт из Top100?
C головной страницы Top100 перейдите по ссылке "Удалить" (вторая слева ссылка в строчке "Для владельцев сайтов"). Появится диалоговое окно с предложением ввести Ваше имя пользователя и пароль. Введите свои пароль и имя пользователя и нажмите кнопку "OK". Появится страница "Remove Top100account". Нажмите кнопку "Удалить из Rambler's Top100". Появится сообщение об удалении.

Как получить статистику?
C головной страницы проекта Top100 перейдите по ссылке "Статистика" (вторая справа ссылка в строчке "Для владельцев сайтов"). Появится диалоговое окно с предложением ввести Ваше имя пользователя и пароль. Введите свои пароль и имя пользователя и нажмите кнопку "OK". Появится статистика для Вашего сайта (по результатам последнего опроса).

Rambler's Top100 Rambler's Top100


Сайт создан в системе uCoz