Дмитрий Крюков, 30 июня 1998
Данный документ описывает общие принципы, относящиеся только к поисковой
системе Rambler. Возможно, некоторые положения этого документа будут не
соответствовать аналогичным принципам других поисковых систем, следовательно,
использовать их нужно с осторожностью.
Сами принципы достаточно просты. Вот они:
- Прежде всего рекомендуем заполнить регистрационную анкету в поисковой
системе Rambler, анкета находится по адресу http://www.rambler.ru/new/add_site.shtml.
Это будет гарантией того, что по крайней мере, эта анкета будет найдена
при соответствующем поиске, и по ссылке из нее человек сможет попасть
на ваш сайт. Рекомендуется также проделать это в случае, если ваши странички
располагаются на зарубежных сайтах. Роботы Rambler сканируют сайты,
находящиеся в рамках Содружества и игнорируют остальные зарубежные сайты.
Определение принадлежности сайта производится по формальному признаку
- домену первого уровня в URL сайта.
- В случае, если ваш сайт находится за рубежом, но существенная часть
сайта содержит русскоязычные материалы, или если ваш сайт находится
в пределах содружества, но входит в другие домены первого уровня ( .com
.org .net и пр.), вы можете отослать письмо на адрес webmaster@stack.net
с просьбой включить ваш сайт в число сканируемых. Наши сотрудники рассмотрят
эту просьбу и примут решение о целесообразности такого включения. Пожалуйста,
не стоит обращаться с подобными просьбами, если ваши странички располагаются
на зарубежных публичных сайтах, таких как: geocities, tripod, aol,
xoom, netcom, hypermart и других, подобных этим. Роботы Rambler
не сканируют эти сайты. Не следует также обращаться с такими просьбами,
если в качестве URL вы укажите один из адресов-редиректоров, например
*.da.ru. Однако это не мешает вам заполнить анкету - см. предыдущий
пункт.
- Роботы Rambler при сканировании игнорируют поля <meta...keywords=...>.
Это связано с тем, что наша система старается индексировать документ
таким, как есть, а не таким, как хочет владелец. Не секрет, что зачастую
владельцы документов злоупотребляют этими полями в документе, с тем,
чтобы их документы обязательно находились по словам, при этом часто
реальное содержание документа не соответствует данным критериям.
- Не следует также использовать невидимый текст на страничке (т.е. шрифты,
цвет которых соответствует цвету background). Комментарии в документе
роботы Rambler тоже не сканируют, по-этому советуем использовать их
по прямому назначению. Помните, что каждый комментарий увеличивает размер
вашего документа, а значит снижает вероятность того, что в каком-нибудь
конкретном случае документ будет просмотрен до конца. Обычно это делают
с той же целью, которая указана в предыдущем пункте.
- Базовые понятия и ключевые слова для данного сайта следует включать
в HTML тэги (в порядке значимости):
- <TITLE>
- <H1-..H6>
- <ADDRESS>
- <B>, <STRONG>
Чем чаще слово встречается в комбинации этих полей, тем более вероятно,
что поисковая система Rambler найдет ваш документ ближе к началу списка
результатов поиска. Конечно, использование этих HTML тэгов должно органично
сочетаться с дизайном вашего сайта. Кроме того, чем ближе располагается
поисковое слово к началу документа, тем больше весовой коэффициент данного
слова.
- Не следует включать в список желаемых ключевых слов общеупотребительные,
часто встречающиеся слова, такие как сервер, html, ru, страница
и другие. Ваши слова должны быть достаточно информативными (в идеале
уникальными). Не следует также ориентироваться на слова, состоящие из
одних цифр. В настоящий момент поисковая система Rambler игнорирует
такие слова. Возможно, в будущем это будет изменено, но на сегодня это
именно так.
- С точки зрения поиска использование фреймов в документе не приветствуется.
Это не означает, что роботы не умеют сканировать фреймы. Это означает
только то, что отсканированный отдельный фрейм не может дать представление
о целом документе. Данное замечание не отностится к случаю, когда фреймы
в документе используются исключительно для удобств навигации. Роботы
Rambler прекрасно справляются с конструкциями фреймов, однако мы советуем
включать в текст таких документов HTML тэг <NOFRAMES> с последующим
описанием документа и ссылками. Разумеется, это увеличит размер странички,
но будет являться актом "доброй воли" к пользователям текстовых
браузеров (например lynx) и поисковым машинам.
- Поисковый сервер Rambler автоматически исключает из индекса слова,
встретившиеся в более чем 800 тыс. документов. Такие слова не являются
информативными для поиска, и в 99,9% случаев можно обойтись без них.
- При указании перекрестных ссылок в документе будте предельно внимательны,
проверьте работоспособность каждой ссылки, иначе роботы не смогут добраться
в глубь дерева ваших документов. Следует также иметь ввиду, что с точки
зрения HTML записи типа:
<a href="directory"....>> и
<a href="directory/"....>> (слэш в конце
href)
являются разными ссылками. Обычно при запросе по первой ссылке робот
получит редирект на вторую, а значит извелечет сам документ только на
следующем проходе при обращении к Вашему серверу. Тем самым вы замедляете
время индексации вашего сайта.
- Максимальный размер документа для роботов Rambler составляет 200KB.
Документы большего размера отсекаются до указанной величины. Кроме того,
считается "дурным тоном" делать документы такого размера без
особой на то необходимости.
- Роботы Рамблер обрабатывают ссылки типа <a htef="/cgi-bin/imagemap...">,
однако наряду со ссылкой такого вида мы рекомендуем поместить в текст
документа конструкцию <map name="name">. Это
ускорит индексацию документов, указанных в IMAGEMAP и облегчит
доступ к документам для обычных браузеров.
- Часто изменяющиеся (динамические) документы рекомендуется исключить
из списка индексируемых, т.к. актуальность этих документов быстро теряется.
Осуществить это можно с помощью стандартного для HTTP механизма - посредством
файла robots.txt в головной директории вашего сайта.
- Части документа, не требующие по вашему мнению индексации, можно отделять
в документе с помощью тэгов <index>....<noindex>
- При написании документов внимательно следите за соблюдением русского/латинского
регистров. Часто вместо русской буквы 'р' используют латинскую 'p'.
Некоторые подобные ошибки индексатор исправляет, но не все. Слова с
подобными опечатками теряют информативность. Старайтесь не использовать
символов переноса части слова на другую строку '-'. Это затрудняет определение
того, является ли начало следующей строки продолжением слова или просто
дефисом. Помните, что браузер сам осуществляет представление документа
согласно текущим установкам каждого конкретного пользователя.
- Отнеситесь серьезно к планированию и размещению вашего сайта, чтобы
вам не приходилось направлять письма с просьбами переиндексировать Ваш
сайт администраторам поисковых систем в связи с их переносом или полным
изменением структуры. Поисковые машины - вешь достаточно инерционная
для этого.
Желаю успехов!
Источник: http://www.rambler.ru/
|