Главная
К библиотеке


Как сделать, чтобы Rambler находил мои документы?

Дмитрий Крюков, 30 июня 1998
Данный документ описывает общие принципы, относящиеся только к поисковой системе Rambler. Возможно, некоторые положения этого документа будут не соответствовать аналогичным принципам других поисковых систем, следовательно, использовать их нужно с осторожностью.

Сами принципы достаточно просты. Вот они:

  1. Прежде всего рекомендуем заполнить регистрационную анкету в поисковой системе Rambler, анкета находится по адресу http://www.rambler.ru/new/add_site.shtml. Это будет гарантией того, что по крайней мере, эта анкета будет найдена при соответствующем поиске, и по ссылке из нее человек сможет попасть на ваш сайт. Рекомендуется также проделать это в случае, если ваши странички располагаются на зарубежных сайтах. Роботы Rambler сканируют сайты, находящиеся в рамках Содружества и игнорируют остальные зарубежные сайты. Определение принадлежности сайта производится по формальному признаку - домену первого уровня в URL сайта.
  2. В случае, если ваш сайт находится за рубежом, но существенная часть сайта содержит русскоязычные материалы, или если ваш сайт находится в пределах содружества, но входит в другие домены первого уровня ( .com .org .net и пр.), вы можете отослать письмо на адрес webmaster@stack.net с просьбой включить ваш сайт в число сканируемых. Наши сотрудники рассмотрят эту просьбу и примут решение о целесообразности такого включения. Пожалуйста, не стоит обращаться с подобными просьбами, если ваши странички располагаются на зарубежных публичных сайтах, таких как: geocities, tripod, aol, xoom, netcom, hypermart и других, подобных этим. Роботы Rambler не сканируют эти сайты. Не следует также обращаться с такими просьбами, если в качестве URL вы укажите один из адресов-редиректоров, например *.da.ru. Однако это не мешает вам заполнить анкету - см. предыдущий пункт.
  3. Роботы Rambler при сканировании игнорируют поля <meta...keywords=...>. Это связано с тем, что наша система старается индексировать документ таким, как есть, а не таким, как хочет владелец. Не секрет, что зачастую владельцы документов злоупотребляют этими полями в документе, с тем, чтобы их документы обязательно находились по словам, при этом часто реальное содержание документа не соответствует данным критериям.
  4. Не следует также использовать невидимый текст на страничке (т.е. шрифты, цвет которых соответствует цвету background). Комментарии в документе роботы Rambler тоже не сканируют, по-этому советуем использовать их по прямому назначению. Помните, что каждый комментарий увеличивает размер вашего документа, а значит снижает вероятность того, что в каком-нибудь конкретном случае документ будет просмотрен до конца. Обычно это делают с той же целью, которая указана в предыдущем пункте.
  5. Базовые понятия и ключевые слова для данного сайта следует включать в HTML тэги (в порядке значимости):
    • <TITLE>
    • <H1-..H6>
    • <ADDRESS>
    • <B>, <STRONG>
    Чем чаще слово встречается в комбинации этих полей, тем более вероятно, что поисковая система Rambler найдет ваш документ ближе к началу списка результатов поиска. Конечно, использование этих HTML тэгов должно органично сочетаться с дизайном вашего сайта. Кроме того, чем ближе располагается поисковое слово к началу документа, тем больше весовой коэффициент данного слова.
  6. Не следует включать в список желаемых ключевых слов общеупотребительные, часто встречающиеся слова, такие как сервер, html, ru, страница и другие. Ваши слова должны быть достаточно информативными (в идеале уникальными). Не следует также ориентироваться на слова, состоящие из одних цифр. В настоящий момент поисковая система Rambler игнорирует такие слова. Возможно, в будущем это будет изменено, но на сегодня это именно так.
  7. С точки зрения поиска использование фреймов в документе не приветствуется. Это не означает, что роботы не умеют сканировать фреймы. Это означает только то, что отсканированный отдельный фрейм не может дать представление о целом документе. Данное замечание не отностится к случаю, когда фреймы в документе используются исключительно для удобств навигации. Роботы Rambler прекрасно справляются с конструкциями фреймов, однако мы советуем включать в текст таких документов HTML тэг <NOFRAMES> с последующим описанием документа и ссылками. Разумеется, это увеличит размер странички, но будет являться актом "доброй воли" к пользователям текстовых браузеров (например lynx) и поисковым машинам.
  8. Поисковый сервер Rambler автоматически исключает из индекса слова, встретившиеся в более чем 800 тыс. документов. Такие слова не являются информативными для поиска, и в 99,9% случаев можно обойтись без них.
  9. При указании перекрестных ссылок в документе будте предельно внимательны, проверьте работоспособность каждой ссылки, иначе роботы не смогут добраться в глубь дерева ваших документов. Следует также иметь ввиду, что с точки зрения HTML записи типа:
      <a href="directory"....>> и
      <a href="directory/"....>> (слэш в конце href)
    являются разными ссылками. Обычно при запросе по первой ссылке робот получит редирект на вторую, а значит извелечет сам документ только на следующем проходе при обращении к Вашему серверу. Тем самым вы замедляете время индексации вашего сайта.
  10. Максимальный размер документа для роботов Rambler составляет 200KB. Документы большего размера отсекаются до указанной величины. Кроме того, считается "дурным тоном" делать документы такого размера без особой на то необходимости.
  11. Роботы Рамблер обрабатывают ссылки типа <a htef="/cgi-bin/imagemap...">, однако наряду со ссылкой такого вида мы рекомендуем поместить в текст документа конструкцию <map name="name">. Это ускорит индексацию документов, указанных в IMAGEMAP и облегчит доступ к документам для обычных браузеров.
  12. Часто изменяющиеся (динамические) документы рекомендуется исключить из списка индексируемых, т.к. актуальность этих документов быстро теряется. Осуществить это можно с помощью стандартного для HTTP механизма - посредством файла robots.txt в головной директории вашего сайта.
  13. Части документа, не требующие по вашему мнению индексации, можно отделять в документе с помощью тэгов <index>....<noindex>
  14. При написании документов внимательно следите за соблюдением русского/латинского регистров. Часто вместо русской буквы 'р' используют латинскую 'p'. Некоторые подобные ошибки индексатор исправляет, но не все. Слова с подобными опечатками теряют информативность. Старайтесь не использовать символов переноса части слова на другую строку '-'. Это затрудняет определение того, является ли начало следующей строки продолжением слова или просто дефисом. Помните, что браузер сам осуществляет представление документа согласно текущим установкам каждого конкретного пользователя.
  15. Отнеситесь серьезно к планированию и размещению вашего сайта, чтобы вам не приходилось направлять письма с просьбами переиндексировать Ваш сайт администраторам поисковых систем в связи с их переносом или полным изменением структуры. Поисковые машины - вешь достаточно инерционная для этого.
Желаю успехов!

Источник: http://www.rambler.ru/


Copyright © 1999-2000гг. "Internet Zone" & Nik Romanov. nikspase@mail.ru, nikspase@hotmail.ru,  http://www.izone.com.ua/
Hosted by uCoz