Главная
К библиотеке


Поисковые системы зарубежного Интернета

Александр Шматов

 

Типы поисковых систем

По разным данным, в Интернете насчитывается от 300 до 600 миллионов сайтов, причем каждые полтора года их количество удваивается. Естественно, что без средств, позволяющих быстро найти нужный адрес, информация, уже более 20 лет загружаемая в Сеть, оказалась бы практически недоступной.

Такими средствами являются поисковые системы - специальные базы данных, позволяющие ориентироваться в бескрайнем море Интернета.

Их несколько тысяч. Однако большая часть информации находится с помощью примерно 10-15 поисковых систем. О наиболее представительных из них и пойдет речь.

Поисковые системы бывают двух типов: роботизированные (Search Engines) и каталоги (Directories).

В первом случае специальная программа, которую называют spider (паук) или crawler (ползун), непрерывно обшаривает Интернет и записывает информацию о содержимом сайтов, которые она посещает. Для того чтобы обойти всю Сеть, мощному роботу нужно от нескольких дней до нескольких недель. При этом составляется весьма свежий и довольно подробный индекс - опись доступных ресурсов. При каждом новом цикле индекс обновляется, и старые недействительные адреса удаляются. Это хорошо. Однако автоматизированный подход приводит к тому, что индекс оказывается засоренным большим количеством профессионально слабых, неинформативных адресов, которые пользователь, увы, нередко и получает в результате поиска.

Каталоги составляются живыми людьми - редакторами, просматривающими каждый новый сайт прежде, чем включить его в индекс. Качество выше, и всякий мусор попасть в каталог просто не может; но коллектив редакторов не поспевает за темпами расширения Интернета: индекс даже самого большого поискового каталога Yahoo! содержит лишь немногим более миллиона записей. Кроме того, чем дальше, тем больше в каталоге накапливается заброшенных или устаревших адресов - ведь его просто не успевают чистить. В отличие от роботов, каталоги индексируют документ не по наиболее часто встречающимся словам, а по тем ключевым словам, которые вводятся редакторами.

Как искать информацию

В начало

Если Вас интересует хорошо разработанная и часто востребуемая тема - в общем, популярный материал (например, адреса провайдеров Интернета или публикации правительственных документов) - то можно воспользоваться каталогом, расположенным на первой странице каждой поисковой системы (как робота, так и каталога). Метод работы - такой же, как в обычной библиотеке: двигаясь от общего к частному, Вы достигаете списка нужных Вам сайтов.

Для более специального поиска (например, бильярд или породы древесины), как правило, необходимо использовать ключевые слова.

Все развитые поисковые системы предлагают мощные инструменты поиска по ключевым словам - как простого, так и сложного.

Диалог простого поиска у большинства машин весьма схож: вводится ключевое слово - и вперед! Два или более слов соберут все документы, в которых встречаются эти слова - все вместе или по одному. Если Вас интересует только словосочетание - возьмите его в кавычки (напр., "red apple"). Поисковик не будет кормить Вас сайтами, содержащими только red и только apple или red и apple, но не вместе, а раздельно. Знак “плюс” перед словом (+apple) означает, что оно должно обязательно присутствовать в результатах поиска, знак “минус” - что его не должно быть.

Сложный поиск позволяет получить значительно более точный (в тысячи раз) результат. При сложном поиске используются стандартные булевские команды or, and, not, реже near, adj, close, before. Интерфейсы сложного поиска у разных поисковых систем существенно отличаются; для наиболее эффективного использования рекомендуем внимательно почитать раздел Advanced Search Help той поисковой системы, которая Вам больше нравится.

Помимо услуг по нахождению сайтов, поисковые системы предоставляют широкий перечень разнообразной сопутствующей информации, например: новости, гороскопы, почтовые ящики, электронная коммерция, котировки акций, погода, спорт, географические карты, программы телевидения, лотереи и т.д.

За счет этих сервисов и функций поисковые системы и каталоги постепенно приобретают статус “порталов”, своеобразных “ворот” в Интернет.

Шесть наиболее известных поисковых систем

В начало

В целом они очень похожи друг на друга. Поэтому мы затронули лишь некоторые отличительные особенности.

Yahoo!

Основной “+”:

выдает только качественную, проверенную информацию.

Основной “-”:

содержит небольшой объем информации.

Самая популярная и самая старая (с 1994 г.) поисковая система. Тип - каталог; содержит более 1 миллиона сайтов. Над обновлением библиотеки трудятся 150 редакторов.

Yahoo! сегодня – это и многофункциональный портал, и наиболее простая и эффективная поисковая система, дающая быстрый результат. Рекомендуется в качестве первого инструмента поиска. Если же результат Вас не удовлетворяет, попробуйте перейти к:

Alta Vista

Основной “+”:

отвечает на вопросы относительно Вашего запроса.

Основной “-”:

содержит небольшой объем информации.

Поисковик с самым широким охватом сети: по утверждению его администрации, последняя версия (активна с 1 ноября) индексирует 250 миллионов адресов - 90% Интернет. Поддерживает 25 рабочих языков, включая русский, осуществляет машинный перевод документов на 6 основных европейских языков.

Несмотря на то, что AV индексирует гораздо больше ресурсов в Интернете, чем какой-либо другой поисковый двигатель, количество еще не означает качество, так как многие ссылки бывают неправильными или устаревшими. Тем не менее, AV подходит для начинающих: сайт имеет ясную, хорошо организованную первую страницу, уникальную опцию “Вопрос-ответ” и др. Подробнее о новой версии AV читайте в этом же номере журнала.

Excite

Основной “+”:

точность поиска

Основной “-”:

недостаточно мощный поиск

Excite существует с 1995 года, быстро рос и поглотил двух своих конкурентов: Magellan и WebCrawler. Обслуживает 11 языков. Позволяет проводить концептуальный поиск, предоставляет доступ к Usenet news. Есть функция поиска "похожих страниц".

Наиболее привлекательной чертой Excite является большой охват информации при простом поиске (не расширенном). Excite автоматически находит ссылки из различных источников: из директорий сайта, из веб, новостных сайтов, таких как CNN.com и др.

Будучи одной из лучших поисковых систем, Excite предлагает также большое количество дополнительных “бонусов” - начиная с бесплатной электронной почты и заканчивая персональными настройками.

Infoseek (Go)

Основной “+”:

предоставляет больше, чем только поисковые возможности

Основной “-”:

выдает нерелевантные (далекие от смысла запроса) ссылки

Поисковое поле Infoseek, хотя и “спрятано” под различными рубриками (новости, погода, спорт и др.), тем не менее, существует. И в том случае, если вы предпочитаете стандартный поиск, Infoseek выдает достойные результаты.

Infoseek отличают большая детализация и высокая скорость поиска. Он имеет простое меню для выбора поиска в Сети, новостях, группах новостей и других разделах..

Система распознает прописные буквы. За один поиск можно вывести до 50 адресов; существует функция поиска "похожих страниц".

Lycos

Основной “+”:

огромное количество дополнительных опций, включая поисковый механизм МР3

Основной “-”:

выдает много повторяющихся и неправильных ссылок

Начинался как поисковый робот, но в апреле 1999 г. был перепрофилирован в каталог типа Yahoo! Получилась комбинированная модель - частично индекс состоит из адресов, найденных спайдером, частично - из внесенных вручную.

Система распознает ключевые слова на 15 языках. Результаты поиска выводятся не так подробно, как в других поисковых машинах, однако система предусматривает непрерывный многоступенчатый уточняющий поиск.

Lycos насыщен такими опциями как бесплатный e-mail, электронные магазины, но по качеству поиска все же отстает от других систем.

HotBot

Основной “+”:

обеспечивает наиболее релевантные результаты поиска.

Основной “-”:

мало возможностей настройки выдачи результатов

Простой поиск по ключевым словам часто приводит к тому, что результаты наполнены огромным количеством ненужной информации. По сравнению с другими поисковыми машинами, HotBot лучше “просеивает” материал и выдает более точные результаты. Происходит это благодаря, новому, основанному на критерии популярности сервису, который отслеживает, какие ссылки с результатов поиска используются чаще и как долго пользователи находятся на том или ином сайте. Чем дольше пользователь находится на сайте, тем выше его рейтинг.

HotBot постепенно приобретает черты портала. Сайт включает некоторое число категорий, ссылки на популярные коммерческие сайты, бесплатный e-mail и другие привелегии.

Описанные сайты являются наиболее популярными системами поиска на Западе. В рейтингах исследовательских служб они занимают первые места по посещаемости, объему проиндексированной информации, точности поиска и другим параметрам. Ниже приведены рейтинги и сравнительные анализы рассматриваемой шестерки, взятые из наиболее авторитетных источников.

 

Рейтинг поисковых систем Media Metrix

В начало

Media Metrix - старейшая служба в Web, приводящая рейтинги посещаемости сайтов и публикующая свои результаты с середины 1996 года.

Слева приведен рейтинг, основанный на выборке, состоящей из примерно 50,000 Интернет-пользователей, посещающих поисковые системы как со своих рабочих мест, так и входящих в Сеть из дома, а также общее суммарное количество посещений (как с работы, так и из дома). Рейтинг показывает величину аудитории того или иного сайта в процентном отношении от общей выборки. Так как пользователь мог посещать больше, чем один поисковик, то общая сумма (в процентах) всех исследованных сайтов может превышать 100%

 

Размеры поисковых систем

В начало

На сайте Search Engine Watch опубликован сравнительный график размеров индексов поисковых машин (объема информации, доступной в результате поиска).

Больший размер индекса удобен для поиска редких материалов (необычной или сложной для поиска информации). При обычном поиске (информации на популярные темы) объем индекса поисковика еще не значит, что результаты поиска будут хорошими.

Примечание: по наиболее свежим данным, предоставленным тем же ресурсом по подписке (новостной файл от 1 ноября 1999 г.) в AltaVista содержится 250 миллионов страниц, в Excite – 200 миллионов.

Размеры каталогов

В начало

Каталоги, как уже было сказано, создаются людьми и организуются по категориям. Ниже приведен сравнительный размер каталогов рассматриваемых нами систем. Также приведены другие данные, связанные с каталогами поисковых систем.

Служба

Тип

Редакторы (количество людей, участвующих в обработке информации на сайте)

Количество категорий в каталоге

Количество индивидуальных ссылок в каталоге

На период

Yahoo

Каталог

более 150

данные не установлены

более 1,2 миллионов

8/99

AltaVista

Поисковая машина

200

60,000

1 миллион

9/99

Excite

Поисковая машина

200

60,000

1 миллион

9/99

HotBot

Поисковая машина

15,400

153,000

950,000

9/99

Lycos

Каталог

15,400

153,000

950,000

9/99

Infoseek

Поисковая машина

2,600

50,000

500,000+

10/99

 

Рейтинги   различных Интернет-изданий

В начало

Приведенная ниже таблица дает сравнение поисковых систем на основе данных, полученных от различных зарубежных Интернет-изданий. Цветовой код позволяет быстро и просто охарактеризовать их, как занявших 1-е, 2-е или 3-е места. Два и более сайта могут занимать одно и то же место. Такое представление не является идеальным, но просто и наглядно дает общую картину по рейтингу поисковых машин.

Служба

СиНет
4/99

ПиСи Мэгэзин 12/98

PCC
MVP
1998

ПиСи Мэгэзин 9/98

СиНет
1/98

AltaVista

2/2

2

3.3

Excite

4/2

2

1

3.1

HotBot

5/3

HM

1

2

3.6

Infoseek

3/3

2

3.5

Lycos

1/4

2

3.3

Yahoo

EC

2

1

СиНет 4/99: первая цифра показывает общий балл по пятибальной шкале. Вторая цифра - балл за расширенный поиск.

ПиСиМэгэзин 12/98: ежегодное исследование этого журнала. ЕС (Editors' Choice) - выбор редактора и обозначает первое место, присужденное сайту редакторами.

HS (Honorable Mentions) - почетный приз, обозначает второе место.

PCC MVP: 1 обозначает победителя, 2 - вышедшего в финал. Пустые ячейки - сайты не вышедшие в финал.

ПиСиМэгэзин 9/98: баллы присуждались за сервис директорий. 1-отлично, 2-хорошо, 3-приемлемо. Директории AltaVista получили 2, и, т.к. этот сайт принадлежит LookSmart, то это значит, что и директории сайта HotBoat, который также принадлежит LookSmart, тоже получили такой же балл.

СиНет 1/98: полный обзор (по четырем параметрам) большинства поисковых машин. Цифры в колонке представляют собой средний балл, большее значение соответствует лучшему результату.

Рейтинг журнала CNET Internet

Он-лайновое издание CNET Internet регулярно дает обзоры и рейтинги ведущих поисковых систем. В таблице приведены оценки рассматриваемым поисковым системам по четырем критериям (по материалам обзора от 4 июля 1999 г.)

 

HotBot

AltaVista

Excite

Ifoseek

Lycos

Простота использования

5

5

5

4

3

Точность

5

3

4

3

1

Расширенный поиск

3

3

2

3

4

Дополнительные возможности

3

4

5

5

5

Общий балл:

16

15

16

15

13

 

Источник: http://www.emedia.ru/


Copyright © 1999-2000гг. "Internet Zone" & Nik Romanov. nikspase@mail.ru, nikspase@hotmail.ru,  http://www.izone.com.ua/
Hosted by uCoz