Если бы не было поисковых узлов, ваши шансы отыскать в Web какую-то информацию были бы очень малы. В таких узлах из миллионов гипертекстовых страниц, содержащих изображения и элементы мультимедиа, организована упорядоченная структура, по которой можно перемещатьс и, более того, осуществлять в ней поиск. Без поисковых узлов мы были бы вынуждены пользоваться несколькими избитыми закладками или блуждать вслепую от одного указателя к другому. При наличии таких узлов всего за несколько секунд можно выполнить сортировку 1 Гбайт данных и найти интересующую нас информацию на каком-то из серверов Web, разбросанных по всему миру. Удивительно, но доступ к этим мощным средствам предоставляется бесплатно всем пользователям Web.
Но не все поисковые узлы одинаковы. Если ваша деятельность зависит от получаемой из Web информации, естественно, вы станете обращаться к тем узлам, которые наилучшим образом оправдают затраченные вами время и усилия. При подготовке этой статьи мы обращались несколько тысяч раз с простыми и сложными запросами, с возможностью настройки и без, к десяти наиболее популярным поисковым узлам Web.
Мы просматривали их каталоги, читали описания, делали выборки содержимого и разговаривали с теми, кто их разрабатывал. Неудивительно, что нам удалось выявить несколько безусловных победителей. Но в процессе этих исследований обнаружилось также, что при обработке различных типов запросов превосходство принадлежит разным процессорам.
В этот обзор попали поисковые узлы, удовлетворяющие следующим требованиям: возможность доступа через Web, наличие универсального указателя (индекса) или каталога узлов Web и бесплатный доступ для всех пользователей Web без специальной регистрации. Сначала мы выявили 14 узлов; затем это число сократили до десяти, исключив из рассмотрения узлы с небольшими базами данных, не имеющие популярности у пользователей или с явно устаревшими указателями. В наш обзор не вошли следующие узлы: Nexor Aliweb, Galaxy фирмы Tradewave Corp., Tribal Search фирмы Tribal Voice и WWW Yellow Pages издательства New Riders Publishing. Кроме того, в MCI Internet Search используется поисковый процессор Open Text, поэтому мы не описывали его отдельно. IBM InfoMarket Search не оснащен настоящим краулером Web, а собирает лишь информацию ресурсных баз данных, таких, как BusinessWire. Мы не рассматриваем inquiry.com фирмы inquiry.com Inc., поскольку его указатель составлен по материалам компьютерных публикаций. Наконец, в обзор не вошли клиентские части программных изделий, такие, как Quarterdeck Web Compass, предназначенные дл автоматического запуска запросов.
В настоящее время для управления информацией Web в поисковых узлах применяются два механизма - указатели и каталоги.
Указатели Web представляют собой громоздкие, формируемые компьютером базы данных, содержащие структурированную информацию о миллионах страниц Web или статей телеконференций Usenet. Если в пользовательском интерфейсе поискового узла вводить ключевые слова или фразы (и, если такая возможность предусмотрена, специальные операторы запросов), можно получить перечень страниц Web, содержащих искомые термины. Указатели Web строятся краулерами (crawler) Web - программами, которые просматривают и индексируют содержимое HTML-страниц, выявляют содержащиеся в них гипертекстовые связи и читывают соответствующие страницы.
Каталоги Web - это связанные между собой гипертекстовыми ссылками списки узлов Web с иерархической организацией, упорядоченные по тематическим категориям и подкатегориям. Щелчки мышью на этих списках приведут вас к связям Web-узла с необходимой вам информацией. Каталоги Web создаютс людьми, а не компьютерами и часто содержат рекомендации или аннотации к узлам. Они охватывают значительно меньше тем, чем указатели Web, но неизменно лучше спланированы.
Указатели Web олицетворяют чисто компьютерный подход к составлению карты Web, хотя используемые в краулерах эвристические процедуры могут быть достаточно сложными. В некоторых краулерах больший вес имеют ключевые слова, обнаруженные в названии, заголовках первого уровня и управляющих кодах (тегах) META, а не ключевые слова, попадающиеся в тексте документа. Нередко имеет значение и то, насколько часто встречается ключевое слово. Некоторые краулеры создают указатели исходя из полного текста, другие пытаются выделять только существенные термины.
Работа с каталогами Web значительно эффективнее, чем с указателями Web, поскольку в них действительно представлены связи с имеющейся информацией. Выигрываете вы и оттого, что при создании каталога редактирование содержимого узла Web и построение иерархии категорий проводились не компьютером, а человеком.
Среди рассматриваемых в этой статье узлы Alta Vista Search, HotBot, Open Text Index и World-Wide Web Worm содержат классические указатели. Четыре других - Excite, Infoseek, Lycos и WebCrawler - это сочетание мощных указателей Web и каталогов Web. Magellan Internet Guide и Yahoo! - это прежде всего каталоги, хотя в Magellan предусмотрена база данных для поиска, содержащая 15 млн. неклассифицированных URL. Кроме того, Yahoo! оснащен некоторыми поисковыми возможностями и передает запрос в Alta Vista, если не найдет нужную вам информацию.
Как правило, используя механизм простого поиска по ключевым словам, можно получить высококачественную информацию с помощью указателей Web, однако, настроив запрос, можно добиться существенного улучшения качества ответов, особенно на тех узлах, где указатели организованы по полному тексту. Все рассматриваемые в этом обзоре узлы обеспечивают возможность работы с логическими операторами (AND, OR, NOT), устанавливающими отношения между ключевыми словами. Операторы AND и NOT сужают запрос по нескольким критериям, а оператор OR расширяет его. Для задани иерархии логических условий (вложенные запросы) в запросах к некоторым узлам допустимы круглые скобки, а для обозначения фраз, которые должны точно совпадать, в каких-то из узлов допускается применение кавычек или других знаков. Оператор сравнительной близости NEAR выдает на ваш запрос страницы, содержащие введенные ключевые слова, если интервал между этими словами совпадает с указанным вами.
В некоторых узлах предусмотрены средства дл фильтрации, т. е. можно запросить страницы, сформированные в промежутке между указанными датами, или ограничивать поиск определенной областью. Поскольку Web продолжает разрастаться, возможности фильтрации приобретут такое же значение для сложных условий поиска, как и логические операторы.
По мере выполнения вашего запроса каждый из поисковых Web-узлов выводит на экран список ответов в виде страницы с гиперсвязями. Поисковый процессор может также составить краткую аннотацию каждой страницы или ранжировать результаты поиска по степени их соответствия запросу. Четыре узла - Excite, Infoseek, Open Text Index и WebCrawler - позволяют использовать полученный ответ в качестве образца для организаций запроса подобных страниц.
Разработчики поисковых процессоров все еще пытаютс разрешить проблемы обновления данных в огромных массивах указателей и оценки качества информации в документе. Но кто же, имея в своем распоряжении такое количество мощных указателей, станет выражать недовольство по поводу этих недостатков? Попробуйте поработать с рассмотренными здесь узлами, и результаты, возможно, удивят вас.
1. При простом запросе вы вводите ключевые термины в текстовое окно. Для улучшения результатов в поисковом механизме предусмотрены эвристические методы, логические операторы или трафаретные символы (wildcard).
2. В состав поискового механизма (search engine) входят механизм обработки запросов (query engine), базы данных с соответствующими схемами индексирования, программы-краулеры (crawler) и один или несколько серверов Web.
3. Поисковый механизм выполняет ваш запрос, сверяясь с собственной базой данных, и отсылает вам результаты. Некоторые поисковые механизмы (но не все) ранжируют ответы по степени соответстви запросам.
Программы-краулеры поискового механизма просматривают страницы Web или статьи новостей Usenet, индексируют их содержимое и затем в соответствии с обнаруженными в них гиперсвязями подбирают остальные страницы.
Редакция советует
поисковые узлы Web: Excite,
HotBot,
Yahoo! Ни один из поисковых механизмов Internet не обеспечивает возможности решения всех задач. Но в совокупности три победителя, удостоенные отличи "Редакция советует", откроют перед вами более широкое пространство содержимого Internet за меньшее время, чем любые другие комбинации поисковых узлов из тех, что мы рассматривали.
С помощью Excite - лучшего универсального поискового узла Web - вы получите высокий процент соответствия ответов на простые запросы по одному или нескольким терминам, т. е. вам не придетс заниматься уточнением запросов. Наличие средств дл сортировки ответов по узлам позволяет быстро просмотреть изрядное число ответов. Полученные ответы можно использовать в качестве запросов по образцам для поиска подобных страниц. Excite оснащен отличными инструментальными средствами уточнения запросов, в том числе для назначени весовых коэффициентов ключевым словам. Этот узел содержит аннотации для более чем 60 тыс. наиболее важных узлов Web, а также набор других ценных дополнений, например региональные путеводители City.Net и индивидуально настраиваемые страницы новостей Excite Live!
HotBot, основной краулер (crawler) Web, - это огромная база данных страниц, индексированных по полному тексту, и хорошо продуманный интерфейс пользователя. Многочисленные средства для уточнени запросов достаточно легко выбираются из ниспадающих окон списка или с помощью селективных кнопок, что избавляет вас от необходимости изучения совсем не простого синтаксиса при подготовке сложных специализированных запросов. Вы можете производить поиск фраз, информации о людях и указателей URL, а воспользовавшись некоторыми довольно "хитрыми" средствами HotBot, проводить поиск в определенных областях или узлах Web. Вы можете осуществлять поиск по расширениям файлов и по большинству основных типов носителей. HotBot обеспечивал ответы высокой степени соответствия, даже если не применялись его средства для сложного поиска.
Yahoo! - это лучший каталог Web. Данный узел служит хорошей исходной позицией для поиска содержимого Web и неизменно предоставляет вам ссылкивысочайшего качества. 14 категорий и тысячи подкатегорий Yahoo! обеспечивают наиболее успешный поиск в Web; они идеальны на первом этапе поиска информации, когда о том, что искать, вы имеете лишь самое общее представление. Если Yahoo! не содержит необходимой вам информации, ваш запрос на поиск по ключевому слову пересылается в AltaVista.
Поисковые узлы Web: соответствие решаемой задаче
Простой поиск. В случае неуточненных запросов по одному или нескольким терминам высшую оценку за функциональные возможности получают узлы, обеспечивающие максимальный процент соответствующих запросам ответов при минимальном числе устаревших или повторяющихся связей. Оценка по категории "простота" характеризует ясность изложени полученных ответов, в том числе наличие аннотаций узлов и степеней соответствия. Возможность использования ответа в качестве запроса по образцу, чтобы просмотреть "связанные (related) узлы", улучшает оценку как функциональных возможностей, так и простоты.
Специализированный поиск. Данные оценки характеризуют инструментальные средства, предназначенные для уточнения условий поиска. Оценка функциональных возможностей определяется главным образом тем, насколько уточнение запросов улучшает полученные результаты по сравнению с простым поиском. Узлы должны обеспечивать возможность использования всех логических операторов (AND, OR и NOT) и оператора близости (NEAR), кроме того, мы требовали наличия двух вариантов применения ключевых слов для поиска: либо как основы слов, либо по точному их совпадению. Важное значение придавалось средствам для назначения весовых коэффициентов ключевым словам. Мы повышали оценку при наличии средств ограничения поиска заданными областями и интервалом дат, дополнительные баллы присваивались также за функции поиска файлов мультимедиа или файлов определенного типа. Более высокую оценку в категории "простоты" получали узлы, оснащенные графическим интерфейсом, облегчающим работу со сложными запросами.
Поиск по категориям. В качестве альтернативы поиску по ключевым словам узлы должны обладать средствами для подготовки списков узлов Web, организованных по категориям и подкатегориям, которые мы смогли бы просматривать. Узлы, поиск по категориям которых постоянно приводит к получению соответствующей информации, получают высокие оценки. Оценка в категории "простоты" характеризует ясность и логичность построения списков. Поисковые узлы получают оценку N/A (неприменимо), если в них не предусмотрены структурированные каталоги.
Содержимое Web. Этот показатель оценивает содержимое дополнительных узлов. Мы обращали внимание на достоверность аннотаций для других узлов Web и частоту обновления новостей и сведений о погоде. Повышенные оценки присуждались за наличие специализированных собственных страниц, разделов дл детей и региональных каталогов. Содержимое должно быть хорошо организовано и легко доступно. Узлы, обеспечивающие только возможность поиска в этой категории, получали оценку N/A (неприменимо).
Когда в декабре 1995 г. был организован узел AltaVista Search, казалось, его огромная база данных с индексацией по полному тексту и мощные поисковые средства смогут выполнить все, что только можно пожелать от средств поиска в Web. Сегодня выясняется, что у его конкурентов, таких, как Excite и HotBot, более исчерпывающие указатели, однако мощные и изощренные поисковые средства AltaVista позволяют этому узлу удерживать свои позиции.
AltaVista - это наилучший вариант для настраиваемого поиска, для которого используются его совершенные поисковые средства. Результаты, получаемые при простом поиске по ключевым словам, не столь впечатляющи. Заказав простой поиск - заданный в AltaVista по умолчанию, - вы получите тысячи документов. Поскольку при этом сортировка результатов по категориям не выполняется, вам приходится вручную "просеивать" эту массу информации. Хотя AltaVista не ранжирует ответы по степени соответствия исходя из того, насколько часто встречаются заданные ключевые слова, обнаружилось, что качество ответов значительно лучше на первых нескольких страницах по сравнению со следующими за ними. В AltaVista не предусмотрены средства для распределени по категориям, получения списков активных (hot) узлов, новостей или других возможностей поиска по содержанию, которыми оснащены многие другие конкуренты этого узла.
Чтобы воспользоваться чрезвычайно ценными инструментами AltaVista, вам придется освоить методику составления сложных запросов. На странице сложного поиска Advanced Search узла AltaVista предоставлен полный набор поисковых средств, однако все эти операторы имеются и на странице простого поиска. Вы можете задавать логические операторы (AND, OR и NOT), указывать максимальный интервал между ключевыми словами, выполнять поиск с учетом заглавных и строчных букв, а также ограничивать поиск Web-страницами с определенным интервалом дат. Вы можете добавлять символы как в конце ключевого слова, чтобы учесть и окончания множественного числа или суффиксы, так и в середине слова, чтобы учесть возможные альтернативные написания. Вы можете ограничить сферу поиска определенными элементами, например связями.
Соответствие решаемой задаче: AltaVista Search | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Приемлемо | Хорошо |
Специализированный поиск | Отлично | Приемлемо |
Поиск по категориям | N/A | N/A |
Содержимое Web | N/A | N/A |
N/A - неприменимо. Эти узлы не обладают такой возможностью. |
Одна из наиболее ценных функций страницы сложного поиска Advanced носит название "критерия ранжировани результатов". С помощью этой функции вы назначаете весовые коэффициенты ключевым словам, чтобы самые важные для вас документы оказывались в списке ответов первыми. Эта функция исключительно полезна в улучшении поиска с применением обобщенных запросов.
Если вы занимаетесь поиском очень конкретной информации и готовы изучить все сложности синтаксиса сложного поиска, AltaVista предоставит вам мощные и удобные средства для этого. Однако для простого поиска по ключевым словам узел AltaVista нельзя считать удачным вариантом, поскольку можно запутаться в полученных результатах поиска.
AltaVista Search
Digital Equipment Corp.,
Maynard, MA; 800-344-4825; http://www.altavista.digital.com.
Мощный поисковый механизм, возможность автоматической индивидуальной настройки предоставляемой информации и составленные квалифицированным редакционным персоналом описания множества узлов удачно дополняют средства поиска этого Web-узла и вполне оправдывают затраты вашего времени.
В поисковом механизме Excite используются как средства стандартного поиска по ключевым словам, так и эвристические методы поиска по содержанию, благодар такому сочетанию, можно найти вполне подходящие по смыслу страницы Web, даже если они не содержат именно указанных вами ключевых слов. Как утверждается, база данных этого узла состоит из более чем 50 млн. страниц с индексацией по полному тексту.
В процессе нашего тестирования поисковый механизм Excite прекрасно зарекомендовал себя, неизменно представляя безошибочные URL даже при длинных поисковых последовательностях. Excite вполне сносно справляется с задачей исключения повторяющихся URL, хотя в решении проблемы доставки нескольких страниц из одного узла он оказался в хвосте десятки лучших.
Вместе с результатами поиска выводятся и название найденной страницы, полный указатель URL, кратка аннотация и степень до соответствия запросу. Функци "More Like This" (приблизительно это) для каждого полученного ответа обеспечивает эффективный способ запроса по образцу для поиска аналогичных страниц. Функция "Sort by Site" (упорядочивание по узлам) позволяет группировать полученные результаты по предметным областям; все страницы какой-то области помещаются в один абзац с названием узла, благодар этому легче увидеть, сколько узлов вы просмотрели и сколько подходящих страниц нашли на каждом из них.
Вы можете ограничить поиск рамками Web, конференциями Usenet, определенными категориями Usenet или описания Excite. Для сложного поиска в Excite предусмотрены стандартные логические операции, в том числе с вложенными логическими условиями. Значимость каждого поискового терма можно повысить, добавив знак вставки (^) и указав весовой коэффициент. Если в заданном вами сочетании из двух слов первое начинаетс с заглавной буквы, Excite считает, что ведется поиск собственного имени. Здесь нет специального интерфейса для формирования запросов, который облегчил бы составление сложных запросов, но легко получить подсказки из справочной системы, а операторы - стандартны.
Узел Excite содержит массу разноообразной информации. Здесь вы найдете описания-аннотации дл более чем 60 тыс. узлов Web, размещенные в соответствии с иерархией заголовков предметных областей. Длина каждой аннотации составляет около четырех строк, а в общем в них достаточно разумным образом представлена информация об удивительно полном подборе узлов.
Функция City.Net узла Excite обладает столь широкими возможностями, что для нее вполне можно было выделить отдельный узел. Она обеспечивает работу региональными путеводителями и достоверные связи с тысячами адресатов по всему миру. Функция Interactive Maps поможет вам найти свой узел на карте Web, а с помощью функции Concierge можно установить связь непосредственно с узлами, где вы закажете обед или узнаете о ценах билетов на концерт.
Соответствие решаемой задаче: Excite | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Отлично | Отлично |
Специализированный поиск | Отлично | Хорошо |
Поиск по категориям | Отлично | Хорошо |
Содержимое Web | Хорошо | Хорошо |
Воспользовавшись новой услугой Excite Live!, вы получите доступ к журналу новостей Web, в который можете внести свою информацию. Входящая в ее состав функция NewsTracker отбирает информацию примерно из 400 журналов Web в соответствии с указанными вами исходными темами и поисковыми словами. Чтобы облегчить поиск, NewsTracker даже предлагает вам связанные слова, хот на практике большинство таких предложений достаточно далеки от цели. На странице с полученными результатами имеется экранная кнопка Liked It (Понравилось), необходимая функции NewsTracker, для того чтобы уточнить, какие статьи у вас вызывают наибольший интерес. Завершают арсенал ценных средств Excite хороший набор карт и инструменты для поиска людей в сети.
Единственный серьезный недостаток Excite - его хаотичный интерфейс, напоминающий настоящие "заросли" и состоящий из поисковых инструментов, листингов информационного наполнения, услуг и рекламных объявлений. Оптимисты сочли бы это признаком богатства функций во всем остальном впечатляющего и надежного поискового средства.
Excite
Excite Inc., Mountain View, CA; 415-943-1200; fax, 415-943-1299; http://www.excite.com.
HotBot - это база данных, содержащая, как было объявлено, около 54 млн. документов, индексированных по полному тексту, и один из наиболее полных поисковых механизмов в Web. Его простые в использовании средства поиска по логическим условиям и средства дл ограничения поиска типом запоминающей среды и Cyberplace (любой областью или узлом Web) помогут вам найти необходимую информацию, отсеивая при этом ненужную.
Средства HotBot лучше всех выполнили поиск конкретных слов или фраз, например Baha'i или Ежегодный отчет CocaCola за 1995 г. Прекрасные результаты были получены и при поиске по подробным запросам.
HotBot (разработанный совместно фирмами Hotwired и Inktomi Corp.) упорядочивает результаты поиска по ряду критериев, например по тому, сколько раз встречаетс какой-то термин в конкретном документе, есть ли он в заголовке или в управляющем коде META. Хот упорядоченные подобным образом результаты не всегда отображали степень соответствия запросу, нам почти всегда удавалось найти требующуюся информацию среди первых 20 ответов.
Ни у одного из других узлов нет в интерфейсе такого богатства возможностей, как у HotBot. Начальный экран поиска позволяет указать все или некоторые из ваших поисковых терминов, фразу, имя какой-то персоны или URL. Средства поиска конкретного лица обеспечивают ограниченный поиск по близости, поэтому, если вы укажете Aaron Copland, то в ответ получите и Copland, Aaron.
Соответствие решаемой задаче: HotBot | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Хорошо | Отлично |
Специализированный поиск | Отлично | Отлично |
Поиск по категориям | N/A | N/A |
Содержимое Web | N/A | N/A |
N/A - неприменимо. Эти узлы не обладают такой возможностью. |
Чтобы повысить приоритет одних слов и исключить другие, щелкните клавишей мыши на кнопке Modify. В HotBot предусмотрены универсальные средства поиска по логическим условиям. Вы можете также познакомиться с меню поиска Expert. HotBot позволяет ограничить рамки поиска определенным типом носителя или файлами с определенным расширением, например VRML или GIF. Вы можете также ограничить поиск географическим регионом, территорией или просто одним узлом Web. Все поисковые средства HotBot представлены простыми в использовании ниспадающими меню или селективными кнопками, а с помощью его интерфейса вы настроите свою поисковую страницу и установите собственные значения, принимаемые по умолчанию.
Пока еще содержимое узла HotBot не подразделяется по таким категориям, как, например, новости или темы, но в компании Hotwired сообщили, что в скором времени подобные вещи будут реализованы. Хотя HotBot - новичок среди поисковых систем Internet, это не должно помешать вам оценить его возможности.
HotBot
Hotwired Inc., San Francisco; 415-276-8400; fax, 415-276-8499.
Inktomi Corp., Berkeley, CA; 510-883-7300; fax, 510-883-7399. http://www.hotbot.com.
Те, кто только приступает к поиску в Web, по достоинству оценят хорошо продуманный интерфейс Infoseek и отличные базовые поисковые средства этого узла. Когда в процессе тестирования мы вводили в окне запросов просто одно или несколько условий поиска, наше задание выполнялось превосходно. Но формирование запросов с применением синтаксиса настройки и рекомендованного Infoseek стиля к заметному улучшению не приводило. Отметим очень полезную возможность: большинство ответов на запросы сопровождается ссылками Related Topics (связанные темы), а после каждого ответа приводятся ссылки Similar Pages (аналогичные страницы).
Известно, что база данных поискового механизма Infoseek состоит из 1,5 млн. страниц, индексированных по полному тексту. Ответы упорядочиваются по двум показателям: насколько часто попадается на странице какое-то слово или фраза и в каком месте.
Специального экрана для подготовки сложного запроса в интерфейсе не предусмотрено. Единственное, что можно выбрать - это поиск в Web, Usenet или в одной из дополнительных баз данных Infoseek. В число подобных баз данных входят список рекомендованных Infoseek узлов, каталог сведений о компаниях, справочник адресов электронной почты под названием WhoWhere?, часто задаваемые вопросы WEB (FAQ) и подборка каналов новостей. Для формирования сложных запросов вы добавляете к своим ключевым словам символы. Infoseek не работает с общепринятыми логическими операторами AND, OR и NOT или оператором близости NEAR, но и с его символами можно добиться очень хорошей точности запросов.
Если вы работаете с Infoseek, значит, можете не составлять запросы для поиска по ключевому слову, а просто вводите фразу на естественном языке с информацией о том, что вы хотите получить. Безусловно, такой подход значительно облегчает жизнь пользователям Infoseek, но не приводит к улучшению результатов по отношению к обычному последовательному вводу ключевых слов.
Соответствие решаемой задаче: Infoseek | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Хорошо | Отлично |
Специализированный поиск | Приемлемо | Хорошо |
Поиск по категориям | Приемлемо | Хорошо |
Содержимое Web | Приемлемо | Хорошо |
Если вы хотите успешно провести поиск, загляните в каталог Web Directory, подразделяющийся на 12 категорий, и в вашем распоряжении окажутся сотни подкатегорий, для которых может осуществиться поиск. Каждая страница каталога Web Directory содержит перечень рекомендуемых узлов.
Во время подготовки номера к печати проходило бета-тестирование нового механизма Infoseek Ultra, разработанного фирмой Infoseek, который должен быть интегрирован в систему Infoseek как раз к моменту выхода этого номера. Ultra расширит базу данных URL до 50 млн. и обеспечит возможность поиска по заданным предметной области и носителю. В нее не войдут такие страницы Web, в которых для повышения оценок используется "раздутое" число ссылок на ключевые слова.
Infoseek
Infoseek Corp., Santa Clara, CA; 408-567-2700; fax, 408-986-1889; http://www.infoseek.com.
В состав Lycos входят огромная база данных с объявленным числом URL свыше 66 млн. и технологи собственной разработки, в которой основное внимание уделяется статистическому анализу содержимого страниц, а не грубому индексированию по полному тексту. Итог такого сочетаобъединения - поисковый механизм, иногда обеспечивающий удивительную простоту решения задачи поиска. Но если вы на свой первый запрос не получаете точного ответа, из-за слабых средств настройки запроса уточнение условий поиска - довольно трудная и неблагодарная работа.
Как и многие из основных поисковых узлов, Lycos содержит разнообразную интересную информацию, в том числе новости, обзоры узлов, ссылки на популярные узлы, карты городов, а также средства для поиска адресов разных лиц и поиска в Web изображений и звуковых клипов. Сможет ли на деле такое содержание оправдать частые обращения в Lycos - это уже другой вопрос.
Простая по построению собственная страница Lycos - окно для ввода запроса и окно со списком, который предназначен для поиска по всей Web, группой узлов, объединенных определенной тематикой, или узлами, содержащими изображения и звуковые клипы, - поможет вам выполнить несложные поиски. Вы просто вводите с клавиатуры условия поиска - термины, которые процессор использует как основы слов.
Lycos упорядочивает полученные ответы по степени соответствия запросу по нескольким критериям, например по числу поисковых терминов, встретившихся в аннотации к документу (приводится вместе с каждым ответом), интервалу между словами в конкретной фразе документа, местоположению терминов в документе. Случается, и простой поиск обеспечит именно необходимые вам результаты. К сожалению, довольно часто обнаруживалось, что ответы с высокими показателями соответствия не содержали интересующей нас информации.
Можно добиться некоторого улучшения результатов, если воспользоваться имеющимися операторами. Точка, поставленная после термина, заблокирует его применение в качестве основы слова, поэтому Lycos доставит вам ответы только при полном совпадении с этим термином. Знак "минус" выполняет роль логического оператора NOT, а знак доллара - трафаретного символа. Нет возможности оформить запрос на "страницы, подобные данной", с помощью полученного ответа.
Вы можете задать условия поиска еще конкретнее, обратившись к странице Custom Search (заказной поиск). В Lycos не предусмотрены средства для работы со всеми деталями синтаксиса логических операторов, операторами близости для выполнения поиска по точному совпадению фраз и прочие поисковые функции, имеющиеся у других подобных узлов. Однако в интерфейсе настройки запроса есть возможность включить в запрос на поиск, по нескольким терминам базовые операторы AND и OR, можно также заказать поиск совпадений с различной степенью точности - от низкой до высокой (но не абсолютной).
Lycos оснащен и другими средствами для поиска в Web. Самое замечательное из них - каталог мультимедиа - предназначено для поиска изображений и звуковых клипов в Web. При этом вам будет не просто передана ссылка на узел хранящий интересующие вас изображения, звуковые и видеоклипы, а, щелкнув мышью на полученном ответе, вы получите сам файл.
Соответствие решаемой задаче: Lycos | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Приемлемо | Отлично |
Специализированный поиск | Приемлемо | Хорошо |
Поиск по категориям | Приемлемо | Отлично |
Содержимое Web | Хорошо | Отлично |
Представленные в каталоге Sites by Subject (классификация узлов по тематикам) системы Lycos узлы подразделяются на 16 категорий, которые можно просматривать и через них получать быстрый доступ к узлам, отличающимся интенсивным трафиком (предположительно наиболее популярным). В обзорах 5%-ного списка узлов (Top 5% Sites), выбранных наугад при просмотре, приводятся оценки их содержимого, представления информации и оценки в целом. Другие службы, например PeopleFind и CityGuide, помогут вам разыскать старых друзей, связаться с вашим прежним соседом или получить сведения о новом для вас городе, перед тем как наведаться или переехать туда.
Lycos - это весьма "серьезный" узел, безусловно заслуживающий отдельной закладки в вашем браузере. Широкие возможности средств уточнения поиска и улучшенный интерфейс Lycоs смогли бы привлечь множество пользователей, для которых были бы полезны его ресурсы.
Lycos
Lycos Inc., Marlboro, MA; 508-229-0717; fax, 508-229-2866; http://www.lycos.com.
Ни один из поисковых узлов не обеспечивает получени таких исчерпывающих сведений и оценок узлов Internet, как Magellan. Содержащий более 40 тыс. аннотаций по узлам, в том числе, помимо узлов Web, по телеконференциям и группам абонентов электронной почты, Magellan демонстрирует впечатляющей глубины поисковые возможности. Однако при выполнении наших тестовых поисковых запросов результаты оказались неважными. Нам удалось улучшить результаты с помощью его средств сложного поиска, но все же данный узел лучше всего приспособлен для поиска информации по тематикам самого общего характера.
Magellan классифицирует узлы по трем критериям: глубине представления информации, простоте просмотра и востребованности в Internet. Результаты поиска упорядочиваются по степени соответствия. При просмотре классифицированных и аннотированных системой Magellan узлов выставляются оценки звездочками, а зеленый световой индикатор обозначает 1-2 первых предложения из аннотации к узлам, содержащим информацию не только дл взрослых, и ссылки.
В верхней части страницы с результатами Magellan помещает список категорий, входящих в сферу вашего поиска. В аннотации представлено довольно много достоверного материала, в том числе лаконичное описание и оценку значимости узла, ключевые слова, сведения об аудитории, для которой предназначен узел, фирме, подготовившей содержимое узла, номера контактных телефонов и адреса электронной почты, цены.
В Magellan предусмотрены два способа поиска нужного вам узла или аннотации: путем выбора из списка категорий или отправки запроса на поиск. Аннотации распределены по 26 категориям. Вместо нескольких уровней подкатегорий по каждой тематике, как в Yahoo!, в Magellan - лишь один уровень, тем не менее вы быстро добираетесь до интересующей вас информации.
Если воспользоваться поисковыми средствами, имеющимися в Magellan, можно проводить поиск либо по классифицированным и аннотированным узлам, либо по всей базе данных, содержащей 15 млн. указателей URL. Вы можете ограничить просмотр узлами, отмеченными зеленым индикатором, даже если поиск происходит в базе данных. Можно также учесть в запросе требование не включать в ответ узлы, помеченные 1-2 звездочками, или просматривать только узлы с 4 звездочками.
Соответствие решаемой задаче: Magellan Internet Guide | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Плохо | Отлично |
Специализированный поиск | Хорошо | Хорошо |
Поиск по категориям | Хорошо | Хорошо |
Содержимое Web | Хорошо | Отлично |
Кроме того, Magellan отличается некоторыми замечательными дополнительными возможностями. Наиболее интересная из них - функция Search Voyeur, котора отображает на экране 20 процессов поиска, происходящих в любой момент времени в Net. Magellan обеспечивает работу базы данных Rolling Stone Rock Guide (http://www.rockguide.com) с аннотациями узлов, содержащих рок-музыку. Функция Net Events информирует вас о происходящих в данный момент в Internet переговорах и широковещательных передачах. Вообще говоря, Magellan решает одну задачу, но решает ее хорошо - предоставляет всесторонние аннотации и оценки для Internet.
Magellan Internet Guide
Excite Inc., Mountain View, CA; 415-331-1884; fax, 415-806-7889; http://www.mckinley.com.
Воспользовавшись средствами узла Open Text Index фирмы Open Text Corp., вы получите соответствующие ответы даже при простом поиске по ключевым словам. В процессе тестирования мы обнаружили, что Open Text лучше справляется с побуквенным сравнением терминов (например, Disney), чем с поиском по смыслу (например, Reconstruction); в случае поиска по совпадению терминов первые десять ответов в списке оных неизменно отличались высокой степенью соответствия. Выяснилось, правда, что результаты специализированного поиска несколько хуже.
Поисковый механизм Open Text ранжирует ответы по степени соответствия запросу. Если ключевое слово обнаруживается в указателе URL, названии, или заголовках первого уровня, то этот показатель будет выше, чем если ключевое слово находится в самом тексте. При подготовке запросов позаботьтесь о том, чтобы в них не употреблялись такие термины, вероятность использования которых в названиях или заголовках достаточно высока (например, "страницы Web"); в противном случае вы получите значительное число несоответствующих ответов. Open Text не назначает ключевым словам весовых коэффициентов.
Простой поиск выполняется либо по ключевым словам, либо по фразам. Поиск по ключевым словам подразумевает в запросе неявный оператор AND для нескольких слов запроса; при поиске по фразе последовательность слов обрабатывается как единая строка. Open Text не проводит синтаксического анализа на предмет выявления совпадений основы слов с ключевыми и не допускает применени трафаретных символов. Между разными вариациями искомого ключевого слова (например, car или cars) нужно поместить оператор OR.
Соответствие решаемой задаче: Open Text Index | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Хорошо | Отлично |
Специализированный поиск | Приемлемо | Хорошо |
Поиск по категориям | N/A | N/A |
Содержимое Web | Приемлемо | Хорошо |
N/A - неприменимо. Эти узлы не обладают такой возможностью. |
Чтобы воспользоваться функцией Power Search этого узла, нет необходимости вводить операторы вручную. В интерфейсе, организованном в виде формы, предусмотрены ниспадающие списки для выбора конкретных логических операторов (AND, OR, NOT), операторов близости (NEAR, FOLLOWED BY) и элементов HTML-страниц, которые вы хотели бы просмотреть (вы можете выбрать просмотр всей страницы, резюме, названия или заголовков первого уровня). В интерфейсе нет возможности задать поиск по вложенным логическим условиям, но Open Text осуществляет синтаксический анализ операторов в той последовательности, в которой вы их вводите. Согласно утверждениям фирмы Open Text, к тому моменту, когда этот номер попадет к читателю, узел будет дополнен средствами для "поиска подобных страниц"; в период нашего тестирования такой возможности еще не было.
Среди рассмотренных в этом обзоре поисковых систем только Open Text продублирован на японском языке. Кроме того, благодаря сотрудничеству с фирмой AT&T имеютс также версии на испанском и португальском языках. Качество выполнения общего поиска по точно заданным условиям у Open Text - выше среднего.
Open Text Index
Open Text Corp., Waterloo, Ontario, Canada; 519-888-9910; fax, 519-888-0677; http://index.opentext.net.
За простотой интерфейса WebCrawler таятся широкие возможности, в том числе разнообразие синтаксиса дл конкретизации запросов и широкий выбор аннотаций узлов. В процессе тестирования этого узла нам иногда удавалось получить достаточно полные списки точных ответов, соответствующих новейшим версиям содержимого. Однако, если ответы были некачественными - и это серьезный недостаток WebCrawler - даже всевозможные уточнени запросов, как правило, не приводили к улучшению результатов.
Логические операторы OR неявно связывают любые поисковые термины, вводимые в основное окно поиска WebCrawler. Мы всего лишь вводили несколько ключевых слов или фразу с описанием, и в нашем распоряжении, как правило, оказывался весьма полезный список ответов с незначительным числом повторов. Следом за каждым полученным ответом WebCrawler помещает небольшую пиктограмму с приблизительной оценкой соответстви запросу. Функция Show Summaries выводит на экран страницу с кратким резюме для каждого ответа, его полным URL, точной оценкой соответствия, а функци Similar Pages использует этот ответ в запросе по образцу в качестве его ключевых слов.
Прежде чем приступить к задаче уточнения запросов, вам следует изучить синтаксис запросов WebCrawler, поскольку графического интерфейса для настройки запросов нет. Синтаксические конструкции достаточно просты и, должно быть, хорошо вам известны: обычные логические операторы AND, OR и NOT, оператор близости NEAR (для него предусмотрен ключ, показывающий интервал между ключевыми словами), скобки для вложенных запросов, фразы, по которым происходит поиск, заключаются в кавычки и оператор ADJ, указывающий, что два слова должны следовать непосредственно одно за другим в порядке их ввода.
В процессе тестирования обнаружилось, что применение этого казавшегося мощным набора операторов довольно часто не улучшало результатов, полученных при простом поиске по фразе. Не допускаются использование трафаретных символов и назначение весовых коэффициентов ключевым словам, а также нет возможности ограничивать поле поиска определенной областью.
Соответствие решаемой задаче: WebCrawler | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Хорошо | Хорошо |
Специализированный поиск | Приемлемо | Приемлемо |
Поиск по категориям | Хорошо | Отлично |
Содержимое Web | Хорошо | Отлично |
При наличии на WebCrawler только аннотаций классифицированных узлов Web стоило бы посетить его. Щелкнув мышью на одной из 15 категорий содержания, вы обнаружите несколько подкатегорий с краткими аннотациями для множества интересных узлов. Вы можете немедленно связаться с одним из таких узлов или, щелкнув на кнопке, поискать еще какие-то узлы, содержащие информацию по данной теме. В числе других замечательных особенностей: список 25 наиболее популярных узлов и бегущая строка (ticker), позволяюща следить за активными запросами, вводимыми другими пользователями.
Возможно, приступая к поискам в Web, вы обойдете своим вниманием WebCrawler, но он все же стоит того, чтобы его посетили. Конечно, средства настройки запросов не относятся к его достоинствам, но добитьс необычайной точности ответов хотя бы на некоторые из запросов все-таки можно.
WebCrawler
GNN, Berkeley, CA; 510-883-7220; fax, 510-883-7222; http://www.webcrawler.com.
Поисковый механизм узла World-Wide Web Worm, разработанного Оливером МакБрайеном из университета шт. Колорадо (Боулдер-Сити), индексирует только гиперсвязи, содержимое управляющего кода Title (заглавие), встречающегося на страницах, и область сервера, содержащую документ, и несколько отличается от своих конкурентов. Но если есть какая-то вероятность, что нужная вам информация в гиперсвязи или названии имеется, Worm, несомненно, найдет ее. Тексту, в котором предусмотрены связи с графическими файлами, как в описании HREF или управляющих кодах IMG SRC, в Worm придается высокая степень значимости, и вы получите в качестве ответа страницу вместе с указанной графикой.
Соответствие решаемой задаче: World-Wide Web Worm | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Плохо | Отлично |
Специализированный поиск | Приемлемо | Хорошо |
Поиск по категориям | N/A | N/A |
Содержимое Web | N/A | N/A |
N/A - неприменимо. Эти узлы не обладают такой возможностью. |
Кроме того, среди переданных вам ссылок устаревших очень мало, поскольку вся база данных переписываетс заново, когда Worm выполняет обход узлов с целью поиска новых URL (примерно каждые два месяца). Однако наши тесты выявили довольно большой процент повторяющихс ссылок.
Составить запрос для Worm не представляет труда. Вы можете задать, какие логические операторы будут применяться к ключевым словам запроса: AND или OR. Однако невозможен специализированный запрос с несколькими различными логическими операторами. Вы можете заказать число ответов для просмотра: 1, 5, 50, 500 или 5000, и все на одной странице. Несмотря на ограниченные возможности Worm, вам все же в некоторых случаях удается найти необходимую информацию. Worm, безусловно, заслуживает закладки в вашем браузере.
World-Wide Web Worm
Oliver McBryan, Boulder, CO; http://www.cs.colorado.edu/wwww
Первый поисковый узел Web и по-прежнему наиболее популярный из них, Yahoo! - это скорее главный каталог узлов Web, а не поисковый процессор. Он может служить хорошей отправной точкой для любых обобщенных поисков в Web, поскольку с помощью его обширной системы классификации вы обязательно найдете узел с хорошо организованной информацией, если в индексах Yahoo! она учтена.
Содержимое Web подразделяется на 14 категорий довольно широкого охвата, перечисленных на собственной странице Yahoo!. В зависимости от специфики вашего запроса вы можете или "пролистать" эти категории, чтобы ознакомиться с подкатегориями и списками узлов, или искать конкретные слова либо термины по всей базе данных. Вы можете также ограничить поиск рамками любого раздела или подраздела Yahoo!, и тогда ваш запрос будет касаться только заданного подмножества базы данных.
Благодаря тому что классификация узлов выполняетс людьми, а не компьютером, качество ссылок превосходно. Но если заказанный вами простой поиск не увенчалс успехом, то и уточнить его будет непросто, поскольку средств для этого совсем немного. Эти средства представлены в некой графической форме, в которой можно задать базовые логические операторы AND и OR; можно также задать поиск по точному совпадению текста или по основам слов. В состав Yahoo! входит поисковый механизм AltaVista, поэтому в случае неудачи при поиске на Yahoo! автоматически происходит его повторение, но уже с использованием поискового механизма AltaVista. Затем полученные результаты передаются в Yahoo!, а если вам захочется выполнить свой запрос с помощью другого поискового механизма из рассмотренных в этом обзоре, щелкните мышью на какой-то из связей с поисковыми механизмами в нижней части страницы с ответами.
При выполнении поиска с помощью Yahoo! сначала будет выведен на экран список категорий, к которым отнесен ваш запрос, а затем перечень узлов Yahoo! и категории, которым эти узлы соответствуют. Наконец, ваш запрос будет загружен в текстовое окно и выполнен в AltaVista, если ни одна из попыток в Yahoo! не принесла результатов. Например, при поиске по ключевым словам Robert Fripp вам будет представлена категори "Entertainment:Music:Artists:By Gentre:Rock:Classic Rock:King Crimson:Fripp,Robert" и следом за ней перечень узлов.
Очевидный недостаток ограничения поиска категориями и заголовками узлов состоит в том, что число полученных результатов существенно меньше, чем при использовании других поисковых узлов, представленных в этом обзоре. В процессе испытаний Yahoo! неважно выполнял поиск конкретной строки текста.
Соответствие решаемой задаче: Yahoo! | ||
---|---|---|
Функциональные возможности | Простота | |
Простой поиск | Хорошо | Отлично |
Специализированный поиск | Приемлемо | Отлично |
Поиск по категориям | Отлично | Отлично |
Содержимое Web | Отлично | Отлично |
Помимо Web-указателя Yahoo! обеспечивает богатый выбор дополнительных услуг. Вы можете отправлять запросы в DesaNews для поиска в телеконференциях Usenet и в Four11, чтобы узнать адреса электронной почты. Yahoo! хорошо справляется с поиском в узлах, расположенных в определенном регионе, охватывая при этом как города, так и страны. Функция Yahooligans формирует подмножество указателя Yahoo!, отбирая только подходящие для детей узлы. Следует также отметить поддающуюся настройке страницу новостей My Yahoo! Значительные инвестиции в разработку Yahoo! были сделаны родительской компанией издательства PC Magazine - фирмой Softbank.
Хотя с помощью Yahoo! вы не добьетесь достаточной точности ответов при поиске по конкретным терминам, поиск по категориям, составленным людьми, а не машиной позволяет получать высококачественную информацию дл обобщенных запросов. Интеграция с AltaVista и связи со всеми остальными поисковыми узлами Web - все это поможет вам на начальной стадии выполнения поиска в Web.
Yahoo!
Yahoo! Inc., Santa Clara, CA; 408-731-3300; fax, 408-731-3301, http://www.yahoo.com.
Поиск в Usenet: следим за новостями
Шэрил Кантер
В настоящее время в Internet число телеконференций Usenet, доступ к которым имеют примерно 24 млн. человек по всему миру, достигло уже 20 тыс. Каждый день поступает около 500 Мбайт свежей информации. Отыскать что-либо в этом море новостей, естественно, непросто.
Мы рассмотрели шесть поисковых механизмов, предназначенных для решения этой задачи. Deja News и Reference.COM - это средства для поиска исключительно в Usenet, а AltaVista, Excite, HotBot и Infoseek - поисковые узлы Web, рассчитанные также и на поиск в телеконференциях.
В поисковых узлах Usenet архивируются все сообщения для находящихся в их ведении телеконференций. В результате у вас есть возможность не только отыскивать необходимые сообщения, но и просматривать те из них, которые уже удалены с существующих серверов новостей.
AltaVista (http://altavista.digital.com) оснащен мощными средствами для уточнения запросов, но полученные результаты не всегда оптимальны. Одна из уникальных особенностей поискового механизма этого узла - оператор близости (NEAR), с помощью которого можно находить слова, отстоящие друг от друга на 1-10 других слов. Вы можете также помещать в середине слов трафаретные символы. Однако в процессе нашего тестирования в списке, представленном узлом AltaVista, часто попадались статьи, соответствие которых запросу вызывало сомнения, в то же время статьи с высокой степенью соответствия, обнаруженные другими поисковыми механизмами, в этом списке отсутствовали.
Узел Deja News (http://www.dejanews.com) лишь выиграл от того, что изначально предназначалс только для работы с телеконференциями: мощные средства и набор дополнительных возможностей позволяют считать его наилучшим из рассмотренных нами узлов. Результаты поиска представлены или в виде списка, упорядоченного по заданному вами критерию, или в виде цепочки дискуссий. Вы можете также производить поиск телеконференций по конкретным темам либо просматривать телеконференции по иерархическому или территориальному принципу. Архивируется более 15 тыс. действующих телеконференций. При выполнении наших тестов узел Deja News продемонстрировал высокое быстродействие, хорошую точность и полноту поиска.
Среди узлов, предназначенных не только для поиска в Usenet, Excite (http://www.excite.com) лучше других оснащен средствами для такого поиска. Поиск выполняется быстро и точно. Excite можно использовать также для поиска только классифицированных рекламных объявлений Usenet, что может оказаться полезным, если вы собираетесь что-то купить или продать. Однако узлу Excite недостает средств для фильтрации, например для подбора статей, написанных определенным автором.
HotBot (http://www.hotbot.com) обеспечивает широкий выбор функций для поиска телеконференций, но, поскольку такие возможности появились у него совсем недавно, по всей видимости, к моменту выхода этого номера на нем будут храниться сообщения всего за несколько месяцев. Оказалось, что некоторые из его функций, предназначенных для сложного поиска, - прекрасный вариант для поиска телеконференций, особенно важное значение имеют те из них, которые предназначены для ограничения поиска заданным интервалом дат и расширениями имен файлов. Но отсутствие таких специально рассчитанных на поиск в Usenet функций, как поиск по фамилии автора, создает определенные неудобства.
Infoseek (http://www.infoseek.com) меньше всех остальных рассмотренных нами узлов удовлетворяет требованиям, предъявляемым к поисковым средствам Usenet. Он не позволяет заблокировать реакцию на различие заглавных и строчных букв, поэтому при поиске по словам dill pickles вы не обнаружите статей, содержащих слова Dill Pickles. Узлу Infoseek недостает и таких возможностей, как поиск всех статей конкретного автора и применение трафаретных символов.
На собственной странице службы Reference.COM (http://www.reference.com) есть предупреждение, что данное изделие все еще находится на стадии бета-тестирования, тем не менее впечатляющие возможности этой службы неоспоримы. Вы можете просматривать как упорядоченный список сообщений, так и часть дискуссий организованных по цепочке. В архивах хранятся почти 16 тыс. действующих телеконференций, в том числе практически вс соподчиненные, за исключением alt.binaries. Возможность использования шаблона позволяет ограничивать поиск заранее определенной группой телеконференций, посвященных конкретной тематике.
Среди всех рассмотренных нами поисковых узлов только в Reference.COM предусмотрены средства дл поиска групп электронной почты, из которых тысячи индексированы. Если вы зарегистрированы в Reference.COM, вы сможете сохранить свои наиболее часто используемые запросы. Позднее вы сможете запустить их повторно вручную или составить расписание для периодического выполнения их в автоматическом режиме (результаты поиска вы получите по электронной почте). Эта услуга предоставляетс бесплатно.
+ да, - нет AltaVista Deja News Excite HotBot Infoseek Reference.COM Просмотр статей в контексте цепочек - + - - - + Ограничение поиска по интервалам дат/имени автора/адресу электронной почты + + + + + + - - - + - - - - - + + + Операторы AND/OR + + + + + + + + + - + + Операторы NOT/NEAR + + + + + - + - + + + - Вложенный (с использованием скобок) поиск + - + + - + Трафаретные символы + + + - - + Поиск по корневой основе слов - - - - - + Организация результатов поиска по темам телеконференций - + - - - + Ранжирование результатов поиска по частоте повторения ключевых слов + + - + + + Хранение запросов - - - + - + Автоматическое выполнение запросов - - - - - +
Службы Белых страниц: как найти старого друга по Internet
Эндрю Боскардин
Если вы потеряли связь со своим старым коллегой по бизнесу или с возлюбленной университетских времен, поисковые узлы White Pages (Белые страницы) помогут вам восстановить контакты с ними. С помощью этих узлов вы сможете найти адреса электронной почты или номера телефонов; мы рассмотрим пять узлов, предоставляющих бесплатные услуги по поиску физических или юридических лиц на всей территории США.
Базы данных этих узлов содержат огромные объемы информации, отобранной из открытых источников, например оперативных справочников, используемых в университетах и благотворительных, а также некоторых коммерческих организациях и телефонных справочников разных штатов и городов страны. Значительная дол содержимого этих узлов основана на данных, вводимых пользователем, поэтому каких-то сведений там может и не быть или они могут оказаться уже устаревшими. При желании вы можете удалить сведения о себе из базы данных. Ни один из узлов не может служить точным и полным источником информации для оперативного поиска нужного человека, поэтому, если вы потерпели неудачу в одной службе, попытайтесь воспользоваться другой.
Свое знакомство с такими узлами вы можете начать с Bigfoot (http://www.bigfoot.com), интерфейс которого для поиска адресов электронной почты в постоянно растущей базе данных представлен лишь одним полем. В числе сведений о себе вы можете указать университет, который вы заканчивали, и место службы, но в Bigfoot пока еще не предусмотрены средства для ограничения поиска этими полями или организации поиска по ним. Следует отметить довольно интересную особенность этой службы: любой ее клиент может отправить вам приветствие, не име вашего адреса электронной почты, что позволяет сохранить его в секрете. Вы можете воспользоватьс и бесплатными услугами электронной почты этого узла, т. е. поддерживать связь с миром через единственный адрес электронной почты независимо от вашего поставщика услуг.
Наиболее исчерпывающую информацию среди рассмотренных нами узлов содержит Four11 (http://www.four11.com), который обеспечивает возможности поиска как в справочнике электронной почты, так и в телефонном, и во многих отношениях значительно превосходит другие аналогичные узлы. В форме для сложного поиска представлены наиболее удачные фильтры для сужения поиска, в том числе дл ограничения его рамками университета, колледжа или другой организации. Чтобы найти какую-то персону, вы можете задать очень узкие границы поиска или расширить условия запросов, не указывая в них конкретных имен. В имеющуюся для обновлени сведений о пользователе форму можно ввести более пространную информацию для оперативного поиска, чем в других узлах, и каждое поле этой обновленной формы пригодно для использования в качестве фильтра дл формы сложного поиска.
С помощью Internet Address Finder (http://www.iaf.net) вы получите достаточно надежные ответы при поиске общедоступных адресов электронной почты, особенно из университетских служб или крупных оперативных информационных служб, например AOL или CompuServe. Этот узел предназначен главным образом для поиска адресов электронной почты, но, кроме этого, пользователям предоставляется возможность добавлять в свой профиль такую информацию о себе, как название организации, в которой он работает, или район проживания. Но по этим дополнительным полям вы не сможете производить поиск какого-либо сотрудника определенной организации, как это можно делать в Four11, поскольку, чтобы воспользоватьс этими фильтрами, нужно ввести фамилию и по крайней мере первую букву имени этого лица.
По полноте ответов на запросы ни одна служба не может сравниться с Switchboard (http://www.switchboard.com) - справочником телефонных номеров и адресов электронной почты, созданным фирмой Banyan Systems. Хотя база данных этого узла была обновлена за четыре недели до нашего тестирования, многие результаты поисков оказались устаревшими. Ограничить поиск можно только рамками города и штата, поэтому вы будете просто засыпаны горой ответов, если не сможете указать место проживания искомого лица.
Формы и функции узла WhoWhere? (http://www.whowhere.com) очень напоминают аналогичные средства Four11, но в нем недостает присущих этому узлу средств адаптирования поиска. Несколько полей, предназначенных для обновлени сведений, например университет, давший образование, или место работы, в режиме уточненного поиска представлены всего одним полем, что ограничивает возможности поиска и фильтрации. WhoWhere? снабжен замечательным указателем индивидуальных собственных страниц и справочников Yellow Pages (Желтые страницы). Как и в Bigfoot, в службе WhoWhere? предусмотрена некоторая функция защиты: вы пересылаете сообщения разыскиваемым лицам, не зна их адресов электронной почты.
Для тестирования поисковых узлов Web мы подготовили 50 запросов, охватывающих разнообразные предметные области. Чтобы оценить, как каждый процессор справляется с различными типами запросов, мы проводили поиск по одному и нескольким терминам, а также по ключевым словам, представляющим собой акронимы, словам, написанным через дефис или содержащим цифры.
Сначала мы инициировали выполнение каждого запроса, используя предоставляемое по умолчанию поле ввода, не добавляя каких-либо специальных синтаксических конструкций для уточнения запроса. Затем мы анализировали каждые первые десять ответов, оценива соответствие каждой страницы запросу и регистриру повторяющиеся и тупиковые ссылки.
Поскольку оценка "соответствия" субъективна, дл проверки результатов мы просили кого-то еще инициировать эти же запросы для каждого из поисковых механизмов. Наши оценки отражают как число ответов, соответствующих запросам, так и качество информации, на которую получены ссылки. Чтобы убедиться в том, что каждая тупиковая ссылка действительно явилась следствием ошибки 404, а не кратковременного сбо удаленного сервера, мы повторили проверку тупиковых ссылок по прошествии двух недель. Хотя в ответах, полученных от многих механизмов, попадались страницы с одинаковым содержанием, отражающие продублированные узлы, мы не относили эти экземпляры к повторяющимс ответам, поскольку в них были два различных указател URL.
Для оценки работы средств уточнения запросов мы пробовали настраивать запросы с помощью предусмотренных в каждом узле логических операторов, операторов близости и присвоения весовых коэффициентов, а также при необходимости путем добавления ключевых слов. Мы также использовали подходящие средства ограничени поиска, например, интересующей нас предметной областью или элементом HTML-страниц, если, конечно, подобные средства имелись.
Попытки эти были предприняты для того, чтобы выяснить, можно ли улучшить качество получаемых ответов, уточняя запросы в разумных пределах. Как и прежде, второй испытатель повторял этот процесс, используя тот же набор запросов, на этот раз мы хотели исключить влияние субъективности подходов (испытателей).
Результаты всех этих испытаний приведены в таблице. Мы предпочли воспользоваться четырехбалльной системой оценок, а не приводить значения в процентах. Из-за "нечеткой" природы процесса запросов и разной степени мастерства операторов, необходимого для получени хороших результатов с применением различных механизмов, нет гарантии, что, если бы в системе оценок было больше градаций, вы смогли бы надежно предугадать, насколько хорошо вы справитесь с конкретным запросом.
Мы не пытались оценить производительность поисковых механизмов. Их рабочая нагрузка и состояние буферов, как и маршруты передачи информации в Internet и пропускная способность каналов связи, совершенно непредсказуемы и практически не поддаются измерению. Любая оценка производительности сервера, в которой не учтены эти факторы, была бы абсолютно несостоятельной. В результате влияния любого или всех этих факторов реальные пользователи в различных точках мира обнаружат значительные колебания производительности.
Все испытания мы проводили на различных компьютерах 486 и Pentium, работающих под управлением Windows 95 и выполняющих Netscape Navigator 3.0 и Microsoft Internet Explorer 3.0. Они подключались к Internet через локальную сеть Token-Ring с пропускной способностью 16 Мбит/с, связь с нашим поставщиком услуг Internet устанавливалась по каналу T1.
****отлично ***хорошо **приемлемо *плохо | Соответствие ответов исходному запросу | Эффективность настройки запроса | Устранение повторяющихся ссылок | Устранение тупиковых ссылок |
---|---|---|---|---|
AltaVista | ** | **** | *** | * |
Excite | **** | **** | *** | *** |
HotBot | *** | **** | *** | *** |
Infoseek | ** | * | ** | **** |
Lycos | ** | ** | **** | *** |
Magellan | * | *** | ** | *** |
Open Text | *** | ** | ** | **** |
WebCrawler | ** | ** | **** | ** |
WWWWorm | * | ** | * | *** |
Yahoo! | **** | * | **** | **** |
Об авторах: Амарендра Сингх - старший научный редактор службы PC Magazine Online. Томас Мейс - старший редактор, а Шэрон Тердеман - заместитель старшего редактора журнала PC Magazine. Карен Бэннан - штатный автор службы PC Magazine Online. Нэнси Сирапьян - специалист по библиотековедению в редакции журнала PC Magazine. Майкл Мачмор - штатный редактор PC Magazine. Эндрю Боскардин и Эйри Моллер - исследователи редакционной коллегии журнала PC Magazine. Шэрил Кантер - внештатный редактор PC Magazine. Рик Ровеньо - технический аналитик лаборатории PC Magazine Labs. Дэвид Лидски - штатный редактор, ответственный за данный обзор, а Джей Манро - руководитель проекта.