Главная
    Русские интернет-кафе
    Смерть в Интернете
    Находки
    Мои книги
    Статьи, Обзоры, Стихи
    Реальная жизнь



    Андрей Травин
     08.10.99

Апорт 2000 и коллективный разум

На этой неделе на компьютерных выставках по обе стороны океана был официально представлен «Апорт 2000». В нем - много новых алгоритмов, часть которых видны и пользователю. Очевиднее всего то, выдача результатов поиска теперь построена не на основе выдачи отдельно взятых страниц, а на основе сайтов. Можно сказать, что в новом «Апорте» появляется некоторая единица информации - сайт. Для такого разделения ресурсов используется имеющаяся информация о том, как Интернет разбит на сайты (сайт – «вещь» неформальная). И решается эта проблема следующими способами.
1. Используя информацию, которую «Апорту» предоставляет каталог @Rus – о том, какие же сайты есть в Русском Интернете.
2. Используя второй важнейший источник - информацию, введенную в «Апорт» владельцами ресурсов (адрес, описание, категорию).
3. На худой конец, опираясь на алгоритм, который позволяет по некоторым формальным признакам выделить отдельные сайты.

В новом Апорте переработана структура страницы: информация о страницах, релевантных запросу, выдается и сортируется с учетом ряда нововведений. Первое из них - учет «кучности слов» в типичной ситуации, когда слова запроса встречаются в любом месте сайта. Это не в чистом виде нововведение – просто в настоящее Апорт не делает этого по умолчанию, а большинство запросов вводятся без параметров.

Второе - учет «ранга страницы», который характеризует ее популярность. Он вычисляется по количеству ссылок на ресурс из внешнего Интернета. Обработка запроса теперь ориентируется на гипертекстовую структуру WWW. Ведь ссылки делают люди, и крайне важно опираться на знание того, на что они осмысленно ссылаются (и того, какие слова они при этом используют). Это еще один пример использования коллективного разума.
Page Rank учитывается с весовыми коэффициентами: вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного. Так что можно сказать, что это – и учет качества ссылок. В результате строится база данных, которая содержит свежие ссылки. По ней, кстати, можно строить рейтинг ресурсов Интернета, который не основан ни на каких счетчиках.
Замнем вопрос, как такой критерий как рейтинг страниц преобразовать в рейтинг сайта – это, пожалуй, наименее очевидный аспект проблемы. Обсудим ее понятные аспекты.
Ссылки типа «смотрите здесь» - это лингвистически малоинформативные ссылки. Но если указана внешняя ссылка, к примеру, «сайт о волках», то указанный по ней ресурс, «Апорт» поднимает вверх при выдаче результатов поиска по запросу «волки».
Разумеется, в выдаче сохранилась ссылка, позволяющая посмотреть не только сайты, но и содержащиеся на нем отдельные документы.
И, наконец, одними из первых выдаются в результатах поиска сайты, чье название в службах реальных имен является синонимом или совпадает со словами запроса (так как любая служба имен модеририруется, и полной чуши в ее данных быть не может).

Отметим, что кроме коллективного разума разработчики Апорта используют некоторые идеи, впервые реализованные в американской поисковой машине Google (именно у нее разработчиками Апорта заимствовано понятие «Page Rank»). Для тех, кто не знает - компания Google Inc. основана в 1998 Сергеем Брином и Ларри Пейджем с целью упростить поиск достоверной веб-информации. Предыстория создания компании включает в себя три года исследовательских работ по всевозможным способам поиска информации, проведённых будущими основателями на отделении вычислительной техники Стенфордского университета. Один из баннеров, рекламирующих Апорт 2000 изображает некоторого новоиспеченного обладателя звания магистра каких-то наук. Наверное, это - намек на двух стенфордских аспирантов :))

Чеченскому волку Апорт - не товарищ

Закрепим материал на примерах (которые неизвестно как сработают). Дадим новому Апорту запрос "волки". Вполне подходящий, на мой взгляд пример, по которому находится ровно 1000 документов на 781 сайте - уже видны закономерности (а "шум" связан лишь с фамилией Волков).
Итак, самым первым в выдаче «Апорта 2000» появляется сайт «Час волка». Вероятно, из-за того, что он имеет высокую экспертную оценку в @Rus, Апорт тоже решил его "поднять".
Пятой идет "Волчья страница" Петра Юркина - первая прославленная страница о волках в Русском Интернете. На всех ее страницах упоминаются волки, однако Апорт считает, что "соответствуют запросу 14 из 112 страниц сайта". Это - первое в череде недоумений обстоятельство.
Сорок третьим в выдаче указан домен халява.ru. Потому что "соответствует запросу: 1 из 223 страниц сайта". Это единственная подходящая страница была выложена мной более двух лет назад (последнее изменение 08.06.1997) на сервер Халява.ru для знакомства с его сервисом бесплатного размещения частных страниц. Весь мой "сайт" состоит из одной страницы о волке, и то, что Апорт считает все самостоятельные страницы на Халяве.ru за часть одного сайта, на мой взгляд, совершенно непростительно. Интересно, а как он поступает с Chat.ru, например?
Семьдесят третьим идет сайт www.7wolf.net, на котором ни разу не упоминаются волки (так как этот сайт - про компьютерные игрушки). Апорт честно предупреждает, что "документ найден по ссылке", потому что "волки" (в переводе на английский) входят здесь в имя домена. Претензий к Апорту нет, за исключением того, что этот ресурс поднят в выдаче так высоко - выше, чем к примеру (идущая 78-ой) статья в «Комсомольской Правде-на-Дону» - « В степи ЧЕЧЕНСКИЕ ВОЛКИ собираются в полки». Вот цитата оттуда:
"теперь к обычным для этих мест и сравнительно не большим по размерам «красным» степным волкам присоединились сотни огромных серых чудовищ. Местные жители говорят, что это «чеченцы», которых пригнала сюда война. И это скорее всего правда, так как деревенские жители хорошо помнят, что в войну они всегда подвергались нашествию волков при приближении линии фронта". И далее - с такой же частотой упоминаются серые хищники. Однако эта заметка - всего лишь одна из 198 страниц сайта ростовской газеты. В результате в выдаче Апорта до нее не каждый долистает.
Восемьдесят третьей выдается знаменитая песня «Охота на волков». Волки там упоминаются кучно - чаще, чем в каждом куплете. Однако ресурс стоит достаточно низко, потому что в более чем тысячи страниц Народной библиотеки Владимира Высоцкого Апортом находятся лишь две страницы о волках (вторая - «...Меня к себе зовут большие люди, чтоб я им пел «Охоту на волков»»). И здесь что-то явно не то, хотя бы потому, что у Высоцкого гораздо менее тысячи литературных работ (даже если считать, не только песни, но и сохранившиеся стихи и варианты).

Таким образом, новый Апорт оставляет двойственное впечатление. С одной стороны искать стало гораздо удобнее - пожалуй, удобнее, чем даже новым Яndex'ом с подключенным рубрикатором. С другой стороны разделение Русского Интернета на сайты у Апорта явно хромает. И Яndex пока превосходит Апорт, по крайней мере, в одном - он индексирует "Находки" :))

Информация и дезинформация

Каждый кто пытался получать информацию (скажем, о чеченской войне или противостоянии Кремль - Московское правительство) из четырех-пяти каналов телевиденья, пары газет или полдюжины веб-сайтов видит насколько отличаются конкретные сведения (и сами понятия поликорректности) из различных источников. Дело зашло слишком далеко. Ангажированность СМИ достигла таких масштабов, что стартовал специальный проект, призванный "помочь журналистам разобраться в достоверности информацией в Интернете... как оперативной, так и справочной". Речь идет о новом проекте Фонда эффективной политики, который официально называется "СМИ.RU. Информация и дезинформация". Именно под таким названием 1 октября 1999 года открылся сайт SMI.RU. Сервер призван способствовать работе журналистов, активно использующим Сеть. Главный редактор СМИ.RU - Андрей Левкин (бывший главный редактор журнала "Родник" и ведущий веб-сайтов Полит.ру и "Русского журнала").
На сервере SMI.RU осуществляется постоянный мониторинг предположений, версий и слухов, возникающих в информационном поле. Источниками слухов и версий являются печатные и электронные СМИ, в том числе Интернет. Каждому сюжету дается экспертный комментарий. Задача ленты слухов SMI.RU - понять смысл информации, оценить ее достоверность, ориентацию, намерения источника.
Все это очень похвально. Жалеть остается лишь о том, что рубрики SMI.RU - "власть", "выборы", "корпорации", "масс-медиа" и "Интернет" - отражают спектр интересов самих российских СМИ конца девяностых, а вовсе не их читателей.
Обещано, что "со временем на сервере появится полный каталог сетевых СМИ, а также рекомендации по работе с Интернет-ресурсами для журналистов". Как это будет выглядеть, даже интересно. Попадут ли в категории СМИ веб-обозрения?



 



Памяти Netscape

В отсутствие других капитанских фигур масштаба Фернана Магеллана мне представляется достойным решением поставить с ним вровень Марка Эндриссена, который создал первый надежный и быстроходный корабль, пригодный к плаванию по Интернету, реально совершил свой подвиг и при этом не сломал себе шею, вернулся назад. >>>

Отечественные интернет-счетчики

Было проведено экспресс-исследование отечественных счетчиков >>>

Три поисковика Рунета, не считая Google

Найденные поисковой машиной документы относятся к одной из двух категорий: одни соответствуют запросу, другие ему не соответствуют... На этом простом механизме в настоящее время строится перспективный бизнес. Сами поисковые машины тоже относятся к одной из двух категорий: одни технологически эффективны, другие наоборот. Однако, современные поисковики настолько сложные системы, что уже не могут быть описаны в кооординатах "хорошо-плохо". >>>
















 
 Copyright © 1997-2005 - Andrey Travin                                                                                                     Design 2003 - Leeloo