Анализ Internet-ресурсов по вопросам

Министерство образования и науки

Национальный горный университет

Кафедра менеджмента

Индивидуальная работа

по дисциплине

«Компьютерные сети и коммуникации»

на тему

«Анализ Internet-ресурсов по вопросам»

Выполнила

студентка группы ЭМ-02-2

Заозерная В.А.

Принял

кандидат технических наук

Симоненко А.И.

Днепропетровск

2003

Содержание

1) Введение.

2) Анализ информационно-поисковых систем Internet:

a) Сравнение качества поиска

b) AltaVista;

c) Infoseek;

d) Lycos;

e) Yahoo!

f) Рамблер;

g) Tela;

h) Wais;

i) NorthenLight;

j) Google.

3) Анализ средств для копирования и сохранения найденной информации:

b) Менеджеры закачки файлов:

i) FlashGet;

ii) GetRight 4.5c;

iii) Go!Zilla;

iv) Star Downloader;

v) Mass Downloader;

vi) ReGet.

4) Анализ Internet-ресурсов по вопросам PR.

Введение.

Интернет - это сеть сетей, это возможность общения и передачи информации между любыми компьютерами по всему миру, вне зависимости от того, какие это компьютеры.

Но что за информация передается по сети? Для чего объединять все компьютеры?

Информация передается любая. Кто-то получает и посылает электронную почту, которая доходит в сотни раз быстрее обычной. Кто-то перекачивает себе программы. Кто-то участвует в международных дискуссионных клубах, заказывает место на самолет или бронирует место в гостинице, покупает автомобиль и пищу. Кто-то ищет научную статью в библиотеках по всему миру.

В Интернете представлена информация, которую туда помещают люди, машины лишь передают ее. Поэтому-то информация там циркулирует самая разнообразная.

Здесь перед нами встает проблема выбора. И каждый решает ее сам. Главное, что есть из чего выбрать.

Но в этом разнообразии кроется еще одна проблема-проблема совместимости. Ведь общаются компьютеры самых разных типов, операционные системы в которых сильно друг от друга отличаются.

Кроме того, так исторически сложилось так, что до своего объединения различные сети выработали свои способы организации работы, свои стандарты.

В последние годы выработан единый стандарт TPC/IP и работающая на его основе всемирная паутина WWW. И самое главное – лет восемь назад создано универсальное средство передвижения по сетям (browser), с помощью которого мы с вами получили доступ ко всем ресурсам Интернета, будь то электронная почта, хранилища файлов, Web-странички и т.д.

Анализ информационно-ресурсных систем Internet

Сравнение качества поиска

Поисковая машина характеризуется двумя важнейшими параметрами: точностью и полнотой (полнота есть отношение количества найденных релевантных документов к полному количеству релевантных документов в базе данных).

Пример. Пусть по запросу найдено 50 документов. После просмотра их всех пользователь принимает решение, что 30 документов релевантны запросу, а 20 нерелевантны. Сплошной просмотр всей базы данных показывает, что в ней содержится 100 документов, релевантных запросу. Отсюда получаем, что полнота 30/100 = 0,3; точность 30/50 = 0,6. Как правило, улучшая один из названных параметров, ухудшаешь другой.

Используется также такая обобщенная характеристика, как техническая эффективность поисковых машин, включающая скорость поиска по запросу, объем базы, удобство представления результатов, скорость индексирования информации и так далее. Но особое место среди этих параметров занимают показатели качества поиска - в этом сходятся мнения всех создателей поисковых машин.

Отечественная компьютерная пресса, которая так любит устраивать тестирование лингвистических программ (например, систем оптического распознавания), пока ни разу не организовала ни одного тестирования отечественных поисковиков (в отличие от ZDnet). Научные тестирования поисковиков также представляются недостаточно объективными, так как используют, к примеру, всего четыре типа запросов (без учета реальной частоты этих запросов на некоторую поисковую машину). Поэтому остановимся на исследованиях для оценки точности по методике Н. Харина. Она используется во время периодических внутрифирменных тестирований поисковых машин в "Рамблере" группой приглашенных экспертов-лингвистов (обычно, в течение двух недель каждое). Можно считать это тестирование независимым, так как его результат не используется заказчиком в маркетинговых целях. Исследования проводились путем оценки результатов поиска различных поисковиков по одним и тем же 100 популярным запросам, состоящим из одного, двух, трех и четырех слов. Важным условием всех исследований были четкие формулировки, какие именно документы считать релевантными смыслу каждого из запросов (без этого были бы получены сильно завышенные оценки технической эффективности). Часто встречающиеся запросы, содержащие ненормативную лексику, не учитывались.

Результаты иccследований представлены ниже. Значения годичной давности оставлены, чтобы показать изменения эффективности при переходе "Яндекса" на более совершенную версию поисковой машины в июне 2000 года и изменение точности "Рамблера", вследствие того, что с ноября 2000 года некоторые нововведения стали последовательно внедряться в старый движок.

Результаты для "Апорта", по словам его создателя Евгения Киреева, качественно похожи на правду, потому что за прошедший год ничего в технологиях повышения релевантности в этой системе не менялось, так как, по его мнению, ничего уже и невозможно принципиально изменить. По его словам, команда "Апорта" спокойно ждет, пока "Яндекс" и "Рамблер" подтянутся до такого же уровня, и это будет уровнем развития отрасли. Фактически, результаты последнего исследования от 24 мая 2001 года, проведенные на следующий день после представления новой версии "Яндекса", показывают, что с нынешнего лета уровень отрасли определяется им.

Сравнение релевантности поисковых систем

Период "Апорт" "Рамблер" "Яндекс" Google

02.2000 0,959 0,643 0,845 -

11.2000 0,992 0,903 0,960 -

12.2000 0,992 0,922 0,960 -

03.2001 0,992 0,956 0,960 -

05.2001 0,992 0,957 0,998 0,992

Тестировалось качество ранжирования с определением точности при 10, 30, 50, 70 и 100 документах из начальной части списка и с учетом градации значений точности (точность при 30 документах важнее точности при 300 документах, иными словами, основной интерес представляет зависимость между полнотой и точностью в области малых значений полноты).

Известно, что отношение суммарной частоты всех запросов, состоящих из одного слова, к суммарной частоте всех запросов равно примерно 0,5. Поэтому отбиралось 50 однословных запросов с максимальной частотой. Отношение суммарной частоты запросов из двух слов к суммарной частоте всех запросов равно 0,3. Поэтому отбиралось 30 двухсловных запросов с максимальной частотой. Дальше действуем аналогичным образом.

По каждому запросу проводился поиск во всех сравниваемых поисковых машинах. Решение о релевантности или нерелевантности документа принимается после просмотра его полного текста, а не аннотации, выдаваемой в результатах поиска по запросу.

На основе полученных оценок релевантности применительно к каждой машине формируется характеристическое множество запроса - значения точности, полученные при разном количестве документов из начальной части списка найденных документов.

Пример. Характеристическое множество содержит 5 элементов - значения точности при 10, 30, 50, 70, 100 документах из начальной части списка найденных документов. При такой структуре характеристического множества эксперт должен принять решение о релевантности первых 100 из найденных документов.

Предположим, что для одной из сравниваемых поисковых машин число документов - 10, из них релевантных 8, точность 8/10, первый член характеристического множества запроса - 0,8. Релевантность поиска по запросу вычисляется с учетом весовых коэффициентов. Задан следующий набор весов элементов характеристического множества запроса: (5, 4, 3, 2, 1). И пусть запрос имеет характеристическое множество (0,8; 0,5; 0,46; 0,43; 0,4). Тогда средняя релевантность равна: 0,8*5/15 + 0,5*4/15 + 0,46*3/15 + 0,43*2/15 + 0,4*1/15 = 0,267 + 0,133 + 0,092 + 0,057 + 0,027 = 0,576. Далее происходит вычисление средней релевантности поиска по всем запросам, которая и представлена в таблице выше.

Об исследовании других характеристик поисковых машин.

Небезынтересны оценки (http://www.metabot.ru/engines.html) роботов-пауков ведущих поисковиков от создателей Metabot.ru, особенно в той части, где "Апорт" и "Рамблер" они относят к "локальным системам, со схемой выборочной индексации".

Исследования полноты поисковых систем заведомы неточны. Совершенно очевидно, что при том объеме базы, что имеется у "Яндекса", он является самой полной системой, независимо от того, как отслеживаются дубли в разных поисковиках. Определение полноты индексирования путем поиска некоторых образцовых документов в каждой из сравниваемых поисковых машин (еще одна очень сложная методика Харина) привело к следующим результатам.

"Апорт" "Рамблер" "Яндекс"

	Пример: Транспортная логистика
Я ищу:
На главную \| Добавить в избранное