Информационные технологии

1.Понятие информационной технологии.

ИТ – средства, методы и системы сбора, передачи, обработки и представления информации пользователю.

Существуют 4 этапа эволюции:

 Появление речи;

 Появление письменности;

 Появление средств ВТ (Современные и тд.).

 В современном ИТ выделяют 3 составляющие:

 Аппаратное обеспечение (средства ВТ и оргтехники – hardware);

 Программное обеспечение (прикладное и системное ПО, методическое и информационное обеспечение – software);

 Организационное обеспечение (включая человека в системы ИТ, взаимодействие человека с этими системами, системное использование технических и программных средств – orgware)

ИТ = новые ИТ = современные ИТ.

Новые ИТ – современная ИТ технология, использующая развитый (интеллектуальный) интерфейс с конечным пользователем.

ИТ как прикладная наука, изучает фундаментальные соотношения в больших информационных системах.

ИТ как практика – интеллектуальная деятельность по проектированию и созданию конкретных технологий обработки данных.

В ИТ выделяют 3 составляющие:

1. Базовые ИТ. Обеспечивают решение отдельных компонентов в той или иной задаче, служат для создания прикладных ИТ. Например: технологии программирования, СУБД, системы распознавания изображения и тд.

2. Прикладные ИТ. Формируются на основе базовых ИТ, предназначены для полной информатизации объекта. Например: САПРы, АСУП, геоинформационные системы.

3. Обеспечивающие ИТ. Обеспечивают реализацию базовых и прикладных ИТ. На рынке представлены их отдельные компоненты. Например: современная микроэлектронная база средств ВТ, перспективные системы и комплексы (оптические и нейрокомпьютеры, транспьютеры).

3.Основные методы организации текстовых файлов.

1. Цепочечные файлы.

К самой БД добавляется справочник, который имеет следующую структуру:

Ключ – значимое слово, характеризующее тот или иной документ. Рядом пишется адресная ссылка на тот текстовый файл, который имеет данный ключ в качестве значимого термина. И к этой подстроке добавляются собственно текстовые файлы.

Цепочечная модель: сколько индексных терминов в тексте выделено столько и должно быть ссылок.

Преимущества:

 Максимальная длина поиска определяется самой длинной цепочкой;

 Новые записи (тексты) можно ставить в начало цепи, что упрощает её корректировку.

 Недостатки:

 Цепи могут быть длинными, если некоторые ключи используются довольно часто;

 Необходимость выделения памяти для хранения адресных ссылок в самих текстах;

 Если справочник очень велик, он значительно усложняет работу с текстами и требует организации дополнительного доступа к себе самому.

Вопрос 5(окончание).

термину k. Если Sk уменьшается, то k либо вообще не рассматривается как возможный индекс, либо ему присваивается отрицательный вес.

1.Параметры, основанные на динамической эффективности. Всем терминам первоначально присваиваются одинаковый вес, затем пользователь формирует запрос, и выдаются документы и пользователь определяет релевантность, система сама уменьшает или увеличивает вес документа, в соответствии с потребностями пользователя, т.е. предусматривается некоторая программа обучения системы.

Мы рассмотрели статистические подходы (СП). Помимо СП используются такие подходы, которые предусматривают местоположение термина в тексте.

Подходы:

1. В индексационные термины включаются те, которые встречаются в названиях документов, названиях глав, разделов и т.д.

2. Составляются списки значимых для некоторой предметной области слов. Т.е. составляется глоссарий по некоторой предметной области.

2. Методы увеличения полноты. Часто бывает необходимо выдать наибольшее число релевантных документов из массива. В этом случае необходимо к используемым индексационным терминам добавить дополнительные, чтобы расширить область поиска.

1) 1-й подход к решению этой задачи: использование терминов заместителей из словаря синонимов, который называют тезариусом, в котором термины сгруппированы в классы.

2) Метод ассоциативного индексирования. Основан на использовании матрицы ассоциируемости терминов, которая задаёт для каждой пары терминов показатель ассоциируемости. Абсолютная запись этого ПА между терминами j и k:

f ( j ; k ) = сумм ( i=1 – n ) fij * fjk – частота совместного использования f ( j ; k ) = сумм ( i=1 – n ) fij * fjk / (сумм ( i=1 – n ) fij ^ 2+ сумм ( i=1 – n ) fjk ^ 2 – сумм ( i=1 – n ) fij * fjk - для расчёта относительного значения этого показателя. fij,k – частота появления термина j или k в i – м документе. 0 investigations -> artificial intelligence -> creation.

18.Задача автоматического реферирования текстов и методы ее решения.

Задача создания рефератов – задача выявления списка документов и краткое его представление.

Исходные данные:

1. массив исходных данных;

2. готовые вектора документов (т.е. уже должна быть решена задача создания векторов {tik , wik}).

Методы для автореферирования:

1. Расчётный – определяются веса словосочетаний, содержащих 2 значимых термина из вектора документа.

w = 1 / 2t * wi1 * wi2 – вес словосочетания из 2-х терминов .

wi1 и w i2 - веса 1-го и 2-го термина из вектора.

t – количество слов в тексте между терминами ti1 и t i2, которые не являются значимыми.

Далее по тексту определяется значимое предложение. Это такое предложение, которое содержит большое число значимых групп. После расчёта значимости предложений, они упорядочиваются и для реферирования выбираются наиболее значимые. Далее наиболее значимые предложения упорядочиваются так, как они шли в тексте, чтобы не потерять логику.

2. Позиционный метод. Включает в себя следующие не альтернативные шаги:

Наиболее значимые предложения, которые либо начинают, либо заканчивают абзац или раздел.

Исключаются вопросительные предложения, несмотря на их положение в абзаце.

К значимым относятся предложения, содержащие слова – подсказки. Например: “ данная (слово-подсказка) работа выполнена по такому – то плану и т.д.”

Из значимых исключаются те предложения, в которых есть ссылки на рисунки, таблицы, цитаты и т.д.

19.Цепочечные текстовые файлы.

К самой БД добавляется справочник, который имеет следующую структуру:

Цепочечная модель: сколько индексных терминов в тексте выделено столько и должно быть ссылок.

Преимущества:

 Максимальная длина поиска определяется самой длинной цепочкой;

 Новые записи (тексты) можно ставить в начало цепи, что упрощает её корректировку.

 Недостатки:

 Цепи могут быть длинными, если некоторые ключи используются довольно часто;

 Необходимость выделения памяти для хранения адресных ссылок в самих текстах;

20.Инвертированные текстовые файлы.

Получаются из цепочечных файлов, когда в справочник включаются адресные ссылки на все тексты, имеющие соответствующий ключ в качестве индексационного термина.

Недостаток: переменное число адресов в справочнике.

Достоинство: быстрый поиск релевантных документов, так как их адреса находятся сразу в справочнике, обработку которого можно организовать в оперативной памяти.

21.Рассредоточенные текстовые файлы.

Весь массив документов разбивается на группы файлов, ключевые термины которых связаны некоторым математическим соотношением. Тогда поиск в справочнике заменяется вычислительной процедурой, которая называется хешированием, рандомизацией или перемешиванием.

Здесь нет справочника, а существует вычислительная процедура, т.е. блок, называемый блоком рандомизации, который по ключу (поисковому термину) на основании вычислительной процедуры определяет адрес, по которому находится текст.

Ключ адрес этот участок

{ключ} памяти

называется

бакетом

В этой области памяти находится несколько текстов, каждый из которых характеризуется по своему в векторе документов. Т.е. адрес получается по вычислительной процедуре.

Преимущества:

 Быстрый вычисляемый доступ;

 Из-за отсутствия справочника экономится память.

Недостатки:

 Сложность при выборе метода хеширования;

 Применяется

	Пример: Транспортная логистика
Я ищу:
На главную \| Добавить в избранное