Алексей Пасечник

Перспективы развития информационных технологий в III тысячелетии

Это черновой вариант неоконченной статьи, публикация которой предполагается в одном из номеров журнала "BYTE/Россия".


До начала нового тысячелетия осталось... да, пока я писал статью, оно уже началось. И, хотя предсказание будущего - занятие неблагодарное, попробуем все же проанализировать тот путь, который прошло человечество к настоящему моменту, чтобы попытаться понять, что может ждать нас впереди.

По крайней мере, одна из тенденций нашего развития настолько устойчива, что можно, не опасаясь, экстраполировать ее на следующее тысячелетие: количество информации, производимой человечеством, растет по экспоненциальному закону. Уже сегодня не найдется человека, способного воспринимать и переваривать этот сметающий все на своем пути поток.

Что же делать с ним дальше?

А что мы делали с ним до сих пор?

До сих пор переработка информации состояла из двух этапов.

На первом этапе производилась фильтрация входящей информации с последующей систематизацией и классификацией.

На втором этапе отфильтрованная нужным образом информация подвергалась анализу в рамках исследуемой проблемы. Это могла быть либо статистическая обработка, либо сравнение полученных данных с теоретическими предсказаниями.

При этих традиционных способах обработки информации значительное число первоначальных сведений отфильтровывается и теряется еще на первом этапе обработки. Каждый следующий этап приводит к тому, что от первоначального мутного потока остается тонкий прозрачный ручеек, несущий нужные исследователю сведения.

Таким образом, получается, что мы можем извлечь из предоставленных нам данных ответ только на тот вопрос, который мы задали. Как сказал мудрец: "правильно заданный вопрос содержит 80% ответа". Или логически перефразируя, чтобы правильно задать вопрос, нужно знать 80% ответа.

Но кто может с уверенностью сказать, что отфильтрованная информация никому не нужна? Нельзя ли попытаться получить ответы на те вопросы, которые мы не задавали? Или, хотя бы на те вопросы, ответов на которые мы не знаем? Другими словами, постановка задачи должна быть такова: "Вот перед нами набор данных. Ответы на какие вопросы он содержит?"

Рассмотрим простой пример. Предположим, что некий молодой специалист ставит эксперимент, целью которого является ответ на вопрос: "Какую максимальную мощность лазерного излучения выдерживает представленный образец?". Молодой специалист проводит серию экспериментов, в ходе которых ему приходится решать целый ряд, на первый взгляд, второстепенных задач, связанных с тем, что у него под рукой нет необходимого лазера и нужной измерительной аппаратуры. В результате его работы появляется отчет, содержащий сведения о том, что такой-то образец, выдерживает такую-то плотность, а также краткое описание экспериментальной установки. Например:

  1. Образец YY выдерживает мощность излучения некоего лазера [идентификатор изделия] в XX ватт на квадратный сантиметр.
  2. Максимальную выдерживаемую мощность можно повысить, если изменить параметры излучения (дальше идет соответствующая таблица или график).
  3. Образцы 1, 2 и 3 показали похожие результаты, а вот образец 4 неожиданно выдержал вдвое большую мощность.
  4. Пункт 1 представляет собой прямой ответ на поставленный вопрос (те самые недостающие 20%). Пункт 2 содержит дополнительные результаты, полученные в ходе эксперимента, и, с точки зрения постановки нашей основной задачи (получения новой информации), он очень важен. Третий же пункт иллюстрирует ту самую "великую случайность", которая, возможно, приведет впоследствии к важному открытию и позволит создать новый материал, более устойчивый к разрушающим воздействиям.

    Мы знаем множество примеров, когда наиболее важные открытия были сделаны случайно, на основе информации, которая являлась побочным продуктом основного исследования и по чистой случайности не была отфильтрована на первых двух стадиях обработки:

    Казалось бы, на этом можно остановиться. Полученные результаты превзошли все ожидания: мы не только ответили на поставленный вопрос, мы получили ряд полезных сведений, открыли новое направление для дальнейших исследований. Но есть еще целый ряд результатов, оставшихся "за кадром". Эти результаты были отфильтрованы: часть на стадии подготовки отчета, а часть еще раньше: на стадии протоколирования экспериментов. Вот эти результаты:

  5. Повысить мощность излучения промышленного лазера, можно увеличив рабочее напряжение.
  6. Если повысить рабочее напряжение более чем в два раза, лазер сгорит.
  7. Образец 4, возможно, выдержал бы и большую мощность, но лазер сгорел.
  8. Новый лазер стоит дорого, но нам за него не попало, поскольку мы получили ценные результаты.
  9. Образцы можно закреплять на подвижке пластилином.
  10. Если все как следует не заземлить, могут возникнуть неприятности.
  11. Некоторые научные сотрудники выдерживают кратковременный электрический разряд напряжением до 25 киловольт.

Нетрудно предположить, кому могли бы быть полезны эти сведения. Пунктами 4 и 5, несомненно, должны заинтересоваться производители лазеров, а также другие научные сотрудники, которые работают с аналогичными лазерами. Пункт 6 следовало бы отразить в отчете, поскольку он весьма важен для производителей образцов. Пункты 7 и 8 опять-таки были бы весьма полезны тем, кто будет повторять эксперименты. Пункт 9 - это область компетенции инженера по технике безопасности. А последний пункт, несомненно, представляет интерес для медиков, которые в виду этических и юридических соображениях не могут ставить подобные эксперименты на добровольцах.

Величайшим мастером утилизации побочной информации, получаемой из опыта, был П. Л. Капица. Рассказывают, что когда в одном из своих писем Резерфорду Капица сообщил о неудаче с опытом по получению рекордного магнитного поля, в конце письма он сделал приписку: "За то теперь мы знаем, как выглядит электрическая дуга в 100 килоампер!". У Резерфорда, кстати, тоже ничего не пропадало даром. Наверное, наибольших успехов в деле использования всей получаемой информации добились Фарадей и Эдисон. Они документировали свои опыты тщательнейшим образом, стараясь не упустить ни одной мелочи, которая впоследствии могла бы оказаться полезной.

Однако таких ученых как Капица и Фарадей можно сосчитать по пальцам. В большинстве же случаев побочная информация теряется, в лучшем случае, оседает в архивах институтах в виде протоколов опытов.

До сих пор наше поведение в отношении получаемой нами информации было слишком расточительным. Мы выбрасывали в мусорную корзину все, что могло бы пригодиться другим, причем, иногда для других выброшенные нам сведения - ответ на основной вопрос эксперимента.

Но если мы уже сейчас тонем в информационном потопе, что же будет, когда мы перестанем фильтровать и отсеивать входящую сырую информацию? И тут мы приближаемся к постановке основной задачи, которая, возможно будет стоять перед будущими исследователями - задачи автоматизации обработки входящего информационного потока.

Быть может, именно сейчас мы достигли того рубежа, после которого количество накопленной информации должно перейти в качество, когда станет возможным создавать новую информацию не на основе натурных экспериментов (естественно, они никуда не денутся, как же без них), а на основе уже имеющейся информации. Информация будет порождать информацию.

В течение последних десяти лет ситуация радикальным образом изменилась. Все большее количество данных сохраняется на электронных носителях, что существенно упрощает доступ к ним и их дальнейшую обработку. Мы можем свободно работать с данными, полученными на ускорителе CERN или на космическом телескопе им. Хаббла. Те данные, которые не были востребованы постановщиками того или иного эксперимента, поскольку не несли прямых ответов на поставленные вопросы, вполне могут быть использованы другими исследователями. Основной трудностью, не преодоленной и сегодня, остается поиск и анализ нужных данных, особенно, если учесть, что исследователь, как правило, не знает не только где искать, но, порой, даже, что искать.

Поэтому ближайшей задачей, которая, возможно станет основной задачей XXI века, я вижу создание системы, способной самостоятельно раскапывать новую информацию в том море накопленных за историю человечества данных.

Рассмотрим на конкретных примерах, как это может выглядеть.

Медицина

[текст примера (еще не написан)]

Физика

[текст примера (еще не написан)]

Экономика

[текст примера (еще не написан)]

Раскопки данных (Data Mining)

К сожалению, на настоящий момент, выбор средств для решения указанных задач невелик. Все существующие технологии можно условно разделить на три класса: нейронные сети, байесовская логика и if-then алгоритмы. Неплохую подборку материалов и ссылок можно найти на сайте PC Noon, который ведет Станислав Короткий.
Hosted by uCoz