Целое – это единство формы и содержания. Во всяком случае, если мы говорим о реальности.
Разрыв формы и содержания – самый характерный признак мирового развития computer science, который заметен уже начиная с аналитической машины Чарльза Беббиджа, универсального вычислителя Тьюринга, принципов и архитектуры фон Неймана и других и заканчивая решениями нынешнего времени.
Все известные универсальные вычислители сегодня являются именно вычислителями. Они работают с формой – числами. Процесс выполнения операций над числами никак не связан с содержанием, с семантикой. Именно с отрывом формы от содержания (на мой взгляд, конечно: здесь и всюду далее наиболее жесткие аттестации – это мое оценочное мнение) связаны все основные проблемы в развитии информационных технологий, базовые принципы которых уже нельзя считать чем-то иным, а не фатальным заблуждением. Мысль не продвинулась дальше больших калькуляторов с хорошими экранами.
Действительно, любая ЭВМ легко вычислит 5 + 6 и даст, на первый взгляд, верный ответ: 11. Но чего – 11? Если 5 – это яиц, а 6 – помидоров, то результат – это одна яичница из пяти яиц и шести помидоров, а никак не 11. Да и «одна яичница» – верный ответ лишь в том случае, если 5 яиц и 6 помидоров положили на горячую сковороду. А если в холодильник, то 5 + 6 наутро будет снова 5 + 6.
Числа – это только форма. Содержание утеряно, за числами не стоит семантика. Вычисления приходится интерпретировать, а негодяям повлиять на эту интерпретацию очень несложно. Именно ошибочные интерпретации и приводят зачастую к удачным хакерским атакам, подменам смысла и прочим неприятностям.
Ярким примером дихотомии «форма-содержание» является электронная подпись (ЭП). Все о ней слышали, некоторые отчаянные даже попробовали использовать. Что же дает нам электронная подпись? Является средством защиты? Нет. Не может она ничего защитить. Ничто не помешает злоумышленнику исказить подписанный текст. Другое дело, что с использованием ЭП при соблюдении ряда важных условий можно установить, что искажение где-то было. И все.
ЭП – элемент формы. Техническая функция – контроль неизменности подписанного материала – в смысле неизменности формы. Социальная функция – фиксация волеизъявления. То есть содержания, семантики.
Такой дуализм понятен: он связан с неразрывностью формы и содержания. С понятиями юридической значимости и юридической силы.
Но даже профессионалы, много лет проработавшие в отрасли, не всегда различают эти понятия.
Возьмем документ на неизвестном нам языке – например, на итальянском (неизвестном для меня, как ни стыдно в этом признаться). Он выполнен на бланке. У него есть реквизиты, стоит печать, подпись, дата. Соблюдена форма. И, не понимая содержания, с уверенностью можно утверждать, что документ обладает юридической значимостью. Юридическая значимость связана в первую очередь с формой. Юридическая сила, напротив, определяется содержанием. Мы выполняем законы, хотя нам доступен лишь их текст – опубликованный в газете или интернете. Редко и не всем удается увидеть закон, подписанный собственноручно президентом. Но юридической силы от этого закон не лишается.
Это, конечно, предельные случаи. Безусловно, в реальности мы хотим видеть единство формы и содержания.
Все время своего существования вычислительная техника развивалась по нескольким направлениям, а именно:
• ускорение вычислений;
• уменьшение размеров;
• повышение универсальности.
Человечество всего этого добилось. Мощность современного смартфона выше совокупной мощности всех ЭВМ в мире в 60-х годах прошлого столетия. А ведь тогда уже были мэйнфреймы IBM. Универсальность выросла настолько, что бухгалтер и дизайнер используют одинаковые компьютеры с одинаковыми офисными пакетами, а программистами в быту стали называть людей, способных освоить хотя бы одну сложную программу, например, фотошоп.
Любой компьютер – это реализация (более или менее близкая) идеи «машины Тьюринга». Понятия «машина Тьюринга» и «алгоритм», «вычислимость» неразрывно связаны, определяются одно через другое. Само существование абстрактного «исполнителя», такого как машина Тьюринга, вселяет уверенность во всемогуществе человека. Действительно, любая (точнее, рекурсивная, что и есть практически любая) задача может быть решена, если достаточно ресурсов (памяти и времени). Возможно, завораживающая простота формулировок и спровоцировала разработку универсальных вычислительных машин (УМ; средств вычислительной техники, СВТ; персональных ЭВМ, ПЭВМ), которые частично (с конечной памятью) моделируют машину Тьюринга, давая нам «псевдонеограниченные» возможности и толкая на экстенсивный путь развития. Не хватает памяти? Не проблема – добавим. Не хватает времени? Увеличим тактовую частоту, количество ядер, виртуализируем ресурсы, наконец.
Эта позиция многие годы «паровозом» тащила за собой развитие информационных технологий. Емкость обычных локальных дисков, например, за два десятилетия выросла от десятков килобайт до сотен гигабайт, и сейчас уже измеряется терабайтами, а памяти так и не хватает. Тактовые частоты от килогерц достигли гигагерц, а производительности не хватает. Зато индустрия ИТ стала едва ли не определяющей современный уровень экономического развития. Гигантские суммы инвестиций – плата за технический прогресс и универсальность решений.
Универсальность (в смысле «вычислимости», без учета семантики) опасна и снижением защищенности. Действительно, если УМ выполняет любые программы, то, очевидно, она выполнит и вредоносную программу. Несмотря (!) на любой набор антивирусных программ. Действуя в рамках пусть универсальной, но одной формальной модели, мы неизбежно натолкнемся на ее неполноту – в полном соответствии с теоремой Геделя о неполноте.
В результате работы с функциями был сформулирован тезис Черча – Тьюринга, утверждавший, что любая функция, которая может быть вычислена физическим устройством, может быть вычислена машиной Тьюринга. Вычислена. И только. А не осмыслена. А надо бы осмыслить.
Говоря о вычислимости, классики «забыли» о семантике. Они думали именно о вычислимости, и здесь в их рассуждениях ошибок нет. Но если нас интересует не только «вычислимость», но и содержание процессов, данные о которых обрабатываются компьютерами, то оказывается, что расширенные трактовки становятся опасными. Не понимая сути, легко получить «два землекопа и две трети». Забыв о семантике, мы добились «сна разума».
Вот, например, принципы организации вычислительного процесса фон Неймана:
П1. Применение в ЭВМ двоичной системы счисления.
П2. Управление функционированием ЭВМ посредством последовательности команд (программ).
П3. Использование памяти компьютера для хранения и данных и программ. При этом данные и программы хранятся в единой памяти в одинаковом виде, и над командами можно выполнять те же действия, что и над данными.
П4. Последовательная нумерация (адресация) всех ячеек памяти ЭВМ и возможность произвольного доступа к любой ячейке памяти по ее адресу.
П5. Обеспечение условного перехода к любому участку кода в процессе выполнения программы, несмотря на то, что команды выполняются последовательно.
Где же здесь семантика?
Интерпретация (то есть привязка содержания к форме) полученных компьютерами чисел сегодня осуществляется программами. Или, как в случае технической задачи, которую решал непосредственно Тьюринг, – внешним экспертом. Задача «не потерять физический смысл» – основная задача программиста, создающего приложение. Но всегда существует предел сложности, выше которого проконтролировать семантику преобразований не в силах человека. В результате – складываем лампочки и апельсины, получаем лампольсины. Целое распадается на несвязанные числа, глядя на которые нельзя понять, где же форма, а где содержание.
Наука давно обратила внимание на эти проблемы. Конечно, в первую очередь это М. Мински, отец современных подходов к искусственному интеллекту, придумавший «фреймы для представления знаний» как нечто, объединяющее процедуры и данные для них, и Л. Заде, посвятивший свои усилия созданию нечетких множеств, где количественная оценка (функция принадлежности) объединяется с семантикой (континуум) в единую конструкцию – синглетон. К сожалению, эти работы пока не интегрированы в практику проектирования информационных систем, вычисления и их интерпретация остаются разорванными.
Я оцениваю монографию, научным редактором которой мне предложили выступить, как одну из первых попыток объединить форму и содержание в практическом аспекте, в реальных информационных системах.
Любая проблема может быть решена различными методами. Авторы предложили «сервисный» подход: семантическая интероперабельность как совокупность сервисов, сохраняющих семантику операций. Есть и другой подход: создать компьютер, позволяющий работать «с целым». Как с фреймами, или как с нечеткими множествами, или, вполне вероятно, как с нечеткими фреймами. Давно хочу этим заняться, – может, и получится. Может быть, прочитав эту книгу, и еще кто-то захочет подумать над семантическим компьютингом, – в свою очередь, буду рад объединить усилия.
Пока таких компьютеров нет, а обеспечивать семантическую интероперабельность нужно, – работают программные, сервисные подходы. И представленная монография – первое систематическое изложение известных и новых подходов к реинжинирингу и проектированию информационных систем электронного правительства.
Для того чтобы было возможно не потерять семантику, она по меньшей мере должна быть, – хоть в какой-нибудь форме. Если «электронный документ» – это скан бумажного, то понятно, что для выделения семантики из совокупности точек разной интенсивности нужен, как минимум, эксперт. Подход к организации процессов обработки информации, основанный на использовании сканов бумажных документов в качестве «электронных документов», авторы охарактеризовали как «документоцентричность». А альтернативный подход, ориентированный на содержание, – датацентричность. Для меня это оказалось несколько неожиданным: электронный документооборот является одной из сфер моих научных интересов, и даже стал (давным-давно) основой докторской диссертации. Мне казалось, что скан можно назвать «электронным документом» только в силу глубокой невежественности. Но так стали делать повсеместно! Авторы указали на это искажение смысла, берущее начало в практике, сильно отстающей от науки, и обоснованно ввели в отечественный научный оборот новый для нас термин – датацентричность, позволяющий отделить правильные подходы от порочной практики.
Работа над книгой началась давно, и более 3 лет я трудился над ней в качестве научного редактора. Такой немалый срок связан с тем, что в этой новой отрасли знаний еще нет единого дискурса, и я мучил авторов требованиями разные вещи называть разными словами, а одинаковые – одинаковыми. Огромное количество несравнимых одних с другими подходов. Разные цели. Различные модели. Бабушкин сундук, хранящий исторически важные, но невзаимодействующие подходы.
Уж не знаю, как авторы выдержали поток придирок научного редактора, но монография сегодня приведена в приемлемую форму. Именно приемлемую – как основу для следующего шага. Мне лично кажется, что книге еще не хватает легкости, популярности, живости, – но не все сразу. Я тоже шел на компромиссы.
Также мне кажется, что госуправление – не главное в цифровой трансформации. Но то, что такая сложная область выбрана авторами как платформа для изучения семантики, позволяет надеяться, что все основные сложные моменты все же в основном рассмотрены и учтены.
Обычно после завершения такого серьезного труда остановиться уже нет возможности: научное любопытство заставляет погружаться в проблему все глубже и глубже. Этого я и хочу пожелать авторам.
Научный редактор,
д. т. н., зав. каф. МФТИ В. А. Конявский