/ Language: Русский / Genre:comp_programming,computers,

Фреймы для представления знаний

Марвин Минский

В книге описывается новый подход к решению проблемы представления знаний в системах искусственного интеллекта. В основе его лежит система фреймов — особых структур данных для понятийного представления стереотипных ситуаций в рамках общего контекста знаний о мире. С этих позиций дается описание механизмов человеческого мышления, распознавания образов, восприятия зрительной и слуховой информации, а также проблемы лингвистики, обучения и методы решения задач. Автор книги — известный американский ученый, специалист по искусственному интеллекту. Книга предназначена для широкого круга научных и инженерно-технических работников, интересующихся созданием искусственного интеллекта. Она может служить хорошим пособием для студентов, специализирующихся в этой области.

Марвин Минский

Фреймы для представления знаний

Предисловие к русскому изданию

Развитие информационно-поисковых систем высокого уровня, диалоговых систем, базирующихся на естественном языке, интерактивных человеко-машинных систем, предназначенных для совместного решения задач управления, проектирования, научных исследований и т.п., то есть развитие так называемых интеллектуальных систем, а также роботов выдвинуло на первый план задачу представления знаний в подобных системах. Необходимо подчеркнуть, что проблема представления знаний является принципиально новой, не встречавшейся ранее при создании различных автоматических и автоматизированных систем переработки информации и управления. В относительно небольшом объеме памяти интеллектуальные системы должны хранить большое число данных о мире задач, решаемых системой в процессе ее функционирования. Решение этой проблемы возможно лишь при специальной организации баз данных, одним из видов которой является фреймовая организация.

М.Минский, книгу которого предваряет это предисловие, является создателем теории фреймов. Он рассматривает два вида фреймов, которые сейчас принято называть статическими (или просто фреймами) и динамическими (сценариями). Фрейм любого вида — это та минимально необходимая структурированная информация, которая однозначно определяет данный класс объектов. Наличие фрейма позволяет относить объект к тому классу, который им определяется. Простейшими примерами фреймов могут служить характеристические функции множеств в обычной математике. Однако в интеллектуальных системах в подавляющем большинстве случаев приходится иметь дело не с числовой, а с символьной информацией (например, текстами на естественном языке или зрительными изображениями). Для информации подобной природы определение фреймов представляет собой нелегкую проблему. В книге М.Минского описаны некоторые подходы, использование которых многообещающе.

Предлагаемая читателям книга является переводом первой публикации теории фреймов в 1974 г. Книга построена следующим образом.

В главе 1 излагается суть теории фреймов и рассматриваются вопросы, связанные с восприятием человеком зрительных образов. Подробно анализируются вопросы распознавания образов на базе системы фреймов. Обсуждаются трудности, возникающие при изменении места положения субъекта относительно рассматриваемых предметов.

Глава 2 посвящена проблеме понимания смысла в предложениях естественного языка, организации предназначенных для этих целей систем фреймов и сопоставлению ряда точек зрения относительно способов построения программ, понимающих естественный язык.

В главе 3 обсуждаются вопросы обучения и его роль в восприятии новой информации; структура памяти и поиск фреймов, наиболее подходящих для представления некоторой ситуации; методы представления в теории решения задач.

Глава 4 посвящена проблеме организации системы поиска информации и управления подбором значений для терминальных вершин, обсуждению процесса выдвижения гипотез и оценке их правдоподобия, а также вопросам иерархии в системах фреймов.

В главе 5 затрагивается ряд спорных вопросов, связанных с наличием у человека общей картины мира и необходимостью иметь нечто подобное в системах искусственного интеллекта. Автор предлагает использовать в этих целях глобальный пространственный фрейм (GSF), хотя и отмечает ограниченность данной модели.

В приложении дается критика подхода к решению проблемы представления и объяснению механизмов мышления на основе логики предикатов. Указывается, что без привлечения тщательно разработанного семантического (понятийного) аппарата формальная логика не способна стать средством для решения данных задач.

В книгу введено приложение к русскому изданию, написанное Ф.М.Кулаковым, в котором теория М.Минского иллюстрируется примерами практического приложения теории фреймов, взятыми из работ Р.Шенка (1975), Р.Абельсона (1973), Ч.Ригера (1975) и др.

Издавая эту работу в переводе на русский язык, мы надеемся, что специалисты, работающие в области разнообразных человеко-машинных систем в управлении, проектировании и научном эксперименте, получат возможность ознакомиться с идеями фреймовой организации информации, и это знакомство окажется полезным для их практической работы.

Председатель научного Совета

по проблеме «Искусственный интеллект»

Комитета по системному анализу при

Президиуме АН СССР

чл.кор. АН СССР Г.С.Поспелов

Глава первая

Фреймы

Мне представляется, что теоретические исследования, проводимые в области искусственного интеллекта (ИИ) и психологии в целом были недостаточно общими для того, чтобы объяснить либо с практической точки зрения, либо феноменологически эффективность человеческого мышления. Основные структурные элементы, образующие фундамент для развертывания процессов восприятия, хранения информации, мышления и разработки языковых форм общения, должны быть более крупными и иметь более четкую структуру; их фактическое и процедуральное содержание следует более тесно увязывать друг с другом с тем, чтобы получить возможность объяснить феномен силы и «быстродействия» человеческого мышления.

Аналогичной точки зрения придерживаются специалисты научных центров, работающие над решением проблем искусственного интеллекта. Хорошо известно, например, предложение А.Ньюэлла и Г.Саймона(1972) решать проблему представления в терминах «пространств задач» или предложение С. Пейперта и автора этих строк (М.Минский, С.Пейперт, 1972) разбить всю совокупность сведений, необходимых системе ИИ, на «микромиры». Иную форму те же взгляды принимают в работах известных теоретиков, таких как Р.Шенк(1973), Р.Абельсон(1973) и Д.Норман(1973), которые используют более крупные структуры для изучения механизмов понимания естественного языка. В этом проявляется стремление ученых выйти за рамки исследований чисто бихейвористического и формально-логического направлений и отказаться от попыток решать проблему представления с помощью наборов разрозненных простых структур данных. (Бихейворизм (от англ. behavior — поведение) — одно из направлений в психологии, в основе которого лежит утверждение о том, что предметом психологии является поведение, а не сознание. Основной задачей психологов, по мнению основоположника бихейворизма Дж.Уотсона(1914), является установление объективно наблюдаемых отношений в соответствии с известной схемой «стимул — реакция» и сведение к ним всех понятий о внутренних, психических процессах. (см. М.Г.Ярошевский,1976).)

В настоящей работе делается попытка связать воедино результаты некоторых из вышеупомянутых исследований и создать единую и стройную теорию. Отмечаются ее недостатки, поскольку здесь ставится больше вопросов, чем дается на них ответов.

Отправным моментом для данной теории служит тот факт, что человек, пытаясь познать новую для себя ситуацию или по-новому взглянуть на уже привычные вещи, выбирает из своей памяти некоторую структуру данных (образ), называемую нами фреймом, с таким расчетом, чтобы путем изменения в ней отдельных деталей сделать ее пригодной для понимания более широкого класса явлений или процессов.

Фрейм является структурой данных для представления стереотипной ситуации. С каждым фреймом ассоциирована информация разных видов. Одна ее часть указывает, каким образом следует использовать данный фрейм, другая — что предположительно может повлечь за собой его выполнение, третья — что следует предпринять, если эти ожидания не подтвердятся.

Фрейм можно представлять себе в виде сети, состоящей из узлов и связей между ними. «Верхние уровни» фрейма четко определены, поскольку образованы такими понятиями, которые всегда справедливы по отношению к предполагаемой ситуации. На более низких уровнях имеется много особых вершин-терминалов или «ячеек», которые должны быть заполнены характерными примерами или данными.

Каждым терминалом могут устанавливаться условия, которым должны удовлетворять его задания. Простые условия определяются маркерами, например, в виде требования, чтобы заданием терминала был какой-либо субъект, или предмет подходящих размеров, или указатель на субфрейм определенного типа. (Субфреймы, фреймы и суперфреймы — это иерархически упорядоченные элементы, образующие системы фреймов). Более сложными условиями задаются отношения между понятиями, включенными в различные терминальные вершины.

Группы семантически близких друг к другу фреймов объединены в систему фреймов. Результаты существенных действий представляются в виде трансформаций между фреймами системы. Это дает возможность моделировать такие понятия, как внимание и ценность информации, сделать более экономичными некоторые типы вычислений, а также показать эффективность использования фреймов в системах ИИ.

При зрительном восприятии образов системы фреймов используются следующим образом: различные фреймы соответствуют различным позициям наблюдателя, анализирующего одну и ту же сцену, а трансформации между ними отражают результаты перемещения наблюдателя из одного места в другое. Для систем других типов различия между фреймами могут соответствовать результатам выполнения каких-либо действий, определенным причинно-следственным связям между объектами внешнего мира или разным точкам зрения по одним и тем же вопросам. Одни и те же терминалы могут входить в состав нескольких фреймов системы — это один из центральных моментов теории, позволяющий согласовывать информацию, поступающую из различных источников.

Теория фреймов во многом выигрывает благодаря возможности использования в ней ожиданий и других видов предположений. Терминалы фрейма в обычном своем состоянии заполнены так называемыми «заданиями отсутствия» или заранее заготовленными значениями, т. е. сведениями о деталях (частностях), которые не обязательно должны присутствовать в какой-либо конкретной ситуации. Связь заданий отсутствия со своими терминалами не является жесткой и неизменной, поэтому они легко могут быть заменены другими сведениями, более подходящими к текущей ситуации. Задания отсутствия могут, таким образом, выполнять роль переменных, служить для аргументации с помощью примеров (что часто делает излишним применение логических кванторов), представлять информацию общего вида и описывать наиболее вероятные случаи, указывать на способы проведения полезных обобщений и т. д.

Системы фреймов связаны, в свою очередь, сетью поиска информации. Если предложенный фрейм нельзя приспособить к реальной ситуации, т. е. если не удается найти такие задания терминалов, которые удовлетворяют условиям соответствующих маркеров, сеть поиска информации позволяет выбрать более подходящий для данной ситуации фрейм. Подобные структуры дают возможность использовать в системах фреймов различные методы представления информации, что имеет особое значение для разработки механизмов понимания.

После выбора фрейма в процессе согласования терминалам присваиваются такие значения, которые удовлетворяют всем условиям соответствующих маркеров. Ход процесса согласования частично контролируется информацией, связанной с самим фреймом (включая указания на то, как реагировать на непредвиденные обстоятельства), и в значительной степени опытом решения аналогичных или близких по смыслу задач. Если согласование внешних данных с маркерами терминалов неудовлетворительное, то сведения, полученные на его основе, могут быть с успехом применены при выборе альтернативного фрейма.

Отметим, что схемы, предложенные в настоящей работе, несовершенны во многих отношениях. Во-первых, некоторые варианты представления информации обсуждаются безотносительно к тем процессам, в которых они должны использоваться. Иногда приводятся только лишь описания свойств, которыми следует снабдить те или иные структуры. Маркеры и задания терминалов рассматриваются так, будто известны их соединения и связи с более крупными структурными единицами, чего на самом деле пока нет.

Помимо этих технических недочетов читатель не найдет в настоящей работе углубленного анализа проблемы «понимания» и возможностей ее изучения на основе разрабатываемой теории. Автор не претендует на то, что предлагаемые им идеи достаточны для создания совершенной теории, но считает, что структуры, связывающие в единое целое системы фреймов, могут оказаться полезными при объяснении ряда явлений, характерных для естественного интеллекта.

1.1. Локальная и общая теории зрительного восприятия

«...существует большая разница между теми, кто рассматривает все с точки зрения единого центрального зрительного восприятия, являющегося более или менее связанной или четко выраженной системой, на основе которой люди понимают, мыслят и чувствуют, т. е. теми, кто руководствуется единым, универсальным и организующим принципом, и теми, кто ориентируется на многие аспекты явлений, часто не имеющие отношения друг к другу и даже противоречивые и, если связанные, то лишь некоторыми узлами де-факто психологического или физиологического характера, но не обусловленные какими-либо этическими или эстетическими принципами...».

И. Берлин (1953)

Когда мы входим в комнату, нам кажется, что мы видим всю возникающую перед глазами картину с одного взгляда. В действительности же зрительное восприятие — это длительный процесс. На все требуется время: и на то, чтобы рассмотреть детали и собрать о них нужную информацию, и на то, чтобы, сделав предположения, проверить их и прийти к определенным заключениям, и на то, чтобы оценить полученные данные с учетом преследуемых целей, собственных знаний и ожиданий. Тем не менее, все это происходит настолько быстро и естественно, что невольно вызывает удивление и требует объяснений.

Некоторые специалисты считают неудовлетворительными те теории, в которых делается попытка трактовать феномен зрительного восприятия с позиции дискретных, последовательных, символьных процессов. Им кажется, что хотя машинные программы, написанные на основе этих теорий, действительно могут демонстрировать эффект «видения», для живых существ они неприемлемы ввиду грубости восприятия и малого быстродействия. Однако обычно предлагаемая альтернатива, относящаяся к крайнему случаю холизма или идеалистической «философии целостности» (см. В.Г.Афанасьев, 1964), не может быть технически реализована. Ниже я приведу доводы в пользу того, что следующие один за другим символьные процессы могут объяснить суть явлений, которые нам кажутся мгновенными и завершенными и которые имеют место при анализе сцен.

Часть теоретиков, придерживающихся ранних гештальт-психологических концепций (подробнее см. М.Г.Ярошевский, 1976), стремилась объяснить феномен зрительного восприятия с помощью имеющегося в человеческом мозге электрического поля, но уже в 30-х годах нашего столетия стала ясна несостоятельность подобных воззрений. Их современные последователи, включая приверженцев идеи интегральных преобразований, использования голограмм и интерферентных явлений, достигнуть многого также не сумели. И все же, несмотря на эти неудачи, большинство специалистов по-прежнему полагает, будто требуемая скорость восприятия может быть обеспечена только посредством некоторого глобального параллельного процесса, подобного волновому.

Излагаемая в настоящей работе теория фреймов рассматривает все основные вопросы, поднятые гештальт-психологами. Общим для обоих подходов является стремление раскрыть суть процессов, лежащих в основе соотнесения сенсорных данных либо с общими понятиями, либо с их частями, но методы, предложенные для обоснования выдвинутых положений, в корне отличны друг от друга. Гештальт-психологи стремились доказать, что эти процессы основаны главным образом на взаимодействии небольшого числа универсальных и весьма эффективных процедур, но неудачи с их эффективным выделением показали ограниченность этой идеи. В теории фреймов упор делается на многочисленность взаимодействий между сенсорными данными и образованной в процессе обучения громадной сетью символьной информации. И хотя эти взаимодействия должны, в конечном счете, основываться на том или ином наборе общих принципов, в нашей теории изучение мыслительных процессов отделено от вопросов происхождения и развития систем ИИ.

1.2. Параллелизм

Может ли оказаться полезной параллельная обработка информации? Вопрос этот следует считать чисто техническим в большей степени, чем может показаться на первый взгляд. Действительно, на уровне выявления простейших визуальных черт, текстурных элементов, характерных особенностей при стереоскопическом зрении или двигательном параллаксе использование параллельной обработки информации следует считать целесообразным. На следующем, «предметном» уровне труднее представить себе, каким образом можно использовать параллелизм, хотя в этой связи следует отметить работы А.Гузмана(1969) по выделению «ядер» и объединению их в связанные области или Д.Вальтца(1972) по использованию семантических корней для отсортировки теневых линий, выполняемой на специальной параллельной сети.

Однако на более высоких уровнях мыслительной деятельности целесообразность применения параллелизма встречает ряд принципиальных возражений. В работах по распознаванию образов было предложено довольно много схем для выполнения параллельных операций — персептроны, интегральные преобразования и т.д. Эти схемы, интересные и с математической, и с вычислительной точек зрения, видимо, могли бы служить в качестве составных частей теории обработки сенсорной информации, но не более того. Интегральные методы хороши, главным образом, для работы с изолированными двухмерными изображениями, но на их основе нельзя решить задачу выделения и распознавания объектов в сложных трехмерных сценах. Почему?

При анализе сложных сцен должны быть правильно выделены области, принадлежащие различным объектам, ибо только в этом случае воспринимаемая картина обретает смысл; однако для решения этой задачи, которая эквивалентна традиционной в гештальт-психологии проблеме «объект — фон», требуется так много усилий, что, как отмечалось в работе М.Минского и С.Пейперта(1969), сама возможность и даже целесообразность разработки методики изолированного распознавания ставится под сомнение. Для трехмерных изображений эта проблема еще более осложняется как искажением перспективы, так и тем обстоятельством, что отдельные части предметов оказываются невидимыми из-за других объектов.

В новых знаковых теориях используются методы выработки гипотез с последующим их подтверждением; эти методы кажутся нам более продуктивными. Трудно решить любую по-настоящему сложную проблему, не уделив самого пристального внимания ее отдельным составным частям. К счастью, однако, можно представить себе более эффективный (по сравнению с просто идеей параллелизма) последовательный процесс, при котором крупные, сложные знаковые структуры рассматриваются в качестве простейших операндов. Это открывает теоретически новую возможность для быстрого поиска крупных субструктур и, по-видимому, позволит найти секрет быстродействия механизмов человеческого мышления и восприятия зрительной информации.

1.3. Искусственный интеллект и процессы решения задач человеком

В настоящей работе не проводится границы между теорией человеческого мышления и теорией построения «думающих» машин: разделять их в данный момент не имеет смысла, поскольку как в той, так и в другой области знаний отсутствуют концепции, достаточно общие для объяснения и тем более для моделирования сложной интеллектуальной деятельности. Однако одно отличие все же имеется. Дело в том, что у специалистов-психологов, работающих над проблемами интеллекта, наблюдается определенная тенденция к сокращению числа различных механизмов, включаемых в модели функционирования человеческого мозга. Это ведет к попыткам достигнуть большего эффекта с помощью меньшего, чем может быть обосновано, числа основных механизмов мышления. Такие теории уделяют недостаточно внимания как вопросам управления психической деятельностью, так и уточнению наших знаний об отдельных интеллектуальных процессах. Ученые, работающие в области ИИ, видимо, сосредоточили все свои усилия именно на этих вопросах, но ни те, ни другие, однако, не придавали должного значения изучению самой структуры знаний, особенно знаний процедурального типа.

Можно понять, почему психологи чувствуют себя не очень уверенно, оперируя сложными схемами, не основанными на тщательно выверенных механизмах мышления. Однако стремление к ограничению их числа еще не соответствует данному этапу развития науки в той мере, в какой это может иметь место в будущем. Анатомия и генетика мозга являются той областью знаний, в которой можно предположить значительно большее число разнообразных механизмов, чем это можно себе представить сегодня. Нам следует сосредоточить свое внимание скорее на проблемах достаточности и эффективности, чем на проблеме необходимости.

Еще несколько лет назад главная цель работ по распознаванию образов сводилась к проблеме достаточности: найти любые пути, ведущие к разработке алгоритмов машинного анализа сцен. Только недавно специалистам удалось обнаружить и реализовать возможности правильного объединения отдельных черт и признаков в законченные структуры образов. Отмечу, прежде всего, работы Л.Робертса(1965), А.Гузмана(1968), П.Уинстона(1970), Д.Хаффмана(1971), М.Клоувза(1971), Дж.Сираи(1972), Д.Вальтца(1972), которые характеризуют собой ряд этапов в разработке вопросов анализа изображений типа «фигура-фон», «целое-часть» и выделения структурных групп.

Хотя эти работы достаточно просты, на их основе можно дать не только поверхностное толкование феномена зрительного восприятия, но и в какой-то степени объяснить быстроту и гладкость его протекания. Теория восприятия образов сталкивается с рядом новых вопросов при переходе от проблемы достаточности к проблеме эффективности. Каким образом различные виды «признаков» могут столь быстро, как это имеет место в человеческой практике, приводить к идентификации и описанию сложных ситуаций? Каковы способы внесения изменений при выявлении ошибок или нахождении новых доказательств? Как разрешаются противоречия? Как может быть изменена информация о местоположении объекта без перевычисления состояний других связанных с ним предметов? Как обстоит дело с движущимися объектами? Каким образом процессы зрительного восприятия используют знания, связанные с общими, невизуальными видами деятельности? Каким образом человек координирует информацию, поступающую из различных источников? Как в системе могут использоваться ожидания относительно результатов предполагаемых действий? Может ли теория объяснить феноменологические результаты зрительного восприятия образов, а также управляемое самим ходом восприятия построение и манипулирование воображаемыми сценами?

В рамках традиционных подходов бихейвористской и перцептуальной психологии было сделано очень мало, чтобы найти ответы на эти вопросы; однако взгляды некоторых работавших ранее психологов (см.Ф.Бартлетт,1932), несомненно, нашли свое отражение в настоящей работе. В более поздних работах по теории символьной обработки информации, в публикациях, подобных статьям А.Ньюэлла(1973) и Л.Пилишина(1973), содержатся более конструктивные предложения по формулированию этих спорных вопросов.

1.4. Отслеживание образа куба

«...при обычном способе осмотра любого непрозрачного предмета видимая часть его поверхности обычно занимает все наше внимание, а о противоположной, даже точно такой же его части человек обычно в это время не думает; однако малейшая попытка определить вид другой стороны предмета для построения общей картины уточняет наше первое представление о нем...»

У. Хогарт (1955)

Я начинал изложение с разработки упрощенной системы фреймов для представления перспективных видов куба. Далее она будет модифицирована для представления внутреннего вида комнат и для приобретения, использования и обновления информации, необходимой человеку при перемещениях внутри дома.

В соответствии с использованным в работе А.Гузмана(1968) символическим представлением тел правильной формы с помощью «областей» и «связей» между ними можно допустить, что результатом восприятия внешнего вида куба является структура, подобная той, что показана на рис.1.1. Подструктуры А и В представляют детали и обозначения двух граней куба. При перемещении вправо грань А исчезает из поля зрения, тогда как видимой становится новая грань С. Если теперь, находясь по отношению к кубу в ином месте, попытаться заново провести весь анализ сцены, то придется забыть о том, что было известно об А; затем заново найти информацию о В и описать грань С.

Но поскольку мы переместились вправо, то можем сохранить информацию о В, связав ее с терминалом «левой грани» второго фрейма куба. Чтобы сохранить (на всякий случай!) сведения об А, мы связываем его с дополнительным терминалом невидимой грани в новой схеме куба, показанной на рис.1.2.

Если же потом переместиться обратно влево, то можно восстановить первоначальную картину без перцептивных вычислений, для этого потребуется только лишь восстановить связи верхнего уровня с первым фреймом куба. Теперь нам необходима информация о грани С. Для этого понадобится добавить еще одну невидимую грань справа в первом фрейме куба (рис.1.3).

Можно продолжить эту процедуру, чтобы подобным образом представить результаты осмотра предмета с других сторон. Это приведет к более полной системе фреймов, в которой каждый фрейм представляет собой различные «перспективные виды» куба. На рис.1.4. показаны три фрейма, соответствующие перемещению влево и вправо на угол в 45 градусов. Если продолжить этот анализ, то результирующая система может стать очень большой. Для более сложных объектов требуется большее число различных проекций. Не ясно, все ли они необходимы в обычных условиях или же требуется только одна проекция для каждой их разновидности. Это зависит от обстоятельств.

Подобный тип сложной структуры, конечно же, не создается заново каждый раз, когда человек осматривает какой-либо предмет. Видимо, в долговременной памяти хранится большой набор систем фреймов, и одна из них активируется, когда данные и ожидания дают возможность предполагать, что она соответствует видимой картине. Как же это происходит? Если выбранный фрейм подходит не в той мере, как хотелось бы, и не удается быстро найти более подходящий, а вопрос достаточно важен, то происходит приспособление наилучшего из обнаруженных фреймов к реальной картине и он запоминается для последующих применений.

Строятся ли такие системы фреймов для каждого знакомого нам объекта? Это выглядело бы слишком экстравагантно. Представляется более вероятным, что у человека имеются специальные системы для представления наиболее важных объектов, а, кроме того, множество фреймов для обычно используемых «основных форм»; их сочетания образуют фреймы для новых применений.

Различные фреймы системы похожи на многочисленные «модели» объектов, описанные А.Гузманом(1967) и П.Уинстоном(1970). Различные фреймы аналогичны различным видам изображений, а имена межфреймовских указателей соответствуют перемещениям или действиям, изменяющим местоположение наблюдателя. Ниже будет обсуждаться вопрос о том, следует ли рассматривать эти виды в качестве двух- или трехмерных моделей объектов.

В каждый фрейм включены терминалы, служащие для присоединения указателей, идущих к его субструктурам. Одна и та же физическая черта может присутствовать в различных видах изображения объекта, следовательно, соответствующий ей терминал будет совместно использоваться сразу несколькими фреймами. Это позволяет представлять в одном месте информацию, собираемую не только в разное время и в разных местах, но и не зависящую от позиции наблюдателя. Это важно и для невизуальных применений систем фреймов.

Ход процесса согласования, результатом выполнения которого является решение, соответствует ли реальной ситуации выбранный фрейм или нет, зависит как от текущих целей, так и от информации, связанной с этим фреймом. Фреймы содержат в себе маркеры терминалов и другие ограничения, а цели используются для принятия решений о том, какие из этих ограничений существенны в данный момент, а какие нет. Вообще говоря, процесс согласования может содержать следующие компоненты:

1. Проверка на адекватность. Выбранный на основе ожиданий или предварительных данных фрейм должен вначале пройти проверку на правильность сделанного выбора; при этом используются знания о ранее выделенных элементах, их местоположении, об отношениях и наиболее вероятных субфреймах. Перечень текущих целей используется для принятия решения о том, какие терминалы и какие условия следует учитывать при составлении фрейма с действительностью.

2. Конкретизация. Затем фреймом запрашивается информация, необходимая для конкретизации значений тех терминалов, которые более не могут сохранять свои заранее заготовленные значения. Например, может потребоваться описание грани С, если соответствующий терминал в данный момент времени не означен и не отмечен как «невидимый». Задания должны согласовывать с текущими условиями, задаваемыми маркерами соответствующего терминала. Так, грань С может содержать маркеры для таких ограничений или ожиданий как:

правая центральная область изображения;

должно быть означено;

должно быть видимым; если нет, рассмотреть перемещение вправо;

должно быть субфреймом «грань куба»;

использует совместно с гранью В терминал левой вертикальной границы;

при неудаче рассмотреть фрейм «ящик, лежащий на боку»;

тот же цвет фона, что и у грани В.

3. Управление. При получении сведений о трансформации (например, о предстоящем перемещении) выбранный фрейм передает управление соответствующему фрейму той же системы.

При более подробном рассмотрении этой схемы управления видно, что в ней содержатся возможности для использования многих видов знаний. Если попытка задания значений терминалам не удается, то результирующее сообщение об ошибке может быть использовано для выбора альтернативного варианта. Пользуясь этим, ниже рассмотрим вариант организации памяти в виде сети подобия, как это сделано в работе П.Уинстона(1970).

1.5. Носит ли зрительное восприятие символьную форму

Можно ли действительно предполагать, что восприятие человеком трехмерных объектов столь фрагментарно и атомистично, что оно может быть представлено в терминах отношений между элементами двухмерных изображений? Давайте сразу же отделим друг от друга эти два вопроса: являются ли зрительные образы символьными и основаны ли они на двухмерных конструкциях. Первый вопрос имеет особое значение; не вызывает сомнения, что на некотором уровне зрительное восприятие протекает в основном в символьной форме. Разногласия могут быть между теми, кто, с одной стороны, придерживается несколько наивных концепций и считает восприятие либо картиноподобным, либо протекающим на основе оперирования с воображаемыми геометрическим телами, и теми, кто, с другой стороны, основываясь на экспериментальных данных (см. Ж.Пиаже, Б.Инельдер,1956 и др.), доказывает, что многие возможные ограничения, вытекающие из символьных представлений, и в самом деле существуют.

Так, нам известно, что дети в своем творчестве, особенно в графике (впрочем, это относится и к взрослым) пользуются набором весьма ограниченных символьных ингредиентов (см., например, Е.Гомбрих(1959)). Перспективы и заслонения обычно представляются не такими, какие они есть на самом деле, а с помощью определенных условностей. Метрические соотношения сильно искажены; сложные формы изображаются с помощью специальных знаков, которые не пользуются для представления наиболее существенных признаков. Представители «наивной» точки зрения обычно не признают подобных ухищрений и придерживаются мнения, что люди действительно «видят и манипулируют образами, подобными картинам» так, что это нельзя объяснить с помощью дискретных описаний.

Что касается второго вопроса (являются ли образы двух- или трехмерными), то его на уровне символьных описаний не существует, ибо неподходящим становится здесь само понятие измерения. Каждый вид символьного описания объекта одним целям служит хорошо, а другим — плохо. Если заданы отношения «слева-от», «справа-от» и «находится-над» между элементами некоторой структуры и представлены они в виде маркеров, определенных на парах терминалов, то при проведении определенных манипуляций с объектом его описание, выполненное на этой основе, будет достаточным для предсказания местонахождения его отдельных элементов. Задача облегчается тем, что если, например, поворачивать куб, не меняя его ориентации в пространстве (не меняя грани, которой он соприкасается со столом), то определенные свойства этих отношений будут инвариантными к подобным перемещениям. Большинство предметов обычно имеет свои верхние и нижние части. Однако если положить куб на боковую грань, то предсказания, основанные на тех же самых описаниях, сделать будет значительно труднее: люди испытывают большие затруднения при слежении за гранями шестицветного куба (т.е. куба, каждая грань которого окрашена в разный цвет), если заставить их мысленно его поворачивать.

Если для тех же целей использовать более «характерные» отношения, такие как «следующий-за» или «быть-противоположным-к», то аналогичные описания изображений будут менее чувствительными к возможным поворотам объектов. В работах П. Уинстона(1970, 1971, 1972) мы видим, каким образом систематические замены отношений (например, «слева» вместо «сзади» или «справа» вместо «спереди») могут использоваться при имитации вращения предметов.

У. Хогарт осуждал тех художников, которые слишком мало времени уделяли совершенствованию своих представлений об окружавших их предметах. (Уильям Хогарт (1697–1764), выдающийся английский живописец, график и теоретик искусства, в 1753 г. опубликовал свой известный теоретический трактат «Анализ красоты»). Он советовал тем, кто стремится получить правильные представления о расстояниях, отношениях и различиях между некоторыми существенными точками и линиями, принадлежащими, в худшем случае, даже наиболее асимметричным фигурам, постепенно вырабатывать в себе способность извлекать их из своей памяти, ибо это может во многом помочь тому, кто постоянно что-нибудь изобретает или рисует по памяти и способствует точному натурному воспроизведению предметов.

Таким образом, преднамеренная тренировка памяти в вопросах систематизации отношений между точками, лежащими на противоположных поверхностях тел, является, по мнению У. Хогарта, ключом к пониманию инвариантных отношений между видимыми и невидимыми частями изображений; они могут дать человеку информацию, достаточную для того, чтобы вообразить себя внутри какого-то предмета или мысленно очутиться в другой, практически недоступной точке наблюдения. Отсюда можно сделать вывод о том, что У.Хогарт отвергал «наивные» концепции в теории восприятия образов.

Некоторые люди полагают, что пространственные задачи решаются с помощью каким-то образом хранимого в памяти аналога трехмерной структуры. Если, однако, кто-либо и смог бы воссоздать такую модель, то для «интеллектуального глаза» сохранилась бы большая часть из тех традиционных проблем, которые относятся к реальному глазу, и, кроме того, появилась бы новая весьма трудная задача: создание (на основе двухмерных конструкций) образа какого-то гипотетически воображаемого предмета.

Хотя эти аргументы, как может показаться, свидетельствуют о целесообразности употребления двухмерных изображений для агрегирования и распознавания образов, их нельзя считать удовлетворительными для задач планирования и выполнения манипуляционных операций. Более естественным выглядит другой вариант представления информации в той же символьной форме, но на базе основных геометрических форм. Так, телефонная трубка может быть описана с помощью двух усеченных сферических тел, соединенных изогнутым прямоугольным стержнем. В следующем параграфе будет рассмотрен вопрос о совместном использовании двух и более методов, качественно отличных друг от друга, для представления одного и того же объекта.

1.6. Видение комнаты

Познание окружающего мира с помощью органов зрения кажется нам непрерывным. Одной из причин этого является наше постоянное движение. Более глубокое объяснение заключается в том, что обычно наши ожидания «гладко» взаимодействуют с нашим зрительным восприятием. Предположим, что вам пришлось выйти из комнаты, закрыть за собой дверь, затем вернуться, чтобы ее открыть и обнаружить совершенно другую комнату. Вы были бы поражены. Смысл этой перемены был бы едва ли менее поразительным, чем внезапное, на ваших глазах, изменение всего мира.

Наивная теория феноменологической непрерывности утверждает, что скорость зрительного восприятия настолько велика, что наши образы могут изменяться с такой же скоростью, как и видимые нами сцены. Ниже я отдаю предпочтение альтернативной теории: изменения в основанных на фреймах представлениях человека происходят со своей собственной скоростью; система фреймов предпочитает производить небольшие изменения, как только это становится возможным, а иллюзия непрерывности возникает вследствие постоянства заданий терминалов, общих для фреймов различных видов. Таким образом, непрерывность зависит от подтверждения ожиданий, что, в свою очередь, зависит от быстроты доступа к запомненным знаниям об окружающем нас мире.

Перед тем, как войти в комнату, вы уже заранее знаете, что увидите комнату, а не какой-нибудь пейзаж. Обычно можно указать на это по типу двери, так же как и выбрать заранее фрейм, соответствующий виду новой комнаты. Часто люди просто предполагают наличие какой-то конкретной комнаты. В этом случае значения многих заданий терминалов уже определены.

Самый простой вариант фрейма комнаты — это подобие пустой внутренности коробки. Следуя нашей модели куба, можно считать, что структура верхнего уровня фрейма «комната» должна соответствовать схеме, показанной на рис.1.5.

Человек должен конкретизировать задания терминалов теми предметами, которые он видит. Если комната ему хорошо знакома, то некоторые задания уже заполнены данными (означены). В случае, когда отсутствуют какие-либо ожидания, на первом месте должно быть стремление выявить наиболее характерные геометрические признаки. Чтобы заполнить задания терминала «левая стена», можно вначале попытаться найти линии а и d, а затем углы ag и dg. Линию g найти в обычных условиях легко, поскольку она будет пересекаться при любом горизонтальном (на уровне глаз) осмотре помещения, проводимом слева направо. В конечном итоге углы ag, gb и ba должны соответствовать друг другу, так как все они являются частями одной и той же физической вершины.

Поскольку, однако, сам процесс восприятия является направлением, существуют основанные на знании и опыте полезные тактические схемы. Вероятно, границу е найти легче, чем любую другую, ибо, как только мы входим в обычную прямоугольную комнату, можно ожидать, что

граница е является горизонтальной линией;

она расположена ниже уровня глаз;

она разделяет между собой пол и стену.

Если известны предполагаемые размеры комнаты, мы можем определить величину е и наоборот. В сценах открытых пространств линия е является горизонтом и на равнинной местности мы можем ожидать ее появления даже на уровне глаз. Если нам не удастся быстро найти этот горизонт и заполнить им соответствующее задание терминала, то следует рассмотреть отклонения, связанные с этим терминалом: возможно, что комната имеет какую-то необычную форму или, например, в ней находится крупный предмет — препятствие для визуального отыскания линии е.

Попытаемся обнаружить некоторые другие характерные признаки. Найдя линию е, следует заняться поиском ее левого и правого углов, а после этого вертикальных линий, исходящих из них. Как только будут обнаружены эти основные ориентиры, можно представить себе общую форму и размеры комнаты. Это может привести к выбору нового фрейма, который лучше согласуется с найденными формой и размерами объекта наблюдения благодаря маркерам, подтверждающим сделанный выбор и уточняющим структуру объекта с помощью дополнительных деталей.

Конечно, совершенная система зрительного, восприятия должна анализировать сцену не просто как отдельную картину, а в соответствии с некоторыми установками фрейма более общего вида. Чтобы сам процесс восприятия протекал без затруднений, человек должен знать, где во внешнем и постоянно-меняющемся мире находится каждая нужная ему деталь. Это позволяет компенсировать трансформации в системах фреймов от перемещений глаз и головы, от изменений в положении туловища так же, как и от его более значительных перемещений с одного места в другое.

1.7. Анализ сцен и субфреймы

Если новая комната знакома недостаточно хорошо, то ни один заранее сформированный фрейм не может содержать сведения обо всех мелких деталях; в подобных случаях требуется проводить более глубокий анализ сцен. Однако объем работы и здесь может быть во многом уменьшен благодаря наличию таких субфреймов, с помощью которых можно выдвигать гипотезы о структуре и связях реальных объектов. Насколько эти субфреймы-ожидания могут быть полезны, зависит как от их адекватности рассматриваемому предмету, так и от качества процесса согласования, который устанавливает очередность сопоставления субфреймов с действительностью. Они многое могут сказать даже о малознакомой комнате. Большинство комнат подобны коробкам, и их следует классифицировать по типам: кухня, зал, жилая комната, аудитория и т.д. Человек знает десятки разновидностей комнат, и ему известны сотни их конкретных видов; нет сомнения в том, что они организованы во что-то типа сети подобия для того, чтобы обеспечить быстрый доступ к этой информации.

Типичный фрейм комнаты включает в себя терминалы трех или четырех видимых стен, каждая из которых может относиться к различным типам, например к стенам с окнами, с полками, картинами и камином. У каждой разновидности комнат свои типичные стены. Представление обычной стены может содержать массив терминалов размером (3×3): (левая часть — центр — правая часть) × (верхняя часть — средняя часть — нижняя часть), так что для предметов, относимых к стенам, можно качественно задавать их местоположение. Это может использоваться для локализации объектов с помощью внутренних пространственных отношений, например, чтобы представить такой факт, как «Y находится немного выше центра прямой, которая связывает Х с Z».

Если в трехмерном пространстве известно только направление восприятия (иначе, оптическая ось), то положение какого-либо элемента изображения, задаваемое соответствующим субфреймом, будет неопределенным. Линия, находящаяся в центральной части изображения, может принадлежать предмету, расположенному на передней стене комнаты, а может относиться к высокому объекту, находящемуся перед этой стеной; сами же объекты, очевидно, связаны с разными субфреймами. Решение об интерпретации линий может зависеть от обоснованных доказательств в пользу того или иного варианта, от более точной визуальной информации, полученной по данным стереовосприятия или двигательного параллакса, а также от той правдоподобной информации, которая может быть получена от других фреймов.

Положение границ пространственных элементов фрейма не носит совершенно четкого характера, и поэтому терминал каждого такого элемента должен содержать данные о (приблизительном) типичном местоположении его центра и некотором диапазоне относительных размеров. Мы предполагаем наличие лишь правильных топологических ограничений, например, что край левой стены должен всегда быть слева от любого стоящего у этой стены объекта. Процесс согласования видимой стены со всеми подобными ограничениями может приводить ко все большим затруднениям по мере того, как в описание элемента будут включаться (вопреки установленным для него размерам) предметы, предположительно находящиеся внутри него. Степень таких затруднений зависит от цели человека при анализе сцены и накопленного им опыта. Хотя данная концепция и может показаться сложной, я не думаю, что богатство и разнообразие зрительных ощущений могут наводить на мысль о создании каких-либо значительно более простых теорий.

1.8. Перспективы и перемена точек наблюдений

«Умственные способности, необходимые для координации перспективных изображений, оказываются полностью сформированными у ребенка обычно к 8-9 годам и проявляются в следующих довольно независимых друг от друга формах. Во-первых, каждому положению наблюдателя соответствует определенная совокупность отношений между видимыми предметами, например, отношения „слева — справа“ или „спереди — сзади“... Они зависят от проекций и сечений, соответствующих плоскости изображения для данного наблюдателя (т. е. от перспективы). Во время этого последнего подэтапа шаг за шагом выявляется характер соответствия между точкой наблюдения и перспективой. Во-вторых, между каждой перспективой, связанной с данным положением наблюдателя, и любыми другими перспективами также существует соответствие, выражаемое особыми изменениями в отношениях типа „слева-справа“, „спереди-сзади“ и, следовательно, изменениями соответствующих проекций и сечений. Это соответствие между всеми возможными точками наблюдений обусловливает координацию перспектив... хотя еще только в элементарной форме».

Ж. Пиаже, Б. Инельдер (1956)

Когда мы двигаемся по комнате, очертания находящихся в ней предметов изменяются. Каким образом можно предвидеть или компенсировать эти изменения без полного повторного анализа всей сцены? Эффект от движения глаз и поворота головы довольно прост; предметы перемещаются в рамках видимой области пространства, но не меняют при этом своих очертаний; однако изменение позиции наблюдения является причиной значительных перемен, которые зависят как от угла, так и от относительных расстояний между предметом и наблюдателем. Эта проблема особенно важна для животных, двигающихся с большой скоростью, так как у них модель внешней среды должна быть образована различными, частично проанализированными видами изображений. Видимо, эта потребность, пусть даже в самом примитивном своём варианте, послужила главным стимулом к эволюционному развитию систем фреймов, а позже и других символьных механизмов.

Если имеется обычная комната, то перемещение вдоль пунктирной линии (рис.1.6) вызывает упорядоченное изменение в очертаниях четырехугольных стен. Прямоугольник, находящийся в непосредственной близости от стены, должен трансформироваться точно так же, как и сама стена. Если на левой стене в центре вычертить прямоугольник, то будет казаться, что он находится перед стеной, поскольку человек предполагает, что любой такой четырехугольник есть на самом деле прямоугольник и, следовательно, он должен лежать в плоскости, проектируемой аналогичным образом. На рис.1.7а оба прямоугольника, казалось бы, выглядят одинаково, однако тот прямоугольник, что находится справа, не согласуется с маркерами терминала для субфрейма «левый прямоугольник» (которые, например, требуют, чтобы левая сторона была длиннее правой).

Таким образом, этот прямоугольник, представленный с помощью фрейма «центральный прямоугольник», кажется нам выдвинутым вперед и параллельным центральной стене.

Итак, необходимо не просто присвоить четырехугольнику метку «прямоугольный», но и сделать то же самое для определенного фрейма, входящего в систему фреймов «прямоугольники». Двигаясь по стрелке (рис.1.7а), можно ожидать, что любая трансформация, применимая к системе верхнего уровня, будет применима и к любой из ее подсистем (рис.1.7б). Аналогично последовательность эллиптических проекций окружности на плоскость изображения содержит конгруэнтные и потому визуально неоднозначные пары, что и показано на рис.1.8. Но, поскольку предметы обычно располагаются в плоскости стен, мы предполагаем, что эллипс левой стены будет находиться слева на плоскости изображения, и что он подвержен тем же трансформациям, что и сама стена. Если предсказание не подтвердится, мы, очевидно, будем весьма удивлены.

Правдоподобно ли, что ограниченная, качественная, знаковая система может служить инструментом для адекватного представления перспективных преобразований. Люди все время недооценивают свои возможности по восприятию образов, например, в таком вопросе, как переосмысливание пространственных отношений, при изменении точки наблюдения. Уже отмечалось, что люди, считающие себя обладателями хорошего пространственного видения, часто допускают качественные ошибки при описании вращения простого многоцветного куба. И даже, в тех случаях, когда мы в действительности способны высказать точные метрические суждения об объектах видимой сцены, мы не всегда делаем это; например, лишь немногих людей заставит задуматься изображение несуществующей реально пирамиды, показанной на рис.1.9. Это не пространственное изображение (перспектива) любой усеченной пирамиды. Если эта фигура была бы пирамидой, то все три ее ребра в своем продолжении сошлись бы в одной точке. Имея достаточный опыт, люди, без сомнения, могут высказывать более точные суждения, но для этого не требуются какие-либо другие механизмы. Если для выполнения некоторой работы непрофессионал использует десять фреймов, то специалист может применить тысячу и, таким образом, получить совсем иной порядок ее исполнения.

В любом случае для правильного предсказания изменений перспективы в наших системах необходимо, чтобы трансформация на верхнем уровне вызывала соответствующие трансформации в системах субфреймов. В первом приближении этого можно добиться с помощью одинаковых названий трансформаций. Тогда действие «двигаться вправо», заданное для фрейма комнаты, будет вызывать то же самое действие и для объектов, связанных с субфреймами стен этой комнаты.

Поскольку, однако, эта схема имеет серьезный дефект, то она и рассматривается здесь только лишь в качестве «первого приближения». Действительно, если вы стоите около левой стены и двигаетесь вдоль нее вперед, то предметы, расположенные вблизи этой стены, испытывают значительную трансформацию типа «двигаться-вправо», фронтальная стена подвергнется преобразованию типа «приблизиться», а правая стена испытывает трансформацию типа «двигаться влево». Таким образом, вопрос о правильном предсказании изменений перспективы оказывается далеко не таким легким, чтобы его можно было решить простым переносом типов операций более низкие уровни системы.

1.9. Заслонения

Когда мы двигаемся вправо, крупный предмет, находящийся в центре на переднем плане, вероятно, левой своей стороной будет заслонять любой более удаленный предмет. При планировании перемещений человек должен иметь возможность предвидеть некоторые из этих изменений. Часть предметов может стать невидимой, а другая их часть — видимой. В нашем исходном примере куба проблемы заслонения не существует, поскольку это тело является полностью выпуклым; исчезновение целой грани и всех ее связей может быть легко восстановлено по данным, содержащимся на верхнем уровне. Однако в комнате, которую обычно следует рассматривать как тело вогнутой формы, отдельные элементы объектов, относящиеся к различным терминалам, могут заслонять друг друга. Рассмотрим в этой связи две экстремальные стратегии.

Локальные группы предметов. Так же, как и с различными видами одиночных объектов, при рассмотрении знакомых групп частично загораживающих друг друга предметов можно воспользоваться специальной системой фреймов, соответствующей данной конфигурации объектов исходного изображения. Для примера рассмотрим сцену, состоящую из стола и стула (рис.1.10 и табл.1.1).

Если к фрейму, представляющему эту сцену, применить те же, что и ранее, трансформации перспектив, то это позволит в первом приближении решить проблему заслонения.

Такой подход хорош для компактных, заранее известных групп объектов, но он не дает нужных результатов в тех случаях, когда одни предметы загораживают отдельные детали других объектов, расположенных в углублениях комнаты. Для технических применений простота данной схемы не компенсирует частые ошибки, возникающие при ее использовании, однако, как теория человеческих действий она может быть достаточно хорошей.

Отметим, что умственная деятельность, направленная на выяснение заслонений, протекает медленно и ее не следует стремиться объяснить на основании упрощенных представлений, связанных главным образом со скоростью выполнения операций.

Глобальная система заслонений. Более глубокая стратегия должна предусматривать, чтобы все фреймы пространственных изображений (перспектив) дополняющая единую, центральную систему фреймов зрительного восприятия образов. Терминалы такой системы должны ответствовать отдельным элементам внутреннего представления пространства среды, а трансформации — определять выявленные законы перспективы, согласно которым одни элементы по-разному заслоняют другие для различных точек наблюдения.

Если на самом деле у человека существовала бы такая макросистема, то была бы она врожденной или же сформировалась в результате обучения? Приведенная выше цитата из работы Ж.Пиаже и Б.Инельдер служит подтверждением тому, что дети до десятилетнего возраста не обладают подобными макроструктурами.

1.10. Образы и системы фреймов

«Каждый человек охотно согласится с тем, что между двумя видами ощущений — непосредственными, когда человек, например, страдает от сильной жары или ему приятно разливающееся по всему телу тепло, и ощущениями, воскрешаемыми в памяти или предвкушаемыми благодаря своему воображению, имеется значительное различие. Эти наши способности могут имитировать восприятия органов чувств, но с их помощью невозможно достигнуть силы и живости первоначального чувства... Самая яркая мысль все же слабее самого притупленного ощущения».

Д. Хьюм (1963)

Теория зрительного восприятия должна быть, по нашему мнению, одновременно и теорией воображения, поскольку и та, и другая имеют одни и те же конечные цели: конкретизацию заданий терминалов фреймов. Каждый из нас согласится с Д.Хьюмом в том, что имеется различие между зрительным восприятием и ощущениями. Д.Хьюм утверждает, что это различие проистекает вследствие того, что восприятие по своей природе является мгновенным и непосредственным, тогда как вызываемые в памяти образы получаются рекомбинацией заполненных «впечатлений», а при хранении, поиске и преобразованиях этих структур каким-то образом теряется их выразительность. Я предполагаю, что зрительное восприятие кажется более живым, нежели воображение, ибо его задания менее подвижны. Они более стойко сопротивляются попыткам других процессов изменить их. Для того чтобы изменить описание непосредственно видимой сцены, наша система зрительного восприятия, вероятно, будет вынуждена изменить эту сцену — ни больше и ни меньше. Для человеческой фантазии, конечно же, подобных жестких ограничений не существует.

В то же время сами «зрительные» задания не являются абсолютно негибкими; любой может научиться в уме изменять представленную на чертеже изометрию куба. Существуют так называемые «двусмысленные» фигуры, которые можно легко описать различным образом. В этом случае изменение фрейма равнозначно изменению «описательной точки зрения», причем действие или преобразование носит символьный, а не физический характер. В любом случае существуют такие психические состояния, при которых фантазии менее гибки, чем «непосредственные восприятия», а иногда даже и более «ярки».

1.11. Априорное означивание

Как мы уже упоминали, целью работы механизмов восприятия и воображения является конкретизация заданий терминалов фреймов, при этом воображение оставляет человеку больший простор для выбора деталей и различных вариантов этих заданий. По-видимому, фреймы никогда не хранятся в долговременной памяти с незаданными значениями своих терминалов. Каждый терминал фрейма в действительности непрочно связан со своими заданиями отсутствия, которые чаще всего бывают полезны, но иногда могут препятствовать процессу поиска нужного фрейма.

Так, если вам скажут: «Джон ударил ногой по мячу», то, видимо, вы не думаете о каком-то чисто абстрактном мяче, а представите себе вполне определенные его характеристики: размер, цвет, массу, которые, однако, пока еще неизвестны. Возможно, что возникший в вашей памяти образ чем-то напоминает вам самый первый мяч или тот, которым вас больно ушибли, или, может быть, тот самый последний мяч, который вы держали в своих руках. В любом случае вашему воображению недостает остроты (эффекта «присутствия»), поскольку те процессы, которые контролируют ход согласования и оказывают влияние на непрочно связанные с терминалами задания отсутствия, только лишь подтверждают или отвергают их пригодность и не имеют связи с реальной действительностью.

Задания отсутствия должны оказывать тонкие, идеосинкразические воздействия на те мыслительные операции, с помощью которых человек проводит аналогии, делает обобщения и вырабатывает суждения, особенно когда внешние влияния на них достаточно слабы. При правильном выборе эти стереотипы могут служить в качестве хранилища ценных набросков планов, в противном случае они могут образовывать наборы иррациональных данных парализирующего действия.

1.12. Системы фреймов и конкретные мыслительные операции Пиаже

«Каковы в действительности условия, необходимые для формирования формального мышления? Ребенок должен в уме не только оперировать с предметами, иными словами, мысленно выполнять возможные над ним действия, но он должен также „отражать“ в себе эти операции при отсутствии предметов, когда последние заменяются на словесные формулировки. Это „отражение“ есть мысль, достигшая второй стадии (стадии формальных операций). Конкретное мышление является представлением о возможном действии, а формальное мышление — представлением представления о нем. Поэтому нет ничего удивительного в том, что система конкретных операций должна полностью сформироваться в течение последних лет детства (к 11-12 годам) еще до того, как она получит свое представление с помощью формальных операций. По своим функциям формальные операции не отличаются от конкретных за исключением того, что они применяются к гипотезам или утверждениям абстрактной системы „вывода“, которая управляет конкретными операциями».

Ж. Пиаже (1971)

Я считаю, что имеется сходство между мыслями Пиаже о конкретных операциях и идеей использования трансформаций между фреймами системы. Некоторые виды логических операций могут быть легко реализованы на базе фреймов путём замены в них одних заданий отсутствия другими. Например, не вызовет затруднений попытка аппроксимации логических транзитивностей; так, силлогизмы вида: «Все, что принадлежит А, принадлежит В, и все, что принадлежит В, принадлежит С, =>, все, что принадлежит А, принадлежит С», должны естественным образом встречаться при подстановках субфреймов в терминалы фрейма. Я не думаю, что это общее правило универсально, но считаю, что вследствие транзитивности сменяющих друг друга субфреймов в некоторых случаях воспользоваться им будет полезно.

В дополнение к этому можно предполагать, что к справедливости высказываний вида: «Большинство, относящееся к А, относится к В, и большинство, относящееся к В, относится к С, => большинство, относящееся к А, относится к С», следует относиться с той же степенью доверия, даже если иногда это не соответствует действительности.

Ясное понимание вопроса о том, что же может быть достигнуто на базе простейших операций с фреймами, было бы весьма ценным и актуальным. Значительным шагом в этом направлении, мне думается, явилась разработанная Дж.Муром и А.Ньюэллом(1973) процедура «выравнивания и покрытия» для их программы MERLIN. Эта процедура связана с известным в математической логике алгоритмом унификации (см.Н.Нельсон «Искусственный интеллект»,1973), если известны фреймы А и В, то результаты ее работы могут быть проинтерпретированы (если не слишком вдаваться в детали) следующим образом:

Можно рассматривать А как вид В, если имеется «отображение» или фрейм-трансформация С, указывающая, каким образом (может быть даже с помощью каких иных «отображений») терминалы, относящиеся к А, могут рассматриваться в понятиях В-терминалов.

В упомянутой выше работе метод изменения точек зрения используется, чтобы предложить ряд новых интерпретаций таким основным стратегиям, как целенаправленность, индукция и использование новых знаний.

Кроме того, авторы высказывают ценные предложения, каким образом можно в машинных программах реализовать основную идею теории фреймов.

По теории Ж.Пиаже способности детей к проведению рассуждений, как с помощью трансформаций, так и о них самих проявляются с переходом мышления ребенка на стадию формальных операций. Для различных видов умственной деятельности эти способности могут проявляться не одновременно и не синхронно по отношению друг к другу. Чтобы проводить более сложные рассуждения и освободиться от полезной, но малонадежной логики манипулирования с заранее заготовленными значениями, человек должен научиться оперировать с самими трансформациями, поскольку подобные преобразования содержат в себе сведения, необходимые для более сложных форм умственной деятельности. В создаваемых для систем ИИ моделях можно было бы попытаться заставить ее (систему) читать свои собственные программы. Возможная альтернатива заключается в том, чтобы представить (с избыточностью) информацию о процессах иным способом. Сотрудники нашей лаборатории (Лаборатория искусственного интеллекта Массачусетского технологического института ), разрабатывающие программу, «понимающую программы», обычно приходили к мнению, что в них должны содержаться «комментарии» для более четкого выражения намерений, предпосылок и целей эти комментарии (в настоящее время) обычно записываются на специализированных языках.

В этой связи возникает важный вопрос о цели разработки нашей теории. Мышление на базе «схем», в основе которого лежит согласование сложных ситуаций со стереотипными структурами фреймов, явно недостаточно для некоторых видов умственной деятельности. Очевидно, что взрослые люди, думая о чем-либо, используют для своих целей ранее сформировавшиеся собственные представления. Если представить себе «формальные» операции в виде процессов, которые могут изучать и критиковать наши ранее сформировавшиеся представления (в виде фреймов или любом другом), то с их помощью можно создавать новые структуры, которые будут соответствовать «представлениям о представлениях». У меня, однако, не сложилось еще определенного мнения о той роли, которую могли бы играть системы фреймов в этих более сложных видах умственной деятельности.

Та же стратегия предполагает, что непосредственное использование фреймов мы связываем (схематично, по крайней мере) с «конкретными» операциями Ж.Пиаже. Если это так, то я поддерживаю тезис Ж.Пиаже о том, что позднее появление «формального» мышления у детей связано с парадоксальным повторным убеждением. При рассмотрении примеров применения системы фреймов к различным проблемам могут возникнуть сомнения по поводу того, что данная теория хорошо объясняет одно и плохо другое. Однако было бы наивно ожидать, что в рамках любой отдельно взятой системы можно решить все проблемы человеческого мышления, тем более что эта система ограничена конкретными операциями, сводящимися к манипуляциям со стереотипными структурами данных.

Глава вторая

Язык, понимание и сценарии

2.1. Слова, предложения и смысл

«Механизм восприятия образов обладает некоторыми недостатками, которые являются платой за его исключительно ценные качества. Два из них, видимо, наиболее важны: образ, в особенности зрительный, склонен к обособлению ситуаций, более чем это биологически целесообразно; а принципы, лежащие в основе композиционного объединения образов, приводят к таким построениям, которые являются относительно беспорядочными, случайными и нерегулярными по сравнению с развертыванием привычных действий или довольно упорядоченным развитием мысли».

Ф. Бартлетт (1932)

Концепция фрейма и использование заданий отсутствия, по-видимому, полезны при рассмотрении проблемы понимания смысла. Н.Хомский(1957) указывал, что такое предложение, как:

(A) Бесцветные зеленые идеи спят неистово трактуется совсем иначе, чем высказывание:

(B) Неистово спят идеи, зеленые, бесцветные.

Это происходит, во-первых, потому, что оба высказывания «одинаково бессмысленны», и, во-вторых, потому что процессы, связанные с анализом предложений, должны во многом отличаться от процессов, связанных с пониманием смысла.

Нет сомнения в существовании особых механизмов, связанных с грамматическим разбором предложений. Поскольку смысл высказывания в равной мере «закодирован» как в позиционных и структурных отношениях между словами, так и в выборе самих слов, то должны существовать и механизмы, связанные с анализом этих отношений и участвующие в формировании структур, которые призваны более четко представлять смысл этого высказывания. Почему при выработке такой структуры слова в высказывании (А) производят большее впечатление и смысл их более понятен, чем в высказывании (В), если не касаться вопроса о том, следует ли называть эту структуру семантической или синтаксической? Потому что порядок слов в (А) и отношения между ними заданы с учетом (грамматических) условностей и правил, которыми люди обычно пользуются, чтобы побудить других конкретизировать определенными значениями задания терминалов своих понятийных структур. Это полностью согласуется с грамматическими теориями. Порождающая грамматика могла бы служить в качестве совокупного описания внешнего проявления этих правил (или связанных с ними процессов), а операции в трансформационных грамматиках достаточно близки к нашим трансформациям фреймов.

Следует, однако, уточнить, насколько самостоятельно используется грамматика при работе человеческой мысли. Вероятно, неприятие высказываний (вследствие конструкций, не соответствующих правилам грамматики, или просто непонятных) указывает на более сложный характер причин, обусловливающих семантический отказ выработать какое-либо представление. Ниже приводятся доводы в пользу того, что противопоставление грамматики и смысла может осветить две крайности из этого круга вопросов, но в то же время завуалировать все остальные его важные проблемы.

Мы, конечно же, не можем считать, что любой «логической» бессмысленности неизбежно сопутствует и бессмысленность психологическая. В самом деле, высказывание (А) может породить определенный психический образ! Центральным в этом образе, как я понимаю, является фрейм сна, для которого система задает определенную кровать с «лежащим» на ней фреймом, представляющим мягкую, бесформенную полупрозрачную массу зеленого цвета. Во фрейме сна имеется терминал для задания характера сна (сейчас, видимо, беспокойного), а слово «неистово» кажется здесь несколько неподходящим, так как этот фрейм предпочитает не признавать в своем действии чего-либо намеренно спланированного или заранее предусмотренного. Еще больше смущает слово «идеи», поскольку в качестве субъекта мыслится какое-нибудь лицо или, по крайней мере, что-то живое. В рамках рассматриваемой структуры фрейма разрешить эти противоречия не удается.

Сказать что-либо подобное о высказывании (В) попросту нельзя, поскольку в нем нет ни одного существенного фрагмента, который можно было бы сопоставить с одним из возможных субфреймов.

Поэтому ни один более высокий по иерархии фрейм не получит каких-либо данных для согласования своих терминалов и, следовательно, ни один из фреймов верхнего уровня типа «смысл» или типа «предложение» не в состоянии сообщить о том, имеет ли высказывание (В) правильную грамматическую форму и (или) заложен ли в нем какой-нибудь смысл. Я полагаю, что сочетание этой «гибкой» теории с градацией отбора данных для заполнения заданий отсутствия может быть положено в основу разработки такой системы, которая скорее будет несостоятельной для предложений с «плохой» грамматикой, нежели для предложений, где ее попросту нет. Если более мелкие фрагменты, т.е. фразы и части предложений достаточно хорошо удовлетворяют субфреймам, то даже несмотря на неполную согласованность данных на верхних уровнях могут быть построены образы, приемлемые для определенных видов понимания. Таким образом, мы получили качественную теорию грамматического разбора:

если данные удовлетворяют верхним уровням и не удовлетворяют некоторым терминалам более низких уровней, то на входе — бессмысленное предложение; если же картина обратная, то высказывание может иметь смысл, но оно облечено в грамматически неправильную форму.

Я не собираюсь утверждать, что восприятие предложений обязательно должно сопровождаться зрительными образами. Некоторые люди не пытаются представить себе цвет мяча в предложении «он ударил по мячу». Но, в конечном итоге, все согласятся, что в рамках вызванного из памяти сценария используются, если не такие характеристики, как цвет или размер, то цели, отношения и другие существенные элементы. Вне рамок зрительного восприятия терминалы и их задания отсутствия могут представлять цели и функции, а не только цвета, размеры и формы.

2.2. Рассуждение

Лингвистическая деятельность человека требует от него использования образований более крупных, чем те, которые могут быть описаны с помощью грамматических правил, а это в еще большей степени затрудняет понимание вопросов, связанных с разграничением синтаксиса и семантики. Рассмотрим следующую басню (У.Чейф, 1972):

«Жили-были волк и ягненок. Однажды увидел волк, что ягненок пьет воду из реки, и появилось у него желание съесть ягненка. Решил он найти себе хоть какое-то оправдание и, несмотря на то, что сам находился выше по течению, обвинил ягненка в том, что тот взбалтывает воду и не дает ему пить…»

Чтобы понять этот отрывок, надо ясно представить себе, что волк лжет! Чтобы понять ключевую фразу «несмотря на то, что...», надо знать, что жидкость не может двигаться вверх по течению, а это, в свою очередь, требует от нас понимания самих слов «вверх по течению». В рамках декларативной, основанной на исчислении предикатов логической системы фразу «выше по течению» можно задать в виде некоторой формулы, например:

[А находится выше по течению, чем В] \/ [Событие Т.B А поток мутный] => [Существует [Событие U.В В поток мутный]] /\ [U позже Т].

Однако более полное определение было бы гораздо сложнее. Например, как записать тот факт, что потоки воды, перемещая какие-либо предметы, обычно не изменяют их расположения относительно друг друга? Логик мог бы попытаться доказать его, исходя из достаточно сложной совокупности «локальных» аксиом и соответствующих правил индуктивного вывода. Представим эти знания с помощью особой структуры данных, которая автоматически переориентирует связи пространственных описаний с терминалов одного фрейма на терминалы другого в рамках одной и той же системы фреймов. И хотя это может рассматриваться как некоторый вид логики, здесь используются определенные механизмы такие же, как и для пространственного мышления.

Во многих случаях нам приходится иметь дело с изменяющимися во времени ситуациями или причинно-следственными отношениями. Так, концепции «течение реки» может соответствовать система фреймов, аналогичная той, что показана на рис.2-1, где S1, S2 и S3 обозначают отдельные абстрактные участки реки. Если волк в соответствии с ранее рассмотренной схемой находится слева, а ягненок от него — справа, то S1, S2 и S3 «двигаются» мимо них также слева направо. Наше воображение именно так представляет себе эту картину, а для ее изменения требуются некоторые умственные усилия. Допустим, что участки реки S1, S2 или S3 видны только тогда, когда они располагаются прямо против волка или ягненка. Если последний взбалтывал воду на участке S3, то система фреймов укажет на то, что, поскольку этот участок перестанет быть видимым и не будет находиться вблизи волка, его претензии к ягненку безосновательны. Более подробная система могла бы иметь промежуточные фреймы, но ни для одного из них участок реки возле волка не был бы загрязнен.

Существует еще много нюансов, в которых следует разобраться. Что означает слово «взбалтывал» и почему это мешало волку пить? В обычных условиях с помощью элементов S могут быть представлены просто какие-то плавающие предметы, однако здесь S3 взаимодействует со словом «взбалтывал» и в результате получается нечто противоречащее действию «пить». Или такой вопрос: было ли доказано, что взбалтывание воды в реке обусловливает присутствие грязи в воде на участке S3, или же это указывается в одном из заранее заготовленных значений данного действия?

Почти любое событие, действие, изменение, перемещение объектов или даже передача информации в первом приближении могут быть представлены обобщенным событием в виде системы, состоящей из двух фреймов. Система фреймов может иметь пробелы для действующих лиц (агентов), инструментов, побочных явлений, предварительных условий, обобщенных траекторий, но, в отличие от переходных глаголов в теориях формальных грамматик, здесь имеется дополнительная возможность в явном виде представлять возможные изменения. Чтобы проверить, понял ли кто-либо то или иное событие или действие, можно построить соответствующую ему пару фреймов типа «до-после».

Однако использование подобных пар фреймов для представления ситуационных изменений совсем небезошибочно, поскольку ссылки на эти пары фреймов не адекватны описанию различий между ними. Это вызывает неудобства при таких видах деятельности, как планирование или проведение абстрактных рассуждений, поскольку не существует явных точек включения в подобные структуры информации о трансформациях. В развитие этого варианта можно ввести пары узлов, указывающие на соответствующие терминалы: в этом случае мы получили бы структуры, подобные «записям сходства» П.Уинстона(1970). Кроме того, можно поместить на верхний уровень системы фреймов данные, несущие в себе информацию о различиях между фреймами в парах «до-после», выраженных в более общем виде.

В своей работе по теории «семантической зависимости» Р.Шенк(1972) пытается найти смысловое представление для сложных утверждений, таких, например, как «Сэм верит в то, что Джон дурак». В этих предложениях предмет, на который направлено действие, не может быть представлен как реальный физический объект. Это, однако, не снимает вопроса о «концептуализации» этого предмета и представлении его с помощью ситуаций подобно тому, как это выглядит при разборе следующего диалога:

— Не хотите ли Вы кусочек шоколада?

— Нет, я только что съел трубочку с мороженым.

Р.Шенк считает достаточным наличие ограниченного набора «основных концептуализаций» и типов связей между ними для того, чтобы с их помощью представлять смысл сложных высказываний. Я затрудняюсь сказать, насколько правилен этот подход, например, можно ли с его помощью описать такое явление, как «поток».

Теория Р.Шенка включает в себя идею «концептуальных атрибутов», которые напоминают некоторые из наших терминалов фреймов, однако в ней сделана попытка представить результаты действий не с помощью отношений между парами фреймов, а в виде явных абстракций. Это порождает свои проблемы; например, было бы интересно узнать, достаточно ли одной (или даже нескольких) абстрактной концепции «причинам для работы системы „убеждений“ или нет. Явно недостаточной выглядит попытка представить причинную связь с помощью некоторого условия или действия, необходимого для того, чтобы произошло какое-то событие. Не вдаваясь более в детали, я полагаю, что как только в рамках теории Р.Шенка будут разработаны некоторые проверки выполнимости действий, она станет мощным средством для представления знаний.

Работа Дж.Уилкса(1973а) по «семантике предпочтений» тоже, видимо богата идеями относительно того, как создавать структуры, подобные фреймам, из более простых элементов. Его предложения в отношении предпочтений объединяют в себе особые пути, при помощи которых можно было бы представлять задания отсутствия и процедуры, согласованные с более крупными фрагментами рассуждений. Я полагаю, что система Дж.Уилкса интересна еще и тем, что она отчетливо показывает нам способы, с помощью которых можно проводить некоторые полезные неформальные рассуждения, а также раскрывает механизм псевдодедукции, основанный на шаблонном принципе построения всей системы и на текущих процессах без привлечения тщательно разработанной формальной логической системы или без излишней заботы о непротиворечивости в рассуждениях.

Р.Абельсон(1973) работает над проблемами представления еще более сложных видов деятельности. Основываясь на элементах, подобных элементам Р.Шенка, он разрабатывает схемы, в которых взаимодействие различных понятий ведет к образованию сложных «предписаний» (scripts), т. е. ажурных или решетчатых сценариев в тщательно разработанных системах «убеждений». С их помощью он пытается отразить даже такие взаимодействия, как представление одного человека о той роли, которую он играет в планах другого действующего лица.

В своей работе Д.Макдермотт(1974) рассмотрел многие вопросы, связанные с представлением знаний. В его схеме для выработки правдоподобных заключений любые утверждения не просто принимаются на веру, но подлежат проверке, осуществляемой процессами, которые выражают «сомнения» и «убеждения»; по существу, данные, наличие которых предполагается по умолчанию (или поскольку они правдоподобны), сохраняются благодаря механизмам изменения убеждений, действующих, когда последние, зависимые предположения уже включены в работу. Д.Макдермотт особенно выделяет те вопросы, которые связаны с устранением ошибок, возникающих в любой системе в процессе поиска неформальных и правдоподобных заключений.

2.3. Смысловая структура рассуждений

«Слова... могут отражать качественные и относительные черты некоторой ситуации в их наиболее общем виде, как, впрочем, и описывать, вероятно, даже более удовлетворительно, ее особенности. Именно это обусловливает внутреннюю связь языка с процессами мышления. В психологическом плане восстановление любой имевшей место в прошлом ситуации выполняется для преодоления трудностей на базе прошлого опыта... Не следует, однако, думать, что человек, попавший в затруднительное положение, воссоздает более или менее подходящую ситуацию (и на ее основе находит для себя решение) без какого-либо поиска и выявления принципов перехода от одной ситуации к другой».

Ф.Бартлетт (1932)

Анализ предложений с помощью «глубинных падежей», разрабатываемых, например, С.Филмором(1968) и М.Селс-Мурсиа(1972), проводится с помощью структур, чем-то напоминающих фреймы. Сгруппированные главным образом вокруг глагола части предложения используются для того, чтобы заполнить конкретными данными пробелы в подобной фрейму структуре этого глагола с учетом различных вариантов возможного включения предлогов в это предложение. Для анализа предложений имеет смысл использовать именно те структуры, доминирующее положение в которых принадлежит глаголам, поскольку именно это и происходит на практике.

Однако при более обширном анализе, выходящем за рамки отдельного предложения, такие структуры часто теряют свою самостоятельность и включаются в более крупные фрагменты рассуждений. Темой какого-либо отрывка из повествования в равной мере могут быть картина или действие, характеристика персонажа или то, что он делает. Таким образом, при понимании рассуждения синтез глагольной структуры с конкретным заданием ее падежей может быть необходимым, но лишь преходящим этапом. По мере понимания предложения отдельные субструктуры следует объединять в расширяющих фреймах-картинах для того, чтобы построить на их основе еще более крупную картину. Действие, основное в некотором предложении, может, например, стать вспомогательным для характеристики одного из героев всего рассказа.

Я не предлагаю придерживаться концепции, утверждающей, скажем, что глаголы описывают локальные (в рамках отдельных предложений) структуры, а существительные — структуры глобальные, состоящие из отдельных параграфов или пунктов, хотя в первом приближении она могла бы оказаться полезной. Любая концепция может быть построена с помощью различных лингвистических представлений. Но обсуждаемая нами проблема не сводится к проблеме существительных или глаголов. Важно понимать, что преходящие семантические структуры, построенные во время синтаксического анализа (т.е. те структуры, которые лингвисты именуют «глубинными структурами» предложений), не идентичны более крупным (и более «глубоким») структурам, образующимся по мере того, как к ним подключаются связанные друг с другом лингвистические объекты.

Мне бы не хотелось, чтобы подобный акцент на имеющие лишь местное значение (или предметные) суперфреймы приводил к мысли о том, что между лингвистическими и нелингвистическими представлениями имеются коренные отличия. При более детальном рассмотрении этого вопроса станет, по-видимому, ясно, что существенная часть понимания и проведения рассуждений на основе здравого смысла во многом напоминает преобразования лингвистических структур и манипуляции ими. Фреймы, связанные со смыслом слов, будь то существительные, глаголы или другие части речи, несомненно, являются центрами концентрированного представления знаний о том, как связаны между собой различные предметы и явления, каким образом они используются и как они друг с другом взаимодействуют. Можно получить значительные преимущества в том случае, если бы удалось создать механизмы, в которых эти одинаковые структуры применялись бы как для реализации процессов мышления, так и для понимания естественного языка.

Представим себе ориентированный на фреймы сценарий, который представляет собой структуру для понимания смысла повествований. В начале чтения какого-нибудь рассказа о нем известно очень мало, фактически только то, что это рассказ, но даже и этих скудных сведений на первых порах оказывается достаточно. Обычный фрейм рассказа в общем случае включает в себя пробелы, которые надо заполнить сведениями об окружающей обстановке, главных героях, основном событии, морали и т. д. И в самом деле, в любом правильно построенном повествовании вначале идет речь о действующих лицах и той среде, в которой будет развиваться действие; так, в басне о волке и ягненке сразу же говорится о двух непримиримых субъектах, находящихся у реки (это и есть окружающая обстановка), а затем указаны мотивы для соответствующего поведения волка. Слова «найти хоть какое-то оправдание» подготавливают нас к тому, что волк, видимо, сделает какие-то ложные утверждения.

Анализ каждого предложения следует проводить только до тех пор, пока содержащиеся в нем сведения могут быть полезны для заполнения более крупных структур. Таким образом, в терминалах расширяющейся смысловой структуры накапливаются указатели и дескрипторы, которые сообщают о дальнейших путях конкретизации заданий отсутствия. Терминал, с которым связан маркер «лицо женского рода», не сможет использовать такие задания, где присутствуют местоимения мужского рода. Я полагаю, что именно этим следует объяснить невозможность конкретизации терминалов фрейма стены с помощью заданий типа «стул» или «стол». По мере того, как продолжается рассказ, информация (когда это возможно) передается фреймам более высоких уровней для углубления и конкретизации сценария. В некоторых случаях к терминалу фрейма удается присоединить целый субфрейм, например описание одного из героев рассказа. Это может случиться тогда, когда терминал фрейма-рассказа согласуется с указателем верхнего уровня фрейма анализируемого предложения. Данные, содержащиеся в других предложениях, могут вместе с тем приводить и к образованию противоречивых ситуаций. Но что произойдет, если не удастся осуществить передачу данных на более высокий уровень, поскольку собеседник ожидал услышать рассказ другого типа и не располагает терминалами, с помощью которых можно было бы усвоить новую порцию данных?

Будем продолжать считать, что у нашего собеседника в действительности имеется большое количество фреймов-рассказов, связанных между собой структурами поиска информации, которые будут нами рассмотрены позднее. Тогда первым шагом явится попытка включить новую информацию в текущий фрейм-рассказ. Если это не удается, следует выработать сообщение об ошибке, например: «здесь нет места для животного», что заставит заменить используемый фрейм другим, скажем, фреймом-рассказом о животных. Все предыдущие задания терминалов могут сохраниться, если у нового фрейма типы терминалов будут теми же самыми. Если же многие задания не подходят, следует попытаться применить другой, новый фрейм-рассказ. Если и здесь мы терпим неудачу, то есть два пути: либо начать все с начала и пытаться всю структуру строить заново (видимо, это самая важная интеллектуальная задача), либо полностью отказаться от дальнейших попыток и забыть все то, что было сделано для понимания рассказа. Это обычная реакция на неизвестные ранее формы повествования! Человек не может хорошо учиться, если разрывы между известным для него и неизвестным слишком велики: рассказы о животных не будут фактически понятны до тех пор, пока не сформированы персональные фреймы для волка, лисы, медведя и т. д.

Таким образом, при проведении рассуждений многочисленные фреймы и субфреймы объединяются в сети поиска информации. Атрибутивная или описательная информация может быть представлена с помощью простых структур, однако действия, временные последовательности, разъяснения и другие сложные вещи требуют более отработанных механизмов представления знаний. Мы должны признать, что все основные, очень трудные вопросы, относящиеся и к эпистемологии, и к лингвистике, концентрируются вокруг одной проблемы: как отыскать те способы, с помощью которых можно будет согласовывать сведения, поступающие от различных источников информации.

2.4. Перевод

Перевод дает возможность наблюдать механизм конкретизации заданий отсутствия в работе. При переводе басни о волке и ягненке с английского языка на японский требуется упомянуть о том месте у реки, где находятся действующие лица, хотя этого не требуется в английском варианте. В английском языке необходимо указывать время, хотя бы сказав «однажды...».

В японском языке принято характеризовать как место действия (хотя бы с помощью расплывчатой фразы «в некотором месте...»), так и время его свершения.

Я считаю, что сведения и о месте действия, и о его времени нужны людям для их более глубоких смысловых фреймов независимо от того, на каком языке они говорят. Следовательно, как только переводчик полностью поймет какое-нибудь предложение, задания отсутствия обеих типов сразу же будут в его распоряжении. Хорошие переводчики-синхронисты говорят так быстро, что можно лишь удивляться тому, как много могут они понять еще до того, как начнут говорить. Наша теория доказывает, что это не такое уж большое достижение, ибо если еще до того момента, как процесс согласования полностью завершит свою работу, будет найден подходящий фрейм, то все его задания отсутствия становятся доступными и могут быть включены в работу.

Перевод басни «Волк и ягненок» на японский язык, выполненный в соответствии с вполне приемлемой и поверхностной структурой, может выглядеть следующим образом:

Однажды в некотором месте на реке ягненок, пьющий воду, увидел волка, и этот волк этого ягненка съел под предлогом...

В японском языке более естественно сказать о том, что именно пил ягненок, чем-то, что он пил. В этом заключается один из способов, с помощью которых язык воздействует на процесс мышления: каждое особое лингвистическое правило концентрирует внимание на заполнении терминалов определенного типа. Если для какого-то человека привычным и связанным с действием пить является понятие «вода», то оно является заранее заготовленным значением для структуры, представляющей это действие. Заполнение этим понятием задания отсутствия будет вполне допустимым, если, например, в разговоре встретится фрейм действия «пить», участвующий в формировании структуры выходного предложения (фразы). Конечно, если утоление жажды происходит в непосредственной близости от реки, следует позаботиться о наличии каких-то дополнительных механизмов связи понятий «пить» и «река» с помощью понятия «вода». Кажется ясным, что если в каком-либо фрейме имеется пробел для представления одного из видов жидкости, утоляющей жажду, и этот пробел слабо связан со всей структурой, то он может быть легко вытеснен данным того же типа, сильно связанным с субфреймом, который подключается к исходному фрейму.

2.5. Активная и пассивная формы интеллектуальной деятельности

Традиционно видение и воображение рассматриваются как «пассивная» и «активная» формы восприятия. Действительно, в процессе зрительного восприятия (видения) человек анализирует картину с помощью выявленных в процессе сбора информации данных; это ограничивает его возможности уже потому, что преобладающим здесь выступает не поиск непротиворечивого и правдоподобного описания наблюдаемой сцены, а стремление согласовать «объективную» визуальную информацию с выбранным для целей представления фреймом. Воображение рисует нам значительно более разнообразные картины, поскольку в этом случае задачей является подбор таких заданий терминалов, которые удовлетворяли бы нашим внутренним и, следовательно, изменяемым целям.

В языковых формах общения напрашивается аналогичное противопоставление. Если человек слушает своего собеседника, что предполагает проведение грамматического разбора, то для понимания текста ему требуется выстраивать отдельные слова в конструкции, отвечающие правилам грамматики и соответствующие как общему содержанию разговора, так и намерениям говорящего; это, конечно, резко уменьшает возможное число вариантов конкретизации заданий терминалов. Значительно большую свободу выбора предоставляет нам речь. Существует огромное число различных способов образования из отдельных фреймов предложений. Для выражения поставленных перед собой целей, будь то желание сообщить какую-либо информацию, убедить или ввести кого-то в заблуждение.

Подобные разграничения, однако, весьма опасны. Во многих случаях речь представляет собой прямой перевод данных, представленных в семантических структурах, в последовательность слов, тогда как слушание требует выполнения сложных и обширных построений для решения, в частности, проблемы понимания. Проведем аналогию между визуальным фреймом комнаты и фреймом, представляющим собой группу существительного в предложении при проведении рассуждений. И в том и в другом случае одна часть терминальных заданий является обязательной, а другая — нет. Например, стены в комнате совсем не должны быть чем-либо украшены, но каждый подвижный предмет не может не иметь соответствующих типов опор. Группа существительного может не содержать определителя числа, но не может обойтись без самого существительного или заменяющего его местоимения. Поверхностная структура оставляет человеку весьма ограниченный выбор вариантов, поскольку необходимым является в одном случае учет всех слов, включенных в предложения, а в другом — всех ключевых признаков анализируемых сцен.

При изучении языковых форм общения так же, как и процессов зрительного восприятия, совсем не следует ограничиваться рассмотрением только лишь поверхностных структур. У человека имеется множество вариантов для включения знаний в семантическую структуру или результатов действий в текущий контекст. Любой предмет характеризуется не только формой, но и своей историей. Присутствие его в данном месте и в данное время обычно не только чем-то обусловлено, но и несет в себе разную смысловую нагрузку, например, выступает как признак изменения отношений или как ключ к разгадке какой-то тайны.

Любое предложение может быть по-разному понято. При этом речь идет не о случайных (и во многом несущественных) двусмысленностях грамматического разбора, а о преднамеренно разных интерпретациях. Так же, как любую комнату можно рассматривать из разных мест, так и любое утверждение может быть проанализировано с различных точек зрения по тем вопросам, которые в нем затрагиваются. Это видно из следующего примера, каждое предложение которого имеет свои структурные особенности:

Он ударил по мячу.

По мячу ударили.

Сегодня имели место некоторые удары.

Поскольку такие варианты формально напоминают синтаксические активно-пассивные операции в трансформационных грамматиках, человек может не заметить различия в их смысловых значениях. Мы выбираем нужный нам вариант в соответствии с тематическими вопросами, т.е. в зависимости от того, что нас интересует: то, что сделал «он», или то, куда мог исчезнуть мяч, или то, что кто-то его повредил, и т.д. Наиболее просто ответить на такие вопросы, если заострить внимание на их существе и вызвать фрейм, относящийся главным образом именно к данной теме.

В соответствии с традиционными положениями теории трансформационных грамматик такие альтернативные фреймы не могут существовать независимо друг от друга, ибо они являются производными от одной глубинной структуры. Если, однако, допустить их не связанное друг с другом присутствие в долговременной памяти, можно получить определенные выгоды, подключив к каждому фрейму информацию о том, как его следует использовать. Впрочем, существуют (и на это справедливо указывают лингвисты) систематические «регулярности», которые свидетельствуют, что подобные трансформации могут практически с той же легкостью применяться и к незнакомым глаголам; все это уменьшает целесообразность отдельного существования таких альтернативных фреймов. У меня создалось впечатление, что теоретики-трансформационисты склонны верить в наличие особых центральных механизмов для управления изменениями «семантической перспективы», хотя ясно, что разнообразие особенностей, связанных с отдельными словами, делает это технически маловероятным. Теория, разработанная в соответствии с излагаемыми в данной работе взглядами, должна предусматривать, что всякий раз, когда человек встречается с неизвестным ему употреблением слова (или самим словом), он использует процесс согласования для того, чтобы догадаться, правильно оно или ошибочно, к чему оно ближе всего, а затем приспосабливает систему трансформации внимания к этому слову. Я не могу сейчас указать, с помощью каких экспериментов можно было бы выявить различие между рассмотренными выше предположениями, но оно мне кажется важным.

Одни читатели могут возразить, что не следовало бы всё настолько усложнять, поскольку мы хотим объяснить лишь то, каким образом люди могут так быстро понимать предложения, другие — утверждать, что нам нужна более простая теория. Важно, однако, помнить следующее: на то, чтобы что-то понять, часто требуются минуты, часы или даже столетия.

2.6. Сценарии

«Мышление... в биологическом плане возникает вслед за развитием процессов формирования образов. Оно возможно только тогда, когда будет найден способ разрушить „массированное“ влияние прежних стимулов и ситуаций, когда будет познан механизм подавления тирании прежних реакций. Но хотя мышление является более сложной формой умственной деятельности, оно не заменяет собой метода восприятия образов. Мышлению присущ ряд недостатков. По сравнению с воображением оно несколько теряет в живости и разнообразии. Основным инструментом мышления выступают слова, и не только потому, что они социальны, но и потому, что при употреблении они обязательно выстраиваются в цепочки и входят в привычные действия даже более легко, нежели образы. Благодаря мышлению мы подвергаемся риску оказаться все более и более втянутыми в поиск утверждений общего характера, имеющих мало общего с реальным и конкретным опытом. Если нам не удается придерживаться методов мышления, то реальна опасность ограничить себя частными примерами и стать игрушкой воли случая».

Ф.Бартлетт (1932)

В языке и мышлении мы кратко выражаем или условно представляем сложные ситуации и целые эпизоды с помощью слов и символов. Далеко не все слова, видимо, могут «определяться» с помощью простых и изящных структур; например, лишь весьма незначительный в своей полноте смысл понятия «торговля» может быть установлен исходя из следующих выражений:

Первый фрейм Второй фрейм

А имеет X, В имеет Y ---> В имеет X, А имеет Y

Торговые сделки производятся на основании определенных социальных законов, в обстановке доверия и обоюдного согласия. Если эти факты не получат должного отражения, то многочисленные торговые операции будут почти бессмысленными. Важно знать, что стороны, участвующие в сделке, обычно не против иметь обе обмениваемые вещи, но вынуждены пойти на компромисс. Счастливым, но необычным является такой вариант, когда каждый из торговцев стремится избавиться от своего товара. Чтобы представить стратегию торговли, можно включить в вышеприведенный сценарий, который состоит из двух фреймов, основное правило торговли; для того, чтобы А смог заставить В пожелать приобрести больше Х (или отдать больше Y), ему следует придерживаться одной из следующих тактик:

Предложить больше за Y.

Объяснить, почему Х очень полезен для В.

Создать благоприятный для В побочный эффект от наличия у него X.

Демонстрировать свое пренебрежение конкурирующими с Х товарами.

Заставить В думать, что С хочет получить X.

В этом, однако, заключается только лишь поверхностное рассмотрение проблемы. Торговля обычно производится в рамках сценария, действия которого связаны друг с другом значительно сложнее, нежели просто последовательной цепью событий. Одного из таких сценариев будет явно недостаточно; когда возникает мысль о торговле, важно знать, какой из имеющихся сценариев будет, по всей вероятности, наиболее полезен.

Е.Чарняк(1974) рассмотрел вопросы, связанные со сделками: сделки на первый взгляд достаточно просты для понимания, тем не менее, они могут быть представлены только с помощью структур, богатых заданиями отсутствия. В учебниках для младших школьников можно найти такие рассказы, как, например:

Джейн была приглашена к Джеку на день рождения.

Она подумала, понравится ли ему воздушный змей.

Она пошла в свою комнату и потрясла копилку.

Из копилки не донеслось ни звука.

Большинство читателей понимает, что Джейн нужны деньги, чтобы купить Джеку в подарок воздушный змей, что в ее копилке нет для этого денег. Е.Чарняк предлагает ряд способов для облегчения вывода подобных фактов, например: использовать «демон» подарок с помощью которого может выполняться поиск вещей, приобретаемых за деньги, или демон, связанный с копилкой, который «знает», что если ее трясут и из нее не доносится никаких звуков, то она пуста, и т.д. Демон (Е.Чарняк, 1974) — это утверждение процедурального типа, ассоциируемое с некоторым понятием семантической сети. Например, демон «дерево» может быть связан с понятием весна и отражать следующую причинно-следственную связь: «Когда весна полностью вступает в свои права, начинают цвести плодовые деревья». Несмотря на то что теперь слово подарок активирует понятие деньги, сами они в рассказе не фигурируют и это может вызвать удивление. Подарок определенно связан с днем рождения, а деньги — с копилкой, но каким образом строятся эти длинные цепочки рассуждений? Это еще одна из проблем, затронутых в работе Е. Чарняка. Приятель говорит Джейн:

У него уже есть воздушный змей

Он заставит тебя отнести его обратно.

Какой воздушный змей надо будет отнести обратно?! Мы не хотели бы, чтобы Джейн вернула старый змей Джека. Чтобы разобраться в том, какое слово заменено здесь местоимением «его», нужно, в рамках предполагаемого сценария понять очень многие вещи. Ясно, что слово «его» относится к новому воздушному змею, который должна купить Джейн. Но каким образом мы об этом узнаем? (Заметьте, что совсем не обязательно требовать единственного объяснения). Обычно местоимения относятся к последнему из упомянутых ранее объектов, но, как показывает данный пример, это отношение не определяется просто лишь локальным синтаксисом.

Предположим, что мы пытаемся заполнить конкретными заданиями пробелы в субфрейме «покупка подарка». Само по себе слово «его» недостаточно информативно, но группа слов «взять его обратно» вполне подошла бы для согласования соответствующего терминала сценария покупка. Поскольку задания этого терминала должны одновременно удовлетворять маркерам терминала «подарок», мы убеждаемся в правильности вхождения слова «его» (подарок) в словосочетание «отнести Х обратно». Таким образом, тот факт, что отнести следует новый воздушный змей, устанавливается автоматически. Конечно, так же, как и у всех других, у искомого терминала имеются свои собственные ограничения. Субфрейму «покупка подарка» для идиомы «отнести его обратно» должно быть известно, что действие «отнести Х обратно» предполагает следующее:

X куплен недавно.

Возврат производится по месту покупки.

У вас должен быть товарный чек и т.д.

Если текущий сценарий не содержит терминала «отнести его обратно», следует найти и использовать другой сценарий, сохранив по возможности наибольшее число прежних заданий. Отметим, что при нормальном выполнении процесса согласования вопрос о старом воздушном змее здесь попросту не возникнет. Ощущение двусмысленности появляется только тогда, когда рассматриваются отклонения, близкие к неправдоподобным.

Е. Чарняк предложил аналогичное решение; он, однако, подчеркивает важность понимания того факта, что поскольку у Джека уже есть воздушный змей, ему вряд ли нужен будет еще один. Е. Чарняк предлагает использовать следующие правила, связанные со словом «подарок»:

(A) Если мы видим, что подарок Х не нравится лицу Р, то следует ожидать возврата Х в магазин, где он был куплен.

(B) Если возврат Х в магазин предполагается или является установленным фактом, то причина этого в том, что Х не нравится Р.

Автор этих правил считает, что подобные «советы» процедурального типа должны реализовываться как дополнение к сведениям декларативного характера, хранящимся в базах данных, и вызываться в ситуациях, соответствующих определенным контекстам. Если все предшествующие условия для таких «советов» выполнены, то включенные в них действия привнесут то количество информации (о Джеке, о воздушном змее), которое достаточно, например, для правильного разрешения вопроса с местоимением «его».

Е.Чарняк придерживается того мнения, что система должна следить за определенными типами событий и ситуаций и использовать в своей работе сведения о возможных причинах, мотивах и объяснениях происходящего. Он предполагает, что дополнительные взаимосвязи между фрагментами рассказа должны помочь процессу согласования в тех случаях, когда «правдоподобные» предположения заводят в тупик формальные логические процедуры. Допуская, например, что утверждение «X не нравится» является следствием того, что «X возвращён назад». Чарняк надеется таким путем получить возможность имитации понимания обычных или повседневных событий. Пока еще не ясно, насколько должны быть сложны и разнообразны механизмы выработки правдоподобных заключений для понимания действий заданного уровня общности, работа Е.Чарняка(1974) также не дает ответа на этот вопрос, поскольку в ней рассматриваются лишь относительно простые вопросы моделирования мыслительных процессов. Е.Чарняк в большинстве случаев предлагает ограничиваться установлением причины или мотива поведения и не проводить более углубленный анализ, если в том нет необходимости. К примеру, если надо установить, почему Джек может возвратить второй воздушный змей, достаточно выяснить то, что он ему не нравится. В то же время более глубокий анализ мог бы показать, что Джек хотел бы получить в подарок разные вещи, поскольку их ценность в данном случае (когда предполагается только один подарок — от Джейн) значительно выше ценности одинаковых вещей.

2.7. Более сложные сценарии

Смысл празднования дня рождения ребенка весьма приближенно передается тем определением, которое можно найти, например, в толковом словаре: день рождения — это «прием гостей, устраиваемый по случаю дня рождения». Прием здесь может, в свою очередь, толковаться как «люди, собравшиеся по случаю праздника». В этом определении отсутствуют следы какой-либо деятельности, т. е. то, без чего невозможна сама жизнь. Дети знают, что такое определение должно включать в себя большее число различных конкретных данных; это может быть реализовано с помощью таких заданий отсутствия, как например:

Одежда Воскресная, самая лучшая Подарок Должен понравиться хозяину, должен быть куплен и красиво упакован Игры Жмурки, салочки Украшение Воздушные шары, гирлянды цветов, банты, креповая бумага. Угощение Пирог, мороженое, лимонад, бутерброды с горячими сосисками. Развлечения Свечи, задуть свечи, высказывать пожелания, петь песни, посвященные дню рождения. Мороженое Обычное, ассорти

Эти компоненты типично американского дня рождения следует включать в более крупную структуру. Поскольку день рождения обычно празднуют в течение одного дня, его следует поместить во фрейм соответствующего дня. Обычно день включает в себя такие основные события, как

Подъем, Одевание, Завтрак, Поездка на работу. Обед и т.д.

День школьника содержит более определенные данные:

Подъем, Одевание, Завтрак, Поездка в школу, Пребывание в школе. Класс, Сбор, Английский язык. Математика, Обед, Естественные науки, Перерыв, Физкультура. Возвращение домой. Игры. Ужин. Домашняя работа. Приготовление ко сну. Сон.

Очевидно, что день рождения не вписывается во фрейм дня школьника. Родители знают, что угощение во время дня рождения приурочивается к обеду. Однако я хорошо помню ребенка, который, видимо, не понимал этого и, плотно поев во время угощения, все время спрашивал, когда же, наконец, будет обед.

Возвратимся к проблеме с воздушным змеем. Первая фраза, которую мы слышим, несет в себе информацию о том, что Джейн приглашена на день рождения к Джеку. Без разработанного сценария дня рождения или, по крайней мере, без сценария «пригласить в гости», второе предложение:

Она подумала, понравится ли ему воздушный змей, оказалось бы несколько загадочным. Чтобы попытаться объяснить, каким образом человек может быстро сообразить, в чем здесь дело, я предлагаю в состав фрейма, имеющего структуру сценария, явным образом включать Указатели на те вопросы, которые обычно тесно связаны с этим фреймом.

Допустим, что терминалы фреймов представляют собой именно такие вопросы, и рассмотрим эту идею более подробно. Для приема гостей в день рождения лица Х получится следующая схема:

Y должен приобрести Р для X Выбрать Р! Р должно понравиться лицу Х Будет Х рад видеть P? Купить Р Где купить Р? Достать деньги для покупки Р Где достать деньги? (Подвопросы для данного фрейма) У должен быть одет Что следует надеть У?

Именно эти вопросы будут в первую очередь одолевать человека, который приглашен в гости.

Читателю предоставляется возможность подумать, насколько приемлемо сделанное выше предложение о включении указателей в состав фрейма. Действительно, вопрос «Будет ли Х рад видеть Р», вне всякого сомнения, согласуется с фразой «Она подумала, понравится ли ему воздушный змей» и правильно соотносит параметр Р с его значением «воздушный змей». Вместе с тем важно понять, можно ли считать окружающий нас мир настолько систематизированным, чтобы, составив подобные группы вопросов, ожидать от предложенного механизма хорошей работы? Мне кажется, что ответ здесь должен быть двояким. И в самом деле, с одной стороны, мы убеждены в существовании большого числа подобных вопросов, а с другой — не в силах предвидеть все возможные в такой ситуации варианты. Специальные проверки или «экспертизы» предназначены для того, чтобы получить представление о характере основных проблем и их взаимосвязях в малоизвестных нам ситуациях. Обратим внимание на то, что в нашем фрейме-сценарии «день рождения» нет заданий отсутствия для тех событий, которые могут происходить в какой-то определенный момент времени. Это акцентирует наше внимание на тематических вопросах и вопросах включения во фреймы соответствующих заданий терминалов. В любом случае, видимо, не обойтись без более действенного механизма для понимания слова «подумала», механизма, который сможет, располагая информацией, сосредоточенной в данном фрейме, выработать предположения о том, что же могла подумать Джейн.

Третье предложение рассказа («Она пошла в свою комнату и потрясла копилку») также должно согласовываться с одним из вопросов фрейма. Здесь имеется указанная явным образом связь между понятиями «деньги» и «копилка», поскольку она, видимо, содержится во фрейме «копилка», а не во фрейме «день рождения». Будучи обнаруженной, она будет сопоставлена с вопросом: «Где достать деньги?»

Основная функция копилки состоит в накоплении денег с тем, чтобы их в нужный момент можно было взять обратно. Последнее действие может быть осуществлено тремя основными способами:

1. Использовать ключ (что в большинстве копилок не предусмотрено).

2. Разбить копилку (чего дети обычно не любят).

3. Вытрясти деньги или использовать тонкий предмет, по которому монеты могут выскользнуть из копилки.

Рассмотрим, наконец, четвертое предложение («Из копилки не донеслось ни звука»). Знает ли человек о том, что та копилка, из которой при тряске не доносится звуков, пуста (я полагаю, что это именно так), или же он пользуется общими сведениями, именно, что пустым является любой пустотелый ящик, не издающий звуков при тряске? Мне известны многие люди, которые предпочитают второй вариант. Использование этого логического «универсального» принципа было бы достаточным; я, однако, чувствую, что при этом будет упущено из виду то важное обстоятельство, что конкретный сценарий такого характера крепко врезается в память каждого ребенка. Более того, наш рассказ сразу же становится понятным большинству читателей, чего нельзя было бы столь же категорично утверждать, если бы они использовали более сложные рассуждения, базирующиеся на общих принципах. Можно привести примеры, значительно более трудные, нежели предыдущий, например:

Коза забрела в огород, где что-то красил Джек, и опрокинула краску на себя. Когда мать увидела козу, она спросила: «Джек, это ты сделал?»

Здесь нет ни одного слова или фразы, к чему бы вносилось местоимение «это». Е.Чарняк(1974) отмечает, что оно, видимо, относится к «той причине, по которой и коза оказалась измазанной краской», и, не указывая, каким образом следует пытаться решать проблемы такого рода, отмечает лишь то, что для подобных слабоограниченных микромиров его концепция «демонов» должна быть значительно расширена. Обратите внимание, как много должен знать человек об окружающем его мире, чтобы понять, что «это» относится не к «козе во дворе», а к «козе, измазанной краской». В той же работе Е.Чарняка изучаются вопросы активации демонов в соответствии с имеющимися в них ожиданиями и знаниями в виде заранее заготовленных значений, многие из его идей нашли отражение в настоящей работе.

Попытаемся провести параллель между тем, как Е.Чарняк трактует проблему понимания естественного языка, и зрительным восприятием образов. Существенные для проведения рассуждений тематические структуры или сценарии вызываются из памяти с помощью ключевых слов или ценных для этих рассуждений идей. Отдельные утверждения способствуют возникновению временных представлений, которые, по всей вероятности соответствуют тому, что современная лингвистика именует «глубинными структурами», и которые могут быстро изменяться или совсем исчезать по мере уточнения и развития основной идеи в рамках выбранного сценария. Среди ингредиентов такой структуры можно выделить в порядке увеличения масштабности охвата событий следующие уровни:

1. Поверхностные синтаксические фреймы — главным образом, это структуры с глаголами и существительными. Для них необходимы соглашения о предлогах и порядке следования слов в предложении. Напомним, что английский язык отличается строгим порядком следования слов в предложении, отклонениями от которого подчёркивается его особая семантическая окраска.

2. Поверхностные семантические фреймы — группы слов, объединенные вокруг действий. Необходимы определители и отношения для действующих лиц, инструментов, траекторий, стратегий, целей, последствий и побочных явлений.

3. Тематические фреймы — это сценарии для видов деятельности, окружающих условий, изображений кого-либо или чего-либо, наиболее важных проблем, обычно связанных с данной темой.

4. Повествовательные фреймы — это скелетные формы для типичных рассказов, объяснений и аргументации. Необходимыми здесь являются соглашения о формах построения повествований, о развитии действий, о главных действующих лицах, основных событиях и т.д., призванные помочь слушателю строить в своем уме новые тематические фреймы и конкретизировать задания отсутствия. В том случае, когда задание не согласуется более в той степени, в какой это необходимо, отдельные предложения могут переозначивать задания терминалов, присоединять другие субфреймы, использовать трансформационные механизмы или вызывать замену фреймов верхнего уровня.

В видении трансформации между фреймами по своей природе просты, они заключаются в переходе от одной группы данных к другой; при изучении языковых форм общения следует предполагать потребность в более сложных и менее регулярных системах фреймов. Тем не менее, поскольку время, причина и действие чрезвычайно важны для понимания смысла, мы часто применяем связанные трансформации для замены ситуаций их временными или причинными последовательными цепочками событий.

Изучение лингвистических структур, по всей видимости, поможет нам лучше понять, как построены наши системы фреймов, по той причине, что синтаксические структурные правила управляют отбором и компоновкой фреймов переходных предложений. С их помощью можно искать эти особым образом связанные с «задающими» терминалами структуры, для чего следует выбирать наиболее важные точки зрения (трансформации), вводить структуры предложений в тематические структуры и изменять крупные тематические представления в целом.

Наконец, по аналогии с известными нам «основными сюжетными линиями» для рассказов должны существовать основные суперфреймы и для проведения рассуждений, аргументации, изложения фактов и т.д. Следует ожидать, что удастся найти особые лингвистические указатели для операций, касающихся этих более крупных структур. Не следует ограничиваться изучением грамматики предложений, если мы хотим найти и систематизировать лингвистические соглашения, действующие в более широких масштабах и связанные с компоновкой и трансформациями сценариев и планов.

2.8. Вопросы, системы и концептуальные случаи

«Вопросы являются следствием определенных точек зрения, они проистекают из чего-то такого, что помогает выяснять неясные моменты, формулировать ответы и уточнять проблематичные вещи. Не следует думать, что наши взгляды на окружающий мир предопределяют его; они выражают только то, что мы принимаем из действительности, и то, как мы ее создаем.»

А.Ньюэлл(1973б)

Область лингвистики подводит нас к созданию такой концепции фрейма, в которой терминалы служат для хранения наиболее вероятных (в некоторой ситуации) вопросов. Разберем более детально эту интерпретацию фреймов.

Фрейм — это множество вопросов, которые необходимо задать относительно предполагаемой ситуации; на их основе происходит уточнение перечня тем, которые следует рассмотреть, и определяются методы, требуемые для этих целей.

Терминалы фрейма соответствуют, видимо, «концептуальным случаям» Р.Шенка(1972), хотя, как мне кажется, их не следует ограничивать столь малым числом типов, как это предлагает Р.Шенк. Чтобы понять действие, о котором идет речь или за которым человек имеет возможность наблюдать, ему часто приходится искать ответы на такие вопросы, как:

В чем причина этого действия (агент)?

Какова цель действия (намерение)?

Каковы последствия этого действия (побочные явления)?

На кого (или что) это действие влияет (получатель)?

С помощью каких средств оно выполнено (инструмент)?

Число таких вопросов или, по Р.Шенку, «случаев», которые полезны для понимания действий, проблематично. Хотя нам нравится сокращать число «примитивов» до весьма малого их количества (по аналогии, видимо с традиционным лингвистическим анализом), я считаю, что в этом случае нет оснований серьезно рассчитывать на успех. Сам я склоняюсь на сторону таких исследователей, как У.Мартин(1974), который исходит из наличия значительного числа «примитивов», снабженных комментариями относительно того, каким образом они связаны между собой. Только время может показать, какая из этих двух концепций лучше.

Что касается сущностей, отличных от действий, то относительно них задают самые различные вопросы, тематически значительно менее локализованные, например:

Почему они говорят мне об этом?

Как я могу выяснить об этом больше данных?

Каким образом это поможет мне в реальной обстановке? и т. п.

В рамках любого рассказа обычно интересуются его темой, отношением к ней автора, главным событием, главными героями и т. д. По мере того, как на каждый подобный вопрос дается предварительный ответ, к фрейму-рассказу присоединяются соответствующие субфреймы и вопросы, которые возникают при этом, становятся, в свою очередь, активными.

«Маркеры», предложенные нами для фреймов зрительного восприятия, приобретают здесь вид более сложных конструкций. Если (временно!) встать на позицию А.Ньюэлла(1973а) и рассматривать понятие «точка зрения» более широко, чем мы это делали до сих пор, то, помимо поиска ответа на какой-либо вопрос, нужно указать, каким образом на него следует отвечать. Следовательно, в терминале должны содержаться данные или предположения о том, где и как следует искать ответы для конкретизации заданий терминалов. В этом случае введенные ранее задания отсутствия играют роль наиболее простых вариантов подобных рекомендаций. Человек обладает целой иерархией таких правил, которая управляется внешними ситуациями и соответствует структурам «предпочтений» Дж.Уилкса(1973).

Для синтаксических фреймов характерно стремление к полной конкретизации заданий своих терминалов, но люди вообще придерживаются более гибких правил.

«Люди обычно не разъясняют всех подробностей той мысли, которую они стремятся сообщить другим, поскольку стараются быть краткими и опускают вследствие этого предполагаемую и несущественную информацию...

Концептуальный процессор использует незаполненные пробелы для поиска определенной информации в предположении или в более крупной единице рассуждения, полезной при их конкретизации» (Р.Шенк,1972).

При зрительном восприятии ситуация аналогична. Наблюдатель не в силах охватить взглядом коробку сразу со всех четырех сторон, и, несмотря на «стремление к краткости», при необходимости может потребоваться осуществление движения вокруг этого предмета.

В соответствии с этой точкой зрения системы фреймов представляют собой точки выбора, соответствующие (на концептуальном уровне) системам взаимно исключающего выбора Т.Винограда(1971). Различные системы фреймов представляют собой различные варианты использования одной и той же информации, локализованной в общих терминалах. Как и в языке, в каждый момент времени следует выделять только один из множества имеющихся вариантов. На концептуальном уровне этот выбор может осуществляться в соответствии с тем, какие вопросы следует задать относительно данной ситуации.

Откуда берутся вопросы? Рассмотрение этой проблемы выходит за рамки настоящей работы, однако, кем бы и как бы ни создавались фреймы, они должны использовать некоторые общие принципы. Методы, лежащие в основе порождения вопросов, в конечном счете, образуют общий интеллектуальный стиль каждого человека. Люди, конечно, во многом отличаются друг от друга, в частности, в том, например, какие вопросы они предпочитают задавать: «Почему?» или «Каким образом я бы мог выяснить кое-что еще?», «Что мне это даст?» или «Каким образом это мне может помочь в достижении более общих целей?» и т. п.

Аналогичные проблемы не могут не возникнуть в отношении стиля даваемых ответов. В простейшей форме стремление к заполнению конкретными данными пробелов терминалов может показаться чем-то похожим на удовлетворение человеком голода или ликвидации неудобств, ибо воспринимается как поиск любого задания, не противоречащего наложенным ограничениям.

Заманчиво представить себе множество систем фреймов, которое включает, с одной стороны, простые шаблонно заполняемые структуры, а с другой — конструкции для реализации «точек зрения» А. Ньюэлла со всей их причастностью к согласованной работе генераторов вопросов, с методиками оценок предлагаемых ими решений, способами их исследования и т.д. Мне представляются не совсем правильными попытки использования одних и тех же видов теоретических построений для работы на различных понятийных уровнях. Нам следует предполагать, что существуют весьма различные механизмы, которые оперируют как нашими стереотипами нижнего уровня, так и всеобъемлющими стратегическими концепциями.

Глава третья

Обучение, память и парадигмы[1]

«Природа дает ребенку различные средства для исправления всяческих ошибок, которые он может совершить по отношению к окружающим его предметам. При каждой возможности его взгляды корректируются опытом; неудача и боль являются непременными спутниками ошибочных взглядов, тогда как удовольствие и наслаждение возникают при правильных суждениях. Имея таких учителей, нам ничего другого не остается, как стать хорошо информированными людьми и быстро научиться рассуждать правильно...

В научной практике наблюдается нечто совершенно противоположное: ошибочные суждения, которые мы вырабатываем, не влияют ни на наше существование, ни на наше благополучие, и никакая физическая необходимость не заставляет нас их изменить. Напротив, воображение, которое вечно старается выйти за рамки истины, в сочетании с самовлюбленностью и самонадеянностью, которые мы так склонны лелеять, побуждают нас делать заключения, которые непосредственно из фактов не следуют...»

А.Лавуазье(1952)

Парадигма (от греч. paradeigma — пример, образец) – система форм изменяющегося слова или целой конструкции в предположении. Здесь этот термин используется для обозначения совокупности различных представлений об одних и тех же объектах или процессах.

Как удается обнаружить фрейм для представления новой ситуации? Очевидно, что мы не можем разрабатывать какую-либо законченную теорию вне рамок глобальной схемы для организации знаний вообще. Если же допустить, что мы работаем в относительно узкой области, то у нас появится возможность обсудить некоторые важные вопросы:

ПРЕДВОСХИЩЕНИЕ: как сделать первоначальный выбор такого фрейма, который бы удовлетворял некоторым заданным условиям.

ДЕТАЛИЗАЦИЯ: как выбирать и конкретизировать субфреймы, чтобы иметь возможность представлять дополнительные подробности.

ИЗМЕНЕНИЕ: где и как искать другой фрейм, если предыдущий подходит недостаточно хорошо.

ОБНОВЛЕНИЕ: что делать, если приемлемого фрейма найти не удается. Можно ли модифицировать один из существующих или надо строить совершенно новый?

ОБУЧЕНИЕ: какие фреймы должны запоминаться в долговременной памяти, а какие модифицироваться в процессе накопления опыта?

Широко распространено мнение, что память — это нечто совершенно отличное от остальной части мышления; однако для того, чтобы создать полезную и эффективную модель памяти, требуются те же стратегические принципы, которые используются при анализе других аспектов мышления.

Мы говорим о человеке, что он умен, если он может быстро находить весьма подходящие фреймы. Система извлечения информации у этого человека работает лучше, чем у других при выработке правдоподобных гипотез, при определении условий, которым должен удовлетворять новый фрейм, и в части использования тех знаний, которые были приобретены на «неудачных» ветвях процесса поиска. Организация удачной модели памяти является задачей не менее сложной, чем решение любых других задач того же класса. Поэтому хороший механизм извлечения информации лишь частично может базироваться на основных «врожденных» механизмах. Он в значительной степени должен зависеть от (приобретенных в процессе обучения) данных о структуре своих собственных знаний. Наше предложение по этому вопросу объединяет в себе ряд компонентов, включая методы распознавания образов, теорию групп и сети подобия.

При зрительном восприятии, например, комнаты или процессе понимания рассказа человек собирает сеть, состоящую из фреймов и субфреймов. В этой сети представляется все, что было замечено, или существует в предположении, будь то правильным или ошибочным. Мы уже отмечали, что активный фрейм, т.е. участвующий в процессе «понимания» системой ИИ (в данном случае) внешней для нее ситуации, не может оставаться таковым, если не выполнены условия, определяемые маркерами его терминалов.

Теперь мы вводим постулат о том, что все фреймы, задания которых конкретизированы в некоторой ситуации, обязательно должны выступать в качестве значений для терминалов фреймов более высоких уровней. Это же относится и ко всем существенным фрагментам «данных», собранным при наблюдении и хранимым в памяти системы ИИ.

Конечно, здесь не может не быть исключений! Мы должны предусмотреть возможность существования определенного числа групп данных, связанных с чем-то подобным регистрам «кратковременной памяти». Следует, однако, помнить, что лишь незначительная часть информации может длительно храниться в памяти, если она не связана с соответствующими фреймами. Предложенная схема концептуальна по своей сути, но, тем не менее, в определенных областях следует допустить существование других типов «зацепок» в памяти и специальных сенсорных буферов.

3.1. Требования к памяти

Мы можем представить себе, что память — это система, управляемая двумя дополняющими друг друга потребностями. С одной стороны, это потребность в правильном представлении объектов (сообщений, новых предметов и пр.), которое осуществляется с помощью подключения их к более крупным фреймам; с другой — потребность в конкретизации заданий терминалов. Остальная часть этой системы будет стремиться сбалансировать их требования, но не столько на базе «общих принципов», сколько в соответствии со специальными знаниями и теми условиями, которые определяются текущими целями.

Если применение какого-либо фрейма окажется неудачным (например, нельзя подобрать нужное задание по какому-то важному условию), следует что-то предпринять, но что? На наш взгляд, существуют следующие возможные пути приспособления фреймов.

СОПОСТАВЛЕНИЕ ОБРАЗЦОВ. Когда ничего более конкретного найти не удается, можно воспользоваться одним из основных механизмов — механизмом ассоциативного поиска. Это может принести успех в относительно простых ситуациях, но должно являться лишь вспомогательным средством при использовании других тактик.

ОПРАВДАНИЕ. Довольно часто может быть найдено объяснение или оправдание неудаче при согласовании. Например, маленький по своим размерам стул может относиться к классу предметов «игрушки».

СОВЕТ. Фрейм содержит четкие указания относительно того, что делать при его неудачном согласовании. Ниже мы рассмотрим обширную «сеть подобия», получаемую в результате обучения и хранящую подобные знания.

РЕЗЮМЕ. Если фрейм нельзя приспособить к реальной ситуации или заменить другим, от него следует отказаться. Но прежде надо четко указать причину отказа или составить резюме так, чтобы в будущем помочь любому процессу в решении задач, связанных с аналогичной переориентацией субфреймов.

На мой взгляд, все эти четыре варианта жизненно необходимы, поэтому дальше я рассматриваю их более подробно.

3.2. Сопоставление образцов

При замене одного фрейма другим не имеет смысла начинать весь процесс согласования заново. Но каким образом можно сохранить то, что было уже ранее установлено? Будем рассматривать лишь тот случай, когда при отсутствии специальных знаний система обращается за помощью к некоторой «общей» стратегии. Ни на один из универсальных методов мы не можем в данном случае возлагать очень больших надежд, но если удастся подыскать такой фрейм, который использует достаточное число общих со старым фреймом терминалов, то некоторые из общих заданий можно будет сохранить и это, видимо, будет лучшим выходом из положения.

Данная проблема может быть сформулирована следующим образом: допустим, что Е есть штраф за потерю одного полностью согласованного терминала, а F — потери от того, что какой-то другой терминал не может конкретизировать свои задания. Тогда, если Е больше F, то любой новый фрейм должен сохранять старый субфрейм. При наличии какой-либо приоритетности среди терминалов типичный запрос на вызов нового фрейма должен включать:

1. Поиск фрейма с возможно большим числом терминалов, общих с конкретизированными терминалами (a, b,… z) старого фрейма и расположенных в порядке убывания их приоритетности.

Следует помнить, что заменяемый фрейм является обычно субфреймом некоторого более крупного фрейма и поэтому должен удовлетворять маркерам того терминала, к которому он подключен. Это предопределяет наличие другой формы обращения к памяти, направленной в ее иерархии скорее вверх, нежели вниз.

2. Поиск или создание нового фрейма, обладающего свойствами (a, b,…, z).

В том случае, когда мы в большей степени подчеркиваем различия, а не их общие характеристики, можно объединить оба правила в одно:

3. Поиск нового фрейма, во всем подобного старому фрейму, за исключением различий (a, b, …, z) между ними.

Реализация правил 1 и 2 может быть выполнена с помощью процесса поиска в памяти с параллельной выборкой или хаш-кодированием (метод функции расстановки), если терминалы или свойства (a, b , ..., z) — простые атомарные понятия. (В любом случае должен существовать какой-то механизм для поддержания работы генерирующих программ или для одного из видов сопоставления образцов). К сожалению, для осуществления всего этого имеется так много различных способов, что нельзя указать на какие-нибудь характерные для данных целей требования к конструктивным особенностям этих механизмов.

Хотя правила 1 и 2 формально являются частными случаями правила 3, на практике они различны, поскольку для работы со сложным правилом 3 требуются знания о том, каковы же эти различия (a, b, ..., z). Действительно, последнее правило слишком сложно, чтобы его можно было использовать по той схеме, как это предполагалось выше: я приведу доводы в пользу того, что следует в большей степени полагаться на особые, выявленные в процессе обучения различия между парами фреймов, чем на общие принципы.

Нужно еще раз подчеркнуть, что оснований считать реальной возможность быстрого достижения успеха практически нет. Для решения новых и трудных задач необходимо построить новую структуру представления, а это потребует применения как общих, так и специальных знаний. Работа П.Фримэна и А.Ньюэлла(1971), в которой рассматривается проблема конструирования структур, дополняет данную работу в одном важном направлении. В ней рассматривается вопрос о том, каким образом следует создавать структуры, удовлетворяющие наборам функциональных требований, т. е. условиям, связанным с достижением целей, в дополнение к тем требованиям, которые определяются необходимостью использования определенных субфреймов и символов.

3.3. Оправдание

Можно допустить, что фрейм представляет собой «идеальный» образ реального предмета или явления. В том случае, когда какой-то фрейм не может быть согласован с действительностью (по своей природе все идеальное — ошибочно), он должен быть заменен другим фреймом. Особенность «идеальных» образов заключается в том, что они являются превосходными упрощениями действительности; они привлекательны своей простотой, но реальные возможности и преимущества таких структур зависят от дополнительных знаний об их взаимодействии между собой. Следовательно, у нас нет особых причин отказываться от такого «идеального» образа только потому, что не удалась попытка заполнения конкретными данными всех его пробелов, правда, если при этом подобные расхождения можно объяснить, прибегнув к помощи межфреймовского взаимодействия. Ниже приводятся примеры, в которых «оправдание» такого рода может помочь при неудаче процесса согласования.

ЗАСЛОНЕНИЕ. Мы знаем, что у стола четыре ножки. Однако стоящий рядом стул может заслонять одну из них; чтобы убедиться в правильности такого «оправдания», можно попытаться найти Т-образные соединения элементов конструкций или проанализировать тени от этих предметов.

ФУНКЦИОНАЛЬНОЕ НАЗНАЧЕНИЕ. Геометрически ножка стула представляет собой обыкновенный брусок, но что более важно, в функциональном отношении она представляет собой опору. Поэтому в качестве приемлемой замены для всех ножек можно предложить конструкцию, состоящую из центрального стержня и прикрепленной к нему сверху пластины. Многие предметы могут использоваться для самых различных целей, поэтому в их описании должен преобладать функциональный, а не физический подход.

ПОЛОМКА. Отсутствие необходимых деталей можно объяснить либо тем, что их просто нет, либо тем, что они поломаны. В реальной жизни существует огромное число причин — ниспровергателей наших идеальных представлений.

ПАРАЗИТНЫЕ КОНТЕКСТЫ. Предмет, отличающийся от стула только лишь размерами, может быть (и, видимо, является) игрушечным стулом. Сетование на то, что кто-то или что-то является «слишком маленьким», может быть неправильно интерпретировано с помощью контекстов, содержащих другие предметы из мира детей и их игр.

В большинстве этих примеров для исправления заданий и сохранения текущего фрейма используются знания достаточно общего типа; они могут быть присоединены к фреймам более высоких уровней. В дальнейшем упор будет сделан на более локальные типы знаний, которые естественно разместить в самом фрейме в целях выработки рекомендаций относительно его собственной замены.

3.4. Суждения и сети подобия

«Подтверждение правильности утверждения Наполеона (если оно вообще принадлежит ему) о том, что люди, пытающиеся представить себе любое событие во всех его будущих подробностях, не имеют данных для того, чтобы стать командирами, следует искать именно в первой части этого высказывания. Командир, ожидающий, что ход сражения будет протекать точно так же, как и раньше, через две минуты после его начала обнаружит нечто совсем иное. Его ожидания не оправдаются, а в запасе будет в лучшем случае еще одна схема, да и та не сможет быть ему полезной длительное время. Не менее правдивым может оказаться и такой вариант, когда после первой неудачи этот горе-командир вспомнит сразу так много различных примеров, что не будет знать, как поступить в данном конкретном случае. Слишком конкретизированный опыт прошлого создает такие же затруднения, как и его полное отсутствие. Для правильного удовлетворения требований постоянно меняющейся обстановки мы должны не только уметь выделять те объекты и явления, которые имеют отношение к переменам, но и знать, какие их части (свойства) могут развиваться и изменяться, не нарушая при этом общего смысла и функциональной значимости».

Ф.Бартлетт(1932)

При перемещении по знакомой квартире нам известна структура поиска информации, основанная на фрейме комната. Когда мы проходим через дверь D комнаты X, то ожидаем, что очутимся в комнате Y (конечно, если D не является наружной дверью). Этот факт может быть представлен с помощью трансформации простейшего типа, состоящей из указателей между двумя фреймами комнат в рамках системы фреймов типа дом.

Если дом, где происходит действие, ранее не был знаком, то в своих рассуждениях логично переместиться вверх на один классификационный уровень и использовать следующее правило: когда вы выходите из одной комнаты, обычно следует предполагать лишь то, что вы очутитесь в какой-то другой комнате и не более. Недостаточность конкретной информации может быть преодолена использованием обобщений типа классов ситуаций; если же вернуться к незадачливому командиру Ф.Бартлетта, то описанная у него дилемма разрешается применением некоторой формы абстракции или обобщения.

В некотором смысле использование обобщений (классов) является неизбежным: если конкретная информация отсутствует, человек обращается к классам как к теории «первого порядка», лежащей в основе любых сложных моделей. К счастью, нет необходимости использовать классы явным образом, что могло бы повлечь за собой определённые неприятности. Если рассматривать класс в буквальном или строго математическом смысле, то это вовлекает нас в проблему иерархии, основанную на включении в нее различных понятий; порядок в такой системе будет неудовлетворительным из-за различным образом связанных между собой концепций, находящихся в разных контекстах. Этот вывод справедлив также для процедур и фреймов. Нам следует стремиться к тому, чтобы не оказаться связанными с подобными негибкими классификаторами знаний.

П.Уинстон(1970) предложил способ создания системы поиска информации, в которой могли бы быть представлены классы и обеспечен ряд дополнительных возможностей. Указатели поиска информации в такой системе можно приспособить для выражения целевых условий и результатов действий, а также для определения принадлежности понятий к определенным классам. Поскольку эта идея известна еще далеко не всем, я попытаюсь объяснить ее на примере, взятом из работы П.Уинстона(1970).

Что означает ожидать увидеть стул? Обычно то, что он состоит из четырех ножек, нескольких перекладин, сидения и спинки, находящихся друг с другом в определенных отношениях. Например, ножки должны опираться на пол и находиться ниже, а спинка выше сидения; само сидение должно располагаться горизонтально, спинка — вертикально и т. д. Предположим теперь, что система зрительного восприятия не смогла обнаружить спинку: все есть (четыре ножки, ровная поверхность — сидение), а спинки нет. «Различие» между тем, что мы видим, и тем, что мы ожидали увидеть, состоит в отсутствии требуемого числа спинок, а это свидетельствует скорее о наличии не стула, а скамьи или стола.

П.Уинстон считает целесообразным снабдить каждое описание, находящееся в памяти, указателями к другим описаниям, причем каждому указателю должен соответствовать свой маркер отличия между связанными им парами понятий. Если в процессе согласования фрейма встретятся какие-либо затруднения, то они должны согласовываться с указателями, выходящими из данного фрейма; это может снабдить систему предложениями по выбору более подходящего фрейма. П.Уинстон назвал образующуюся при этом структуру сетью подобия.

Он предлагает поручить компьютеру вести упорядоченное сопоставление находящихся в памяти моделей во время его «холостого хода» и при выявлении между ними существенных различий вводить соответствующие указатели.

Та же информация может быть получена и в процессе согласования какой-либо реальной ситуации с хранимыми в памяти данными, ибо следующие одна за другой попытки дают результаты далеко не во всем отличные друг от друга, а различия эти всегда можно зафиксировать. Таким образом, в процессе обычного использования содержащихся в памяти данных можно получать дополнительные сведения и использовать их для расширения сети подобия. Если процедура образования новых указателей чувствительна к записи различий, относящихся к достижению цели, то результат будет еще более ценным, ибо появится возможность реализации механизма обучения на основе собственного опыта.

Можно ли на практике создать сети подобия? На первый взгляд кажется, что это может привести к неограниченному росту требуемого объема памяти. И в самом деле, если имеется N фреймов и К типов различий, то общее число указателей может достигнуть величин KNN и следует опасаться того, что:

1) если N велико, скажем, равно 107, то NN будет слишком велико и объем требуемой памяти, по крайней мере, для людей, может оказаться попросту нереальным;

2) для устранения какого-то различия или согласования фрейма может потребоваться такое большое число указателей, что система окажется малоэффективной ввиду ее плохих избирательных свойств;

3) само К может быть весьма велико в том случае, когда параметры системы вариативны.

Фактически же ни одна из этих проблем не представляется достаточно серьезной, если рассматривать их по отношению к возможностям человеческой памяти. По современным представлениям (правда, еще недостаточно обоснованным) скорость накопления информации в долговременной памяти человека такова, что вопрос о ее насыщении затрагивать вообще не следует.

Реальность состоит в том, что нам не только не грозит опасность насыщения, но, как это ни парадоксально, связей может просто не хватить! Более того, нельзя рассчитать, во-первых, что мы получим достаточно времени, чтобы установить все требуемые связи, и, во-вторых, что каждое нуждающееся в указателе различие будет в действительности им обладать. Ниже мы рассмотрим вопрос о том, как следует хотя бы частично обойти эту проблему.

3.5. Группы, классы и географические аналогии

«Несмотря на то, что рассмотрение некоторых признаков, свойственных ряду таких категорий, как игры, стулья или листья, часто помогает нам узнавать, каким образом следует использовать то или иное понятие, не существует каких-то определенных совокупностей характеристик, одновременно применимых ко всем элементам данного класса и только к ним одним. Если мы сталкиваемся с ранее неизвестным нам видом деятельности, то используем для его представления тот термин, например „игра“, который соответствует группе похожих действий и, как мы знаем, носит это название. Короче говоря, игры, стулья и листья являются естественными семействами, каждое из которых определяется сетью перекрывающихся, перекрещивающихся одних и тех же признаков. Существованием такой сети объясняется наша успешная идентификация объектов или действий».

Т. Кун (1975)

Чтобы организовать более «полное» функционирование сети подобия, рассмотрим следующую аналогию. В городе каждый человек может посетить любого другого жителя; однако мы не строим пути между всевозможными парами домов, а объединяем группы домов в «кварталы». Мы не соединяем один квартал с другим своей собственной дорогой, ибо знаем, что должны существовать улицы «совместного пользования». Мы не связываем дорогами один город с другим, а прокладываем магистрали между наиболее крупными областными (или другими) центрами. В пределах такой организации каждый ее член непосредственно соединен с другими на своем собственном «уровне», в первую очередь с теми, кто по смыслу наиболее им близок; кроме того, каждый индивидуум связан по крайней мере с небольшим числом ключевых членов групп более высоких уровней. Таким образом, между любыми двумя элементами сети существует (если вообще существует!) весьма короткий путь, состоящий из небольшого числа последовательных связей.

При решении задач поиска в подобных структурах используется иерархия связей, похожая чем-то на ту, что заложена в каждом почтовом адресе. Любой человек обладает определенными сведениями о каких-то обобщенных понятиях, например, он знает, где в его стране расположены наиболее крупные города. Населению крупного города обычно известны многие пригородные центры, а их жителям — близлежащие деревни. Ни одному из нас неизвестны все возможные в городе пути между любыми двумя домами, но зато человек может без труда запомнить самый короткий путь к своему другу, живущему в другом городе; этот путь будет лучше (короче), нежели тот, который согласно общему правилу должен проходить через главный населенный пункт его района. Для решения таких проблем используются адресные книги, с помощью которых выбираются стандартные маршруты между основными узлами в сети. Индивидуальные маршруты могут пролегать в обход главных узлов через хорошо знакомые пункты. И поскольку наши разветвленные службы транспорта успешно справляются со своими задачами, те же стандартные маршруты обеспечивают сравнительно небольшое число пересадок при движении из одного произвольного пункта в другой.

На каждом уровне имеются свои центры или капитолии. Они составляют основу групп следующих иерархических уровней. Например, между городами Нью-Хейвен и Сан-Хосе нет беспосадочной авиалинии, поскольку более рационально использовать магистральную воздушную трассу между Нью-Йорком и Сан-Франциско. Оба этих крупных города являются капитолиями на данном уровне объединения.

По мере роста сети следует ожидать, что появится необходимость в объединении тех элементов, на которые направлены наши указатели подобия. Решения относительно того, что считать главными отличительными признаками, а что второстепенными, будут оказывать значительное влияние на возможности всей системы в целом. Эти решения, накапливаясь, формируют концепты наших представлений об окружающем мире.

Таким образом, дивергенции и конвергенции указателей подобия, которые носят неслучайный характер и связаны с каждым D-различием, объединяют наш концептуальный мир вокруг d-групп и d-капитолиев. Отметим, что идеальным является вариант, когда в одной группе сосредоточены такие капитолии, для которых не существует ни одного более общего для них всех атрибута. В этом случае перекрестные «сходства» являются следствиями локальных соединений в нашей сети подобия. Они, несомненно, достаточны для объяснения того, каким образом мы можем предполагать, что же такое стул или игра, хотя не всегда при этом способны «логически» определить это понятие как элемент в некоторой иерархии классов. Для отражения в сети четких определений не требуется явная согласованность концептуальных групп, однако, она может понадобиться для преодоления затруднений при ориентированном на различия поиске путей, ведущих к поставленной цели.

Выбор капитолиев соответствует выбору таких стереотипов или типичных элементов, чьи заранее заготовленные значения (задания отсутствия) чрезвычайно полезны. Например, формы стульев могут быть самыми разными, поэтому следует тщательно отбирать те фреймы, которые могут стать главными капитолиями в «мире» стульев. Они будут использоваться для быстрого согласования и установления приоритетности среди самых разных различий. Те черты, который относятся к центральному элементу группы и имеют низший приоритет, либо отражают несущественные и в большинстве случаев отсутствующие свойства для всех типов стульев, либо, если требуется большая точность, служат в качестве указателей на локальные «города» и «деревни» в мире стульев. Указатели различия могут носить функциональный, а не только геометрический характер. Поэтому после первой неудачной попытки отнести заданный предмет необычной формы к классу «стулья», человек может проверить применимость к нему следующего функционального правила: «стул есть нечто такое, на чем можно сидеть». Это потребует проведения более глубокого анализа с привлечением таких понятий, как сила и сопротивляемость действию силы. Конечно, этот анализ не будет охватывать игрушечные стулья и стулья с таким утонченным украшением, что о применении их для сидения не может быть и речи. Их лучше рассматривать с помощью метода «оправданий», при котором причина ищется не в виде геометрических или функциональных объяснений, а на основе контекстов, связанных, например, с миром искусства или играми.

Важно подчеркнуть, что нет оснований ограничивать структуру памяти иерархией одного и того же вида, а понятие «уровень» объединения может не совпадать для разных типов различий, d-капитолии могут существовать не только в виде явных деклараций, но и в неявной форме, определяемой посредством сходящихся d-указателей, которые задают их местонахождение в структурах данных.

В системе GPS (General Problem Solver — универсальная программа для решения задач) А.Ньюэлла и Г.Саймона(1959) «различия» упорядочены в иерархию неизменной структуры. Если же приоритетность различий определять в зависимости от решаемых задач, то можно на базе тех же структур памяти достигнуть значительно большего; получающийся при этом решатель задач потеряет свое изящество и простоту, что явится своеобразной платой за отход от используемой в системе GPS логики предикатов первого порядка.

Следует, наконец, отметить и тот факт, что нет надобности создавать какой-то особый механизм для организации групповых структур. Можно предположить, что в процессе эволюции ранее образовавшиеся фреймы будут стремиться стать капитолиями для своих более поздних собратьев (если, конечно, это не очень противоречит опыту), поскольку всякий раз, когда использование одного стереотипа оказывается успешным, его центральное положение подчеркивается присоединением еще одного указателя. Иначе говоря, выделение новых центров знаний происходит в значительной степени под влиянием внешних факторов: словарного запаса, поведения окружающих нас объектов, знания общечеловеческой культуры, полученного нами в школе и семье. На каждом этапе структура уже приобретенных знаний оказывает решающее влияние на весь последующий ход их расширения и углубления. Описанные выше группы и формы представления знаний должны возникать в результате взаимодействия механизмов памяти с внешним миром.

3.6. Аналогии и альтернативные описания

Мы рассмотрели вопросы применения различных фреймов одной и той же системы для описания одной ситуации с помощью различных средств: для изменения положения при восприятии зрительных изображений и для смещения акцентов при использовании языка. Например, в эпизоде с волком и ягненком два фрейма используются в ситуационной паре типа «до — после». Иногда при поиске решений мы применяем два или большее число описаний, если ищем какие-то аналогии или используем разные виды анализа для оценки одной и той же ситуации. Для решения сложных задач использование одной проблемной области обычно оказывается недостаточным!

Предположим, что в вашем автомобиле стал разряжаться аккумулятор. Вы полагаете, что произошло короткое замыкание или неисправен генератор. Генератор можно представить себе как механическую систему: ротор снабжен ведомым колесом, приводимым в движение ремнем от двигателя. Тут же возникают вопросы: достаточно ли туго натянут ремень и имеется ли этот ремень вообще? С точки зрения механика выходным элементом является кабель, идущий от аккумулятора к каким-то другим устройствам: исправен ли он, хорошо ли затянуты болты, прижимаются ли щетки к коллектору? С точки зрения электрика генератор должен описываться иначе. Ротор рассматривается не как вращающееся устройство, а как катушка, индуцирующая магнитный поток. Щетки и коллектор выполняют роль электрических переключателей. Выходным параметром является электрический ток, протекающий по паре проводов, которые соединяют щетки, схему управления и аккумуляторные батареи.

Таким образом, ситуация описана нами в двух различных системах фреймов. В одной из них якорь является механическим ротором со шкивом, а другой — проводником в постоянно меняющемся магнитном поле. Одни и те же (или аналогичные) элементы совместно используются терминалами разных систем фреймов, и эти системы могут трансформироваться одна в другую.

Различия между двумя этими системами фреймов существенны. В «электрической» системе фреймов шасси автомобиля всегда соединено с одной из клемм аккумулятора. Тот, кто ставит диагноз о неисправности, должен использовать в своих рассуждениях и действиях оба вида представления. Если ток не течет, то часто это является следствием того, что проводник его не проводит. Для этого случая трансформация приводит к фрейму, с помощью которого можно установить, что прочное механическое соединение исключает обрыв в электрической цепи. Поэтому любое нарушение проводимости, выявленное путем электрических измерений, заставит нас искать неисправность в «механической» системе фреймов. В нашем обычном понимании «исправность» чего-либо есть синоним понятия «механическая исправность» и поэтому проводимый диагноз должен заканчиваться именно в «механической» системе. В конечном итоге мы можем обнаружить неисправное механическое соединение, выявить разболтавшееся крепление проводника, коррозию, износ и т. д.

Но почему генератор должен быть представлен двумя отдельными системами фреймов, а не одной объединенной структурой? Я полагаю, что в рамках таких сложных задач человек не может сразу представлять себе очень большое число различных подробностей. В каждый момент времени человек должен мыслить в пределах разумно простой структуры. Я утверждаю, что любая проблема, которую вообще может решить человек, вырабатывается в каждый момент времени в рамках небольшого контекста и что ключевые операции, используемые при поиске решений, связаны с формированием соответствующей рабочей среды.

Действительно, поиск неисправности в предыдущем примере требует одновременной работы сразу с тремя фреймами: визуальным, электрическим и механическим. Если данные электрических измерений указывают на неисправность механического соединения, то визуальный фрейм используется человеком при ее отыскании.

Существуют ли общие методы построения компетентных систем фреймов? На этот вопрос можно ответить и положительно, и отрицательно! В самом деле, нам известны некоторые во многом очень ценные стратегии для приспособления уже существующих фреймов к новым целям; вместе с тем следует подчеркнуть, что люди не обладают каким-то единым и таинственным механизмом, позволяющим решать все сложные проблемы. Мы не должны впадать в крайность и требовать существования таких теорий человеческого поведения, которые объясняли бы невозможные вещи!

Не следует ожидать, что для любой ситуации можно будет отыскать или, в крайнем случае, построить в точности соответствующий ей фрейм. Нам, однако, предстоит много поработать над этим вопросом; важно напомнить здесь и о том вкладе общечеловеческой культуры, который был сделан ею в разработку вопросов оценивания сложности различных проблем. Опытному механику при выполнении своей обычной работы нет нужды что-либо изобретать; у него уже сформировано представление, например, о двигателе как совокупности систем зажигания, смазки, охлаждения, синхронизации, смешивания топлива, трансмиссии, сжатия и т.д. Система охлаждения подразделяется на схему циркуляции жидкости, воздушного потока и др. Большинство из таких «обычных» проблем решается систематическим применением аналогий, которое обеспечивается трансформациями между парами фреймов-структур. Элементы огромной сети знаний, приобретенных в школе, из книг, в процессе профессионального обучения, а также из других источников, накрепко связаны друг с другом указателями различия и релевантности. Нет сомнения в том, что культура оказывает большое влияние на формирование такой сети благодаря обычному использованию одинаковых слов при объяснении различных мнений об одних и тех же предметах или явлениях.

Что можно сказать о взаимодействии между элементами фреймов-структур, которое тесно связано со всеми рассматриваемыми здесь вопросами? Гештальт-психолог потребовал бы выполнения такого синтеза (на базе имеющихся у человека сведений), при котором двигатель будет представляться как единое целое. Неплохо, однако, для начала вспомнить, что автомеханик сможет выявить неисправность (если вообще сможет ее отыскать), возникшую как результат взаимодействия трех или более элементов двигателя, только после изнуряющей замены многих его исправных частей. Следует признать, что стремление к полным синтетическим представлениям нецелесообразно и не может выступать в качестве требования для теоретических построений. В действительности должна существовать некоторая структура, объединяющая различные концептуальные типы фрейма «двигатель». Но она тоже может быть относительно простой. К уже рассмотренным типам фрейма «двигатель» следует, видимо, добавить еще один — суперфрейм, терминалы которого будут указывать на первые три типа фрейма (электрический, механический и визуальный) и, будучи связанными друг с другом указателями, сообщать, как и когда именно следует использовать эти субфреймы. Каждая сложная «понимающая» система, по всей вероятности, содержит подобные структуры суперфреймов, которые управляют использованием субфреймов.

Заманчивой кажется идея о том, что более крупные понятия формируются на подсознательном уровне человеческого мышления. По наблюдениям X.Пуанкаре, после периода умственной активности, за которым следует более длительный период ее спада, на человека находит внезапное озарение. Подсознательную деятельность (если следовать взглядам X.Пуанкаре) следует рассматривать как комбинаторный эвристический поиск, в котором вероятность успеха зависит в первую очередь от качества ингредиентов, введенных во время активной умственной работы; эти элементы объединяются самыми разными способами до тех пор, пока не будет получена такая конфигурация, которая выдержит определенный вид проверки.

«Я говорил о чувстве абсолютной уверенности, сопровождающем наше вдохновение..., оно часто вводит нас в заблуждения, но мы обнаруживаем это только тогда, когда пытаемся привлечь на свою сторону доказательства».

X. Пуанкаре (1946).

Итак, продуктом вдохновения является не полностью детализированное решение, а «точка отсчета» или план, доведенный до сознательного уровня мышления, потому что он прошел через порог «эстетической разумности».

Что же касается взглядов X.Пуанкаре, то он, видимо, придерживался (по крайней мере, в данном вопросе) концепции холизма, ибо в его понимании «элегантные» математические объекты есть не что иное, как объекты, «элементы которых расположены настолько гармонично, что ум в состоянии охватить их всех сразу, целиком и в то же время представлять себе все возможные подробности». Из нерассмотренных остался еще вопрос о том, требуется ли для работы фильтров, которые передают на сознательный уровень новые описательные комбинации, проведение активного их анализа или действия таких фильтров смогут получить объяснение на основе более простых операций согласования и поиска информации. К несчастью, математики, за исключением X.Пуанкаре, Д.Пойа и некоторых других, не сумели внести значительный вклад в понимание механизмов решения задач. Мне кажется, что это все же не было следствием их приверженности концепции «элегантности», которая передавалась от одного поколения другому как почитаемое, но не объяснимое и не проанализированное качество. В любом случае я не вижу оснований считать, что подсознательная деятельность отличается либо мощными параллельными вычислениями, либо необычным синтезом, предусматриваемым философией холизма. Более правдоподобно выглядит предположение о проводимых на этом уровне быстрых и неглубоких исследованиях с привлечением тех данных, которые были подготовлены в процессе активного анализа материала. Аспект подсознательного может только указать на отсутствие «аннотации» и какой-либо регистрации мыслительных операций: в противном случае мы получили бы возможность рассмотрения и анализа этих процессов. Вопрос относительно сложности фильтров остается, по-прежнему, открытым.

3.7. Резюме. Использование фреймов в эвристическом поиске

За последние десять лет широкое распространение получила идея о том, что важны все аспекты представления информации с помощью «пространства задачи»; однако мысль о том, что описания могут быть полезны и для самих программ, и для авторов этих программ, не стала столь же популярной. Прогресс в понимании этого ключевого момента был фактически задержан остроумными схемами, созданными для того, чтобы избежать явных манипуляций описаниями.

Основным устремлением, особенно при доказательстве теорем и моделировании игр, была разработка средств, ведущих к систематическому уменьшению протяженности поиска в пространстве задачи. Иногда простая задача может быть решена при помощи последовательного перебора допустимых методов решения: перебор производится до тех пор, пока один из методов не даст положительного результата. В более сложных ситуациях используются усовершенствованные локальные правила поведения, а также варианты «восхождения к вершине» в пределах пространства задачи. Однако если нам и удается таким способом решить определенную задачу, мы получаем мало сведений о пространстве задачи и, следовательно, не повышаем свою квалификацию, что весьма пригодилось бы нам в будущем. Наиболее разработанными в эвристических методах являются игровые методы поиска решений, в которых используются различные стратегии для уменьшения дерева перебора, оценки терминальных вершин и выработки разумного хода. Однако даже в тех системах, где применяются различные способы организации иерархий символьных целей, отсутствует «осознанный» самой системой подход к процессу поиска решений и не совершенствуется качество представления информации. Я предлагаю следующее более совершенное и мощное правило.

Главной целью при решении задач должно быть стремление лучше понять пространство задачи и найти такие представления, в рамках которых данная задача решается довольно просто. Цель поиска состоит в том, чтобы получить информацию для формирования надлежащего представления, а не для нахождения решения, как это обычно предполагается; после того, как удастся соответствующим образом представить это пространство задачи, решение найти будет значительно легче.

В частности, я являюсь противником того, что значимость интеллектуального эксперимента должна оцениваться либо относительно категорий «неудача — частичный успех — успех», либо с помощью таких понятий, как «улучшение ситуации» и «уменьшение различия». Применение какого-то метода или изменение представления могут быть ценными лишь в том случае, когда они ведут к совершенствованию стратегии проведения последующих экспериментов. В более ранних формулировках роли стратегий в эвристическом поиске эти возможности не были выделены, хотя в неявной форме они содержались в рассуждениях о задачах планирования.

Каким образом можно объединить новое правило с классической стратегией минимакса? Пусть мы находимся в определенном узле А дерева решения (играя в какую-нибудь игру, например, шахматы) и исследуем два (или более) возможных хода, скажем В и С. Каждый из этих ходов получает значения оценок V(B) и V(C). Затем оба этих значения объединяются с помощью функции М для того, чтобы выработать одну общую оценку

S(A) = M( V(B), V(C) ) .

По существу, с помощью функции М должны подводиться итоги поиска на всем дереве ниже узла А и определяться оценка позиции А.

Посмотрим, в чем заключается цель подобных действий. Если можно было бы произвести поиск на всем дереве перебора, то мы смогли бы использовать найденную в каждом узле оценку S для принятия решения о том, какой следующий ход лучше всего сделать. Если, однако, оценка S дается просто в виде числа, то на этой основе невозможно будет провести значительные рассуждения, требуемые для анализа существующей ситуации.

Если значение S(B) невелико, то можно предположить, что В — неудачная позиция. Но если мы хотим, чтобы генератор ходов не повторял своих прежних ошибок, сообщение S должно включать некоторую дополнительную информацию относительно того, чем нас не удовлетворяет позиция В или как поступить в данном случае. Нам фактически требуется итоговое объяснение того, что обнаружено в процессе поиска; поскольку мы работаем с деревом перебора, нам требуется также рекурсивное суммирование подобных резюме.

Рассмотрим проблему, названную нами «расхождением резюме». Если резюме для ситуации А содержит (в общем случае) любое явное описание для В и С, то существует опасность того, что любая схема рекурсивного описания будет повторять дерево ходов; это приведет к столь же длительному поиску итогового сообщения, как и поиску самого решения. Чтобы этого не произошло, можно воспользоваться довольно простым способом — ограничить размеры самого резюме. В этом случае следует позаботиться о том, чтобы избежать сильного уменьшения информативности сообщений. Во фреймах-описаниях важные черты и отношения, находящиеся на верхних уровнях, могут служить в качестве резюме, а вспомогательные описания становятся доступными лишь по необходимости. Вопрос о том, какая часть проанализированного дерева должна оставаться в долговременной памяти, а какая отбрасываться после того, как сделан очередной ход, зависит от других аспектов использования участником игры всего накопленного им опыта.

Какие принципы должны лежать в основе образования резюме? И в этом вопросе концепция фреймов демонстрирует свою гибкость. Вместо того чтобы попытаться ограничить сообщения какими-то жесткими форматами, мы можем построить набор «резюме»-фреймов для каждого данного случая; любой фрейм будет вызываться, когда его терминалы подходят к описаниям ситуаций более низких уровней, а маркеры согласуются с текущими целями. Таким образом, каждый из этих фреймов выполняет свою работу только тогда, когда он соответствует текущей ситуации. Например, у человека могут быть самые разные фреймы типа «шахматной вилки». Если конь занимает такую позицию, что угрожает одновременно и шахом, и взятием ладьи, то активируется фрейм вилки, соответствующий следующему условию: при любом из двух возможных ходов теряется та фигура, которая не изменит своей позиции. Как только будет активирован этот фрейм, он может дать конкретную рекомендацию, вероятно, следующего содержания: генератор ходов того игрока, который попадает под вилку, должен выяснить, не может ли какой-нибудь ранее сделанный ход обеспечить защиту того поля, откуда исходит угроза вилки.

3.8. Фреймы в качестве парадигм

«До тех пор, пока не была создана эта парадигма схоластов (средневековая теория „первого толчка“), маятники как таковые не были известны людям, а ученые видели в них только качающиеся камни. Существование маятников было открыто благодаря изменению парадигмы, очень напоминающему переключение гештальта.

Следует ли нам описывать то, что отличает взгляды Галилея от воззрений Аристотеля или Лавуазье от Пристли с позиций трансформации зрительных образов? Действительно ли они видели разные вещи, когда смотрели на одни и те же предметы? Имеются ли у нас какие-то основания утверждать, что они проводили свои исследования, находясь в разных мирах?

Я отчетливо предвижу трудности, которые могут возникнуть в том случае, если предположить, что когда Аристотель и Галилей смотрели на качающийся камень, первый видел в этом лишь несвободное падение тела, а второй — маятник. Тем не менее, я убежден, что нам следует научиться находить смысл в утверждениях, подобных данному утверждению».

Т.Кун (1975)

Согласно предложенной Т. Куном эволюционной модели наука развивается с помощью установленных описательных схем. Крупные открытия являются результатом новых парадигм, новых способов описания вещей, которые приводят к новым методам и методикам. В конце концов, изменяется содержание научного знания.

Т.Кун предпочитает применять свою весьма эффективную схему нового описания на уровне крупных научных революций; мне кажется, что эта идея применима и к проблемам повседневного мышления. Действительно, последнее процитированное предложение Т.Куна подтверждает ту его точку зрения, что в визуальном восприятии парадигмы должны играть не метафорическую, а, скорее, самостоятельную роль, а это именно то, что мы предлагаем в нашей концепции фреймов.

Когда обычно наши воззрения не пригодны, когда не удается отыскать в своей памяти эффективные системы фреймов, нам следует построить новые системы, которые позволят правильно отразить новые реалии. По всей видимости, обычным следует считать способ построения новой системы из двух или более старых систем с последующим редактированием или «доводкой» ее до такого совершенства, когда она во всем будет соответствовать имеющимся обстоятельствам. Но каким образом можно это сделать? Заманчиво сформулировать эту задачу так: построить систему фреймов с наперед заданными свойствами. Подобная постановка задачи может упростить решение, поскольку позволяет разбить его на два этапа: вначале формулировка требований, затем само решение проблемы.

Этот путь, однако, несвойственен процессу человеческого мышления, ибо требования никогда не формулируются все сразу, а новая система не строится по заранее и полностью построенному сценарию. В действительности неудовлетворенные требования осознаются нами последовательно в процессе видоизменения непригодного для нас представления в виде тех или иных недостатков или «дефектов».

Мне кажется правильной мысль С.Пейперта (1972) о том, что способность к диагностике и модификации своих собственных процедур — это важный элемент человеческого интеллекта. (Об этом смотрите работу М.Минского и С.Пейперта (1972)).

«Доводка», фундаментально важный его компонент, обладает своими особыми методами и процедурами. Каждый нормальный человек имеет возможность пользоваться ими в полной мере; в противном случае он не научился бы ни видеть, ни говорить. Обратимся теперь к работам И. Голдштейн (1973) и Дж.Суссмана (1973), в которых рассматриваются вопросы явного использования знаний о доводке при обучении символьным представлениям. В этих работах строятся новые процедуры, которые должны удовлетворять многочисленным требованиям с помощью простых и вместе с тем мощных методов. Перечислим некоторые из них:

1. Первую попытку сделайте с помощью простого объединения процедур, каждая из которых позволяет достигнуть одну определенную цель.

2. Если что-то получается не так как, нужно, попытайтесь представить один из дефектов как особый (и нежелательный) тип взаимодействия двух процедур.

3. Примените тот «метод доводки», который согласно информации, имеющейся в памяти, дает хорошие результаты при исправлении этого особого вида взаимодействия.

4. Составьте резюме по итогам выполненных операций и включите его в хранящуюся в памяти «библиотеку методов доводки».

Эти методы могут показаться несколько наивными, однако в тех случаях, когда новая проблема не слишком отличается от старых, имеются значительные шансы на успех, особенно при правильном подборе процедур — кандидатов на совместную работу. Коли же новая проблема резко отличается от всех предыдущих, то не следует ожидать, что вообще должна существовать такая теория обучения, которая будет хорошо работать в этих условиях. Без структурированного познавательного плана, без «почти промахов» П.Уинстона(1970) и без хорошей подготовки к решению проблем данного типа нельзя ожидать появления совершенно новых парадигм, как бы остро мы в них ни нуждались.

Что представляют собой «виды взаимодействий» и «методы доводки»? Самым простым для них, видимо, следует считать тот случай, когда результат достижения первой цели оказывает влияние на некоторые условия, необходимые для достижения второй цели. В этом случае можно предложить использовать эту предпосылку в качестве нового условия; известны, однако, такие ситуации, в которых применение только этой методики не приведет к успеху, ибо это новое условие несовместимо с первой целью.

Если задать вопрос о наиболее важных задачах в области искусственного или естественного интеллекта, то, на мой взгляд, среди них следует отметить, во-первых, проблему взаимодействия между рассмотренными выше идеями и, во-вторых, использование многочисленных вариантов представления для изучения одной и той же ситуации с нескольких точек зрения. Проведение исследований в этих направлениях потребует новых идей относительно взаимодействий между трансформируемыми элементами. Здесь проявляется определенная ограниченность представления о системе фреймов, взятой в изолированном виде. Образование новых представлений на базе старых является сложным процессом, в рамках нашей теории эта задача может быть решена лишь с помощью сложного предварительного ввода данных (конечно, если ее вообще можно решить). Более того, требуется особое искусство при разработке методов решения данной задачи, которую я считаю одной из основных в теории интеллекта.

Глава четвертая

Управление

4.1. Централизация управления

Выше уже затрагивался вопрос о процессах, которые манипулируют системами фреймов. Далее я не буду касаться тех аспектов, которые связаны с длительным управлением процессами мышления, включая такие проблемы, как многоцелевое управление, распределение времени между задачами, распределение памяти, энергетических и других видов ресурсов.

В значительно более короткие промежутки времени — назовем их эпизодами — деятельность механизмов человеческого мышления и понимания, как я это себе представляю, направлена на то, чтобы отыскать подходящий в данной ситуации (будь то планирование или распознавание образов) фрейм и заполнить задания отсутствия его терминалов конкретными данными. Это дает нам возможность представить крупные проблемы в виде совокупности более мелких, а также затрагивает все обычные вопросы эвристического программирования, например:

ПОИСК СВЕРХУ — ВНИЗ ИЛИ ГОРИЗОНТАЛЬНЫЙ. Следует ли вначале обойти все терминалы или же попытаться осуществить полное заполнение пробелов одного, центрального терминала? В действительности, ни тот, ни другой вариант не следует считать достаточно хорошим. Человек обычно стремится «семь раз отмерить и один раз отрезать», однако всегда должна существовать возможность немедленной обработки субфреймов, вызванных интересным или неожиданным событием.

ЦЕНТРАЛЬНОЕ УПРАВЛЕНИЕ. Должен ли фрейм после своей активации взять на себя управление и руководить заполнением своих собственных пробелов, или же эта операция должна вестись под руководством какого-то центрального процесса? И здесь ни одна из этих двух стратегий не является наилучшей. Ни демон, ни любой другой локальный процесс не может обладать знаниями обо всей ситуации в целом, достаточными для принятия правильных решений; однако ни один «руководитель» верхнего уровня не может знать требуемое количество подробностей.

Видимо, оба вопроса следует попытаться решить на основе, предложенной У.Мартином(1974) в противовес идее о «поддержке» и задуманной как стратегия обращения с ошибками и неудачами. Нельзя ни передавать управление подчиненным структурам, ни полностью сосредоточить его на верхнем уровне; поэтому нам требуется такой интерпретатор, который имел бы доступ и к целям верхнего уровня, и к работе отдельных демонов. Терминалы различных типов нуждаются в различных типах процессов, поэтому одной стратегией здесь не обойтись. Заполнение пробелов терминала стены фрейма комнаты предусматривает поиск и заполнение конкретными данными субфрейма «стена» более низкого уровня, в то время как конкретизация терминала «дверь» предусматривает присоединение фрейма комнаты к фрейму дома. Для включения в каждый фрейм данных относительно действий подобного типа каждый терминал мог бы указывать интерпретатору на те инструкции, где сказано, как собирать нужную информацию и как реагировать в случае трудностей и различного рода неожиданностей.

Итак, процесс конкретизации фреймов должен объединять в себе элементы поиска на дереве решений и активации демонов: управление поиском на дереве решений зависит от результатов проверок, которые могут выполняться с помощью демонов.

После того, как фрейм комнаты будет включен в работу, он может проверить, например, основное свойство стены. Такие проверки будут производиться на дереве, узлы которого образованы всевозможными фреймами стены, а его структура обеспечивает удобный нелинейный порядок для выяснения того, какие задания отсутствия могут быть сохранены, а какие требуют дополнительного рассмотрения.

В модели, использующей демоны, предполагается, что определенные терминалы вызванного фрейма активируют связанные с ними демоны с целью наблюдения за развертыванием событий во внешнем мире. Круглый предмет, находящийся высоко на центральной стене (а на боковой — имеющий вид эллипса), по предположению, должен быть часами, и это должно получить свое подтверждение в виде найденной цифры или радиальной линии (стрелки). Если такое подтверждение не будет получено, то «наблюдатель» всё же «увидит» часы, но описать их подробно не сумеет. Четырехугольник, расположенный на уровне глаз, может представлять собой картину или окно; в таких случаях дальнейший анализ, как правило, необходим.

Цель работы системы зрительного восприятия заключается не в том, чтобы постоянно отыскивать все находящиеся вокруг нас предметы; ее главной задачей является помощь в выработке ответов на вопросы путем объединения визуальной информации с предположениями, вырабатываемыми внутренними процессами. Однако в любом случае мы должны иметь возможность правильно ориентироваться в пространстве относительно нашего ближайшего окружения, что, кстати говоря, требуется для ответа на большинство из встающих перед нами вопросов. Поэтому определенная часть процесса конкретизации будет выполняться независимо от каких бы то ни было специальных вопросов или целей. Ясно, что нам требуется такой механизм, который умел бы «идти на компромисс» и позволял бы легко заменять «слабые» задания отсутствия при выявлении демонами непредвиденных обстоятельств.

Структура управления «продукциями» А.Ньюэлла и Г.Саймона (1972) образуется последовательным расположением (в некоторой памяти) локальных правил поведения. В системах, подобных языку CONNIVER (А.Макдермотт, Дж.Суссман, 1972), существуют явные структуры управления высших уровней; однако и здесь многое зависит от того, какие утверждения (аналогичные «продукциям») активны в данный момент; такой вид управления полностью явным уже не назовешь. Обе эти системы характеризуются высокой степенью локального процедурального управления. Все, что удается заметить, сопоставляется со своим «образцом-предшественником», который вызывает другой субфрейм, подключает его к процессу поиска и выполняет некоторые предписанные им функции.

Здесь существует еще одна проблема: процессы, являющиеся общими для многих систем, должны быть централизованы. Это способствует и экономии ресурсов, и возможности их усовершенствования, что достигается в процессе отладки. Слишком большая автономия мешает системе быстро и правильно реагировать при появлении новых целей высокого уровня.

Ниже предлагается один из вариантов, с помощью которого, по всей вероятности, можно будет преодолеть подобные затруднения. Фрейм представляется в виде «пакета» данных в процедурах, в таком же виде представляются и цели высокого уровня. Когда вызывается какой-либо фрейм, его пакет добавляется к «среде» текущей программы и определяемые им процессы получают непосредственный доступ к тем данным, которые им нужны, не ухудшая при этом возможности работы с остальными знаниями системы. Теперь следует рассмотреть два вопроса: как в деталях реализуется эта идея и насколько она хороша.

4.2. Фреймы и процесс согласования (по С.Фальману (1974))

Рассмотрим базу данных, в которой множества фактов и демонов объединены в пакеты; любое их число может быть немедленно активировано или к ним в любой момент можно организовать доступ. Пакет может (рекурсивно) содержать любое число других пакетов. Это означает, что если один пакет активируется, то и все содержащиеся в нем пакеты также активируются, это открывает доступ к любым данным, за исключением тех которые были особым образом модифицированы или аннулированы. Таким образом, активация небольшого числа соответствующих пакетов приводит к созданию в системе той среды, которая требуется для проведения вычислений и которая содержит только необходимые для достижения заданной цели данные и процедуры. Конечно, в некоторых случаях может оказаться необходимым дополнить активную группу новыми пакетами для того, чтобы иметь возможность найти выход из какой-то особой ситуации, но неудобство такого рода во много раз меньше, чем бремя постоянного перебора ненужных знаний или бесполезной активации демонов.

Фрейм начинает процесс согласования с проверки любых сведений, которыми он уже располагает и которые могли быть получены в процессе его активации или проверки предыдущих гипотез. После этого, если разрабатываемая гипотеза еще не принята, но и не отклонена, фрейм начинает задавать вопросы, чтобы получить больше сведений о текущей ситуации. Характер этих вопросов будет меняться в зависимости от проблемной среды: программа, работающая в области медицины, может потребовать проведения некоторых лабораторных исследований, визуальная программа — дать указание более внимательно изучить некоторую область пространства. Иногда один вопрос может положить начало целому процессу распознавания: «Это может быть коровой — посмотреть, есть ли у нее вымя».

Последовательность, в которой задаются вопросы, определяется дополнительной информацией, хранящейся во фрейме. Эта информация указывает, какие основные черты следует выявлять в рамках данной проверки, каким образом на нее может повлиять уже имеющаяся информация и во что обойдется ответ на каждый вопрос. При выявлении каждой новой черты ее описание добавляется к пакету информации вместе с указанием на то, откуда получена эта информация и насколько она надежна. Этот пакет может быть использован и при переходе к другой гипотезе. Когда встречается незатребованная информация, она проверяется и пускается в дело.

Конечно, на практике невозможно добиться для такой системы идеального согласования. Для каждого возможного вида нарушений в дополнительных данных фрейма содержатся указания на то, следует ли это нарушение рассматривать как тривиальное, серьезное или фатальное (т.е. отклоняющее возможность использования этого фрейма). Такие индивидуальные черты, как размер обуви, пропорции тела или давление крови будут иметь перечни с указанием диапазона своего нормального изменения, а также данные других возможных значений с указанием на возможные последствия. Иногда какая-то черта может не способствовать ни принятию, ни опровержению выдвинутой гипотезы, но сама она может быть объяснена с помощью этой гипотезы; это также должно быть отмечено во фрейме. Если анализируемая ситуация содержит нечто необычное, не предусмотренное текущим фреймом (например, оленьи рога), то система будет рассматривать этот факт как серьезное нарушение, а сами невписывающиеся в обычную схему данные будут оцениваться в соответствии с информацией того пакета, который связан с этими данными, ибо ясно, что фрейм гипотезы не может содержать сведений о том, что делать со всякими не вписывающимися в него деталями.

Изредка какая-либо деталь будет получать для себя сильное подтверждение: если подобный факт удается заметить, то не нужно будет волноваться относительно правильности выбранного пути. Однако подобное случается крайне редко, поэтому обычная процедура состоит в том, чтобы выявленные детали накапливать до тех пор, пока либо не будет достигнут некоторый уровень приемлемости и гипотеза сможет перейти в разряд принятых, либо пока какое-то явное нарушение или совокупность более мелких нарушений не укажут на необходимость поиска другой гипотезы. (В настоящий момент я представляю себе уровень приемлемости в виде простой «копилки»: каждая согласованная черта увеличивает счет в этой «копилке», а каждая не согласованная, но тривиальная — его уменьшает. Возможно, что здесь может понадобиться и более сложная схема, но пока я не вижу для этого причин). В зависимости от ситуации уровень приемлемости может колебаться в значительных пределах: лишь один беглый взгляд может убедить меня в том, что стол по-прежнему находится на своем месте, тогда как счет в тысячу долларов заслуживает тщательной проверки, прежде чем его следует оплатить.

Иногда может случиться так, что, за исключением двух-трех серьезных нарушений, вся собранная нами модель довольно хорошо согласуется с реальной ситуацией. В таком случае система должна попытаться объяснить имеющиеся разногласия. Возможно, корова красная потому, что ее кто-то вымазал краской. Возможно, у больного не наблюдается высокое давление, какое обычно бывает при подобных заболеваниях, поскольку он принимает соответствующие лекарства. Если какое-то несоответствие может, в конце концов, получить удовлетворительное объяснение, то данную гипотезу следует принять. Иногда две модели будут настолько близки друг к другу, что их можно различить только с помощью особого теста или по ряду малозначительных деталей. Наиболее простым выходом из положения будет включение в оба родственных фрейма сведений о подобии, а также инструкций для правильного выбора нужного фрейма. В медицине подобное тестирование именуется дифференциальным диагнозом.

Отметим, что такое использование фреймов придает системе значительную гибкость, особо ценную в путаных и непредвиденных ситуациях. Формально корова может быть представлена как крупное четвероногое, но наша система не встретит особых затруднений, если у коровы не будет одной ноги, хотя во всем остальном эта корова достаточно хорошо вписывается в свой образ. (Заметим, что отсутствие ноги объяснить легко, а вот присутствие лишней — намного труднее.) Если такой системе предъявить нечто, не вписывающееся ни в одно из известных ей понятий, то она может, по крайней мере, указать, к чему близко это нечто, а также его основные отличия от понятия, предложенного в качестве первого приближения. Визуальная система, организованная в соответствии с этими принципами, может легко сориентироваться при встрече с такими высказываниями, как, например, «похожий на человека, только ростом 25 метров и зеленый». При определенных обстоятельствах такие описания могут образовывать ядра новых фреймов распознавания, представляющих собой законные, хотя и не имеющие наименования, концепты.

Важной чертой фреймов распознавания (и тех категорий, которые они представляют) является то, что они могут образовывать иерархические структуры. Благодаря этому система может вырабатывать гипотезы на многих уровнях, от весьма общих до очень конкретных, например: животное некоторого вида, четвероногое средних размеров, собака, колли, кличка Лесси. Каждому уровню соответствует свой фрейм распознавания, однако фреймы, с помощью которых порождаются конкретные гипотезы, включают в себя пакеты фреймов более высоких уровней; так, например, если в системе активирован фрейм «собака», то ей доступна информация фрейма «животное». Конечно, конкретный фрейм может содержать такие сведения, которые будут исключать из рассмотрения некоторые более общие данные: фрейм «утконос» будет включать в себя информацию фрейма «млекопитающее», но должен исключить сведения о живородящем варианте появления своего потомства. Часто общий фрейм будет использовать в качестве образца одно из своих конкретных проявлений; фрейм «млекопитающее» может скорее призвать на помощь фреймы «собака» или «корова», а не пытаться обеспечить соответствие входной фразы некоторой схематической модели идеального, но неконкретного животного. В подобном случае единственное различие между использованием понятий «млекопитающее» и «корова» будет заключаться в том, что во втором варианте переход к какому-либо иному конкретному представлению будет более сложным; в целом же проверке будут подвергаться одни и те же признаки.

Отметим, что подобная организация системы допускает существование большего числа различных иерархических сетей, которые могут перекрывать друг друга в самых различных (и интересных!) сочетаниях; так, например, с точки зрения зоосистематики дракон «комодо» должен быть пресмыкающимся, однако у него имеется четыре ноги и по своим повадкам он ближе к повадкам собаки, а не змеи. Чтобы решить, как представлять эти запутанные ситуации и что с ними делать, требуются дальнейшие изыскания. Некоторые фреймы следует считать фреймами-«паразитами», поскольку единственное их назначение состоит в том, чтобы прикрепиться к другим фреймам и тем самым изменить эффект от их применения. (Может быть, здесь более подходит термин «вирусный фрейм».) К фрейму «корова» может прикрепиться фрейм «статуя» и тем самым исключить такую его черту, как способность двигаться, изменить вид материала (мясо, скажем, на гипс), а формы оставить нетронутыми. Можно к животному добавить понятие «мифический» и сделать более правдоподобными его возможности самостоятельно летать, перевоплощаться, рассказывать сказки на латинском языке и менее правдоподобным его физическое существование. Тот же механизм может использоваться для более практических целей, например, чтобы учесть возможные осложнения для различных видов болезней. И еще одно замечание: нет ничего необычного в том, если к одному фрейму прикрепятся несколько фреймов-паразитов, взаимно не исключающих друг друга; например, вполне может существовать изваяние мифического животного.

Глава пятая

Пространственные образы

5.1. Местоположение и ориентация

Обычно мы представляем себе, что наше движение происходит в неподвижном пространстве: когда мы поворачиваемся, мир не вращается вместе с нами, когда мы продвигаемся вперед, мир не отступает. Сидя за письменным столом, я считаю, что видимая из окна река течет на север, хотя на самом деле она сильно отклоняется от точного направления на Северный полюс. Это представление я получил много лет назад, будучи в другом населенном пункте, расположенном на той же реке: там она действительно течет на север. Такое ощущение направления относится ко всей окружающей обстановке; тот же «север» существует в любом доме, своем и соседнем, а любой неподвижный предмет также характеризуется своим направлением (ориентацией) в пространстве.

Кроме ориентации каждый предмет характеризуется определенным местоположением. Мы менее уверены в существовании каких-то связей между позициями, находящимися в разных комнатах. Частично это происходит от того, что определение местоположения любого предмета всегда требует вычислений, тогда как установление связей между ориентированными объектами — дело более простое (в прямоугольных комнатах направления просто переносятся из одного замкнутого пространства в другое).

В незнакомой обстановке одни люди ориентируются значительно легче, чем другие. Один мой знакомый постоянно сверяет свои ощущения с компасом и никогда не теряется в новом для себя городе. Лишь небольшая часть его умения ориентироваться базируется на правильном использовании данных о проделанных в ходе движения по улицам поворотах. Он использует разные средства: карты, тени, время дня, ориентиры (включая отражения от окон) и т. д. Вначале этот способ кажется громоздким, но на самом деле он не требует слишком больших усилий. Весь фокус состоит в том, что надо выработать в себе привычку подмечать и должным образом представлять подобные вещи.

Сформировавшиеся представления об ориентации объектов довольно устойчивы и их трудно менять, даже когда для этого имеются веские основания. В конце концов я понял, что около моего дома река имеет излучину, однако это не убедило меня в том, что следует пересмотреть свою укрупненную пространственную модель. Еще один пример: я провел в Бостоне многие годы, прежде чем заметил, что его Центральный парк имеет пятиугольную форму. Я настолько привык к прямоугольному Манхэттену, что никак не мог справиться с этой неэвклидовой бессмыслицей, ибо в моей памяти отсутствовал угловой сектор для представления северной части Бостона.

Такие трудности указывают на то, что нами используются как глобальные эталонные фреймы, так и более мелкие локальные структуры. Трудности при перестройке представлений свидетельствуют, что локальные фреймы не являются полностью трансформируемыми структурами, а при уточнении межпредметных связей зависят от места их присоединения к глобальным фреймам. Ниже рассматриваются некоторые вопросы использования глобальных эталонных систем: в принципе это должно предполагать наличие более мощных и общих процедур для частичного изменения сложных представлений; на практике возможности людей в этом плане сильно ограничены, особенно когда они находятся в условиях жесткого дефицита времени.

5.2. Глобальная система пространственных фреймов

Мне не очень нравится предлагаемая ниже модель, но для систем ИИ раньше или позже нечто подобное непременно потребуется разработать. Глобальный пространственный фрейм (GSF) представляет собой постоянный набор «типичных позиций» в абстрактном трехмерном пространстве, копии которого используются как каркасы для сборки сложных сцен. Такой каркас можно представить себе в виде расположенной в горизонтальной плоскости решетки (матрицы) размером (5×5), каждый узел («позиция») которого имеет три вертикальных уровня. Центральные ячейки служат для представления сведений, наиболее близких к основному в GSF понятию, а периферийные представляют собой менее значительные понятия. (В сущности, человек всегда представляет себе, что он находится в универсальной воображаемой комнате, в которой происходят реальные события. Люди, вероятно, в жизни своей используют более сложные и математически менее строгие структуры, например, чтобы подчеркнуть простоту доступа к объектам, находящимся вблизи рук или лица, или чтобы представлять пространство не в чисто метрических категориях, а по отношению к своим манипуляционным возможностям.

GSF связан с системой видовых фреймов; каждый видовой фрейм описывает визуальные характеристики GSF со своей «колокольни». Таким образом, этот подход не противоречит одновременно ни системе Коперника, ни системе Птолемея: перемещения наблюдателя никак не влияют на присутствие в GSF образа видимой им сцены, однако активация видового фрейма, соответствующего данному конкретному местоположению наблюдателя, представляет его воображению именно ту картину, которую он и должен видеть.

Видовой фрейм, соответствующий определенной позиции наблюдателя, получается путем проектирования на это место ячеек GSF. Результатом является массив видовых перечней, каждый из которых представляет собой упорядоченную последовательность тех ячеек GSF, которые должны пересекаться лучом, исходящим от наблюдателя. Таким образом, видовой фрейм подобен обычному визуальному фрейму, за исключением того, что его элементы получены из GSF, а не в результате наблюдений за отдельными элементами и связями реальных объектов. Поскольку видовые перечни соответствуют участкам сетчатки, нам они представляются трехмерными зонами, вытянутыми вдоль одного общего для данного перечня направления.

Заслонения объясняются или представляются с помощью предписаний для видовых перечней; нам не следует ожидать, что удастся увидеть целиком тот объект, который не находится на первом месте в видовом перечне. (Аналогично, более близкие к началу перечня предметы препятствуют выполнению манипуляций с другими предметами, находящимися дальше в этом списке. Заслоненные ячейки перечней видов предоставляют процессу согласования большую свободу, ибо они устраняют часть ограничений соответствующих терминалов.)

Для усвоения визуальной информации, полученной из разных точек наблюдения, нам необходимо нечто наподобие схемы «косвенной адресации», в которой визуальные черты приписываются видовым перечням посредством каркасных конструкций GSF. Ниже приводится предварительный набросок такой схемы.

ЗРИТЕЛЬНОЕ ВОСПРИЯТИЕ. Разнообразные типы визуальных «черт» распознаются с помощью демонов на уровне сетчатки. Каждая обнаруженная черта автоматически связывается с видовым направлением текущего видового перечня в соответствии с его положением на общем визуальном поле.

АКТИВАЦИЯ ФРЕЙМОВ. Одновременно производится предварительное присоединение некоторого предметного фрейма или некоторого вида ожидания к узлам решетки GSF в соответствии с данным направлением текущего видового перечня. Это означает, что каждый терминал связывается с видовым направлением некоторого вшивного видового перечня. (Иными словами, терминалы визуального фрейма содержат пространственно-сориентированные данные, что оказывается возможным благодаря наличию соответствующих указателей в структуре GSF), в рамках одной системы различные визуальные фреймы выбираются согласно текущему видовому фрейму, а направления всех объектов должны быть соответственно откорректированы.

КОНКРЕТИЗАЦИЯ. Когда мы смотрим в определенном направлении, то, во-первых, в соответствии с информацией активного фрейма ожидаем увидеть определенные визуальные черты в определенных зрительных областях, соответствующих данным GSF, и, во-вторых, на самом деле видим их там. Поэтому естественно предложить такую теорию зрительного восприятия (первого порядка), в которой каждый маркер каждого терминала фактически задает некоторый класс визуальных демонов — «признаков» так же, как и предполагаемое местоположение соответствующего узла в GSF. В такой системе наблюдатель может быть тоже представлен как объект и это позволит ему «увидеть» себя из разных мест в качестве полноправного элемента сцены. При наличии всего этого довольно легко получить информацию, требуемую для означивания терминалов и конкретизации фреймов. Системе остается лишь сопоставить «перцептуальные» пары (демон, видовой перечень) со «схематическими» парами (маркер, узел). Если бы терминалы предметных фреймов можно было непосредственно присоединять к узлам GSF, и если бы они автоматически проектировались и образовывали видовые перечни, то это бы почти полностью избавило систему от необходимости проведения повторных вычислений для представления тех объектов, которые уже наблюдались, но только из других положений.

5.3. Совершенствование системы

В нашей первой формулировке предполагалось, что терминалы визуальных фреймов связаны некоторым образом с узлами каркаса GSF. В этой связи возникает вопрос: почему бы не отказаться от всей идеи создания системы визуальных фреймов и не построить трехмерные предметные фреймы, которые непосредственно трансформировались бы в определенные пространственные позиции? В этом случае предметный фрейм почти без всяких ухищрений мог бы представлять трехмерную символьную структуру, а GSF-система автоматически порождать различные видовые фреймы для любого объекта.

Для систем, ориентированных на ЭВМ, это могло бы принести хорошие результаты, но для психологической модели породило бы слишком много серьезных проблем: каким образом можно справиться с трансформациями, поворотами и изменениями масштаба; как следует проводить переориентацию субструктур и др. Для моделирования поворотов первое и весьма несовершенное решение может состоять в том, чтобы каждый объект характеризовался небольшим числом стандартных видов с указанием различных размеров и ориентации. Прежде чем отвергать эту идею, отметим, что она может быть весьма полезной для представления некоторых видов действий, а также при моделировании действий на их предварительных этапах.

Поскольку, однако, образ любого предмета базируется на опыте его использования в различных ситуациях, требуется, по всей видимости, некоторый более общий тип операций, основанных на трансформациях. Представление изменений в местоположении и масштабе может быть выполнено на основе следующей промежуточной структуры: каждый предметный фрейм следует включить в некоторый пригодный для изменения местоположения «портативный» мини-GSF, который можно поворачивать и присоединять к любому узлу глобального GSF с соответствующими «примечаниями», указывающими, каким образом трансформирован исходный образ.

Наличие такой структуры влечет за собой не просто усложнение самой операции встраивания. Оно требует наличия в GSF «однородных структур»; это позволит упорядочить прежние, полезные, но идеосинкразические преувеличения, касаемые всего того, что расположено вблизи основного пространства, и потому нам более всего знакомого. Как бы привлекательна ни была подобная модель, мне не верится, что она реально существует в механизмах человеческого восприятия. Люди не очень хорошо представляют себе различные видоизменения сцен; я цитировал высказывания У.Хогарта о том, что в этих вопросах требуется весьма значительная тренировка, приводил наблюдения Ж.Пиаже, свидетельствующие, что необходимая компетенция появляется у детей только на втором десятилетии их умственного развития.

Итак, у нас имеется ряд теоретических механизмов пространственного видения. Я не буду выделять какой-либо из них и тем более называть его «теорией». Дело здесь совсем не в моих взглядах на эти вещи, а в важности того положения, что каждый индивидуум, очевидно, развивается с помощью последовательных все более и более усложняющихся механизмов. Нам следует уяснить, какие механизмы восприятия будут достаточны для различных уровней манипуляции зрительными образами; только после этого можно ожидать появления теории, совместимой с отмеченной концепцией развития. Следует также позаботиться и о том, чтобы располагать значительно более полной и точной психологической картиной, указывающей, как же в действительности используются пространственно-визуальные образы.

Некоторые читатели могут поинтересоваться, почему, подойдя столь близко к вопросам создания трехмерного аналогового механизма, не сделать это некоторым более простым, изящным и систематизированным способом. Такое предложение весьма естественно, но следует заметить, что из тех, кто стремился найти практическое решение подобного типа, еще никто не продвинулся дальше первых и несовершенных гештальт-моделей. Можно себе представить также и нейронную структуру несимвольной трехмерной системы, однако, проблемы построения на ее основе предполагаемых образов твердых тел вновь заставят нас решать те же нетривиальные с вычислительной точки зрения и в основе своей символьные вопросы. Поэтому мне представляется неизбежным создание некоторого аналога рассмотренного ранее видового перечня, а это ставит под сомнение саму цель организации промежуточной аналоговой пространственной модели.

5.4. Эволюция

Теория фреймов предполагает наличие большого числа разнообразных механизмов для манипуляции визуальными и символьными образами. Я не думаю, что большинство этих механизмов может возникнуть в процессе самоорганизации системы; скорее, они зависят от того, что было заложено в систему с самого начала. Какие этапы в эволюционном развитии способствовали появлению подобной первоосновы? Приведенные ниже доводы показывают, что совершенствованию фреймо-представлений в целом, видимо, способствовали требования пространственного зрительного восприятия.

На ранних стадиях эволюционного развития узловые моменты были, видимо, связаны с совершенствованием детекторов отдельных визуальных черт, что диктовалось необходимостью в удовлетворении первых жизненных потребностей (питание, воспроизводство, самооборона). По мере того, как все более сложными становились зрительная и двигательная системы, росли требования к правильному установлению отношений между видимыми предметами и их местонахождением во внешнем мире, т. е. между предметами и теми позициями, которые можно достигнуть или к которым можно подойти. Особо нужными становились те преобразования, которые позволяли бы компенсировать изменения в своем собственном местоположении. Это было важно, например, на охоте или в каких-то иных критических условиях. На охоте или во время полета определенным преимуществом обладает тот, кто способен координировать информацию, получаемую во время своего движения; если даже видение все еще базируется на последовательном распознавании простых визуальных черт, то и в этом случае способность к правильному объединению различных признаков, замеченных в разное время, предоставляет субъекту определенные преимущества.

Простое, линейное, горизонтальное упорядочение визуальных черт позволяет создать большое число полезных схем «распознавания». Еще большего можно достигнуть, если пользоваться данными, получаемыми, во-первых, в процессе движения объекта относительно наблюдателя и, во-вторых, как результат изучения двигательного параллакса. Вследствие этого нам нужно заниматься как схемами распознавания на базе согласования линейных фреймов с отдельными частями упорядоченных совокупностей, так и схемами объединения для выработки и развития представлений (пусть даже несовершенных) об окружающем нас мире. Не следует думать, что мы сразу получим глобальную картину мира; вначале мы будем располагать эгоцентрическими полярными представлениями, основанными на связях между парами различных объектов или между объектом и каким-либо опорным направлением, скажем, направлением на солнце. На ранних этапах, по-видимому, еще не должны существовать усложненные механизмы для анализа связей типа «фигура—фон» и построения трехмерных сцен. Мне не известны какие-либо серьезные доказательства того, что живые существа, помимо человека, могут вырабатывать реальные представления о том, как устроен наш мир, и, хотя по поведению отдельных животных это можно было бы предположить, таким фактам можно дать более простое толкование.

Построение и использование глобальных представлений требуют развития тех же трансформаций движения, которые необходимы для задания соответствующим узлам различных видовых данных. Чтобы объяснить, в свою очередь, эволюцию таких механизмов, нужно попытаться представить себе возможные пути этого развития, начиная с эгоцентрического углового пространства, которое способствует реализации визуально-моторной деятельности. Построение системы фреймов на базе общих терминалов — близкая и несколько более простая задача; для ее решения могут оказаться полезными те схемы и структуры, о которых сейчас идет речь. Чтобы создавать другие варианты памяти для хранения зрительных образов, нужно разработать способы включения совокупностей заданий в элементы долговременной памяти: кто-то, например, хочет получить представление о квартире товарища, кто-то — о местах гнездования птиц или районах хорошей охоты и т. д. Было бы ценным получить нужные и интересующие вас как охотника сведения для уверенной ориентации в том районе, где намечается охота.

Потребности зрительного восприятия отчетливо указывают на необходимость проведения определенных манипуляций с символьными представлениями, основанными на теории фреймов, однако же, они в полной мере не обусловливают необходимости в механизмах воображения. Последние весьма полезны в любой деятельности, направленной на решение задач и требующей использования принципов планирования.

Нам следует разделять индивидуальное и эволюционное развитие. Текущий видовой фрейм взрослого человека обычно определяется тем, что он знает о своем местонахождении; это требует учета всех поворотов тела, поворота головы и направления взгляда. Было бы неудивительно обнаружить в лобных участках коры головного мозга «врожденные» механизмы, ответственные за зрительное восприятие, т. е. механизмы, с помощью которых параметры, характеризующие положение человека в пространстве, управляют переадресацией демонов характерных визуальных признаков. Гипотеза о врожденных механизмах подтверждается хорошей визуально-моторной координацией, наблюдаемой в раннем возрасте у многих видов позвоночных. Однако существование иных механизмов индивидуального развития человека могло бы уменьшить требования к формированию врожденных механизмов зрительного восприятия.

Такая система восприятия, характерная для взрослых людей, может рассматриваться как система Коперника, тогда как у детей следует ожидать присутствия иных схем. У ребенка развитие системы зрительного восприятия начинается, вероятно, с той схемы, в центре которой находится лицо (а не ноги) и главная функция которой состоит в том, чтобы увязать зрение с движением рук. После этого наступает очередь создания несовершенного еще образа двигательных возможностей своего тела, и лишь значительно позже появляется глобальная система с «постоянным» чувством ориентации, в пределах которой наблюдатель мысленно может свободно перемещаться. Подобная эволюция системы, в центре которой последовательно располагаются голова, тело и затем свой собственный пространственно-ориентированный образ, требует очень больших усилий, и поэтому у ребенка этот процесс значительно растянут во времени. Такой процесс, но в значительно более ограниченных масштабах, можно было бы, по всей видимости, изучить, наблюдая за тем, как люди учатся ориентироваться по карте. Вначале человеку необходимо сопоставлять карту с видимой картиной, затем это становится все менее и менее необходимым. Искусство, вероятно, заключается в том, чтобы представлять себе и картину, и карту одинаково ориентированными относительно некоторого внутреннего направления, например на север. Часть появившихся в процессе тренировки новых способностей состоит в том, что человек по мере стабилизации и уменьшения амплитуды колебаний между теми или иными возможными решениями улучшает механизм перспективных преобразований данных на основе отбора наилучших для каждой конкретной ситуации ориентиров.

В любом случае наша задача состоит не столько в том, чтобы обосновать преимущества «врожденной» или «развиваемой» модели восприятия, а, скорее, в том, чтобы построить хорошие сценарии возможных действий промежуточных систем. Относительная беспомощность младенца по отношению, скажем, к жеребенку, конечно же, не означает, что у него отсутствует врожденный пространственно-моторный механизм; это свидетельствует о том, что его проявление задерживается до тех пор, пока не появятся предпосылки для образования образов и построения на этой основе более сложной в интеллектуальном плане системы.

5.5. Вопросы измерений и количественных оценок

Большинство людей ощущают противоречие между объяснением мыслительных процессов с помощью дискретных символьных описаний и естественными представлениями, в которых наш внутренний мир постоянно связан с понятиями различной интенсивности (краски, усилия и др.), т.е. понятиями со свойствами непрерывности. В этой области выявление истины с помощью самоанализа или интуиции пользы не приносит. Я убеждён, что символьные модели являются более глубокими по своим возможностям, тогда как (и это может показаться парадоксальным) непрерывные структуры ограничены и могут явиться тормозом при проведении исследований. Мы уже проиллюстрировали эту точку зрения на примере оценочных функций в шахматах. Разумеется, аналоговая техника весьма полезна. Однако многие аналитики недооценивают мощь знаковых систем. Их стремление к непринятию идеи символьного описания объектов и явлений проистекает из чувства «непрерывности» сознания: не следует ли нам не замечать каких-либо гипотетических процессов, в которых одно символьное описание внезапно исчезает, чтобы уступить место другому.

Такое непрерывное представление не может обладать реальной силой, ибо существен только тот процесс, в котором может быть отражено, зафиксировано и проверено то, что уже произошло. Точно так же, как наша способность к отладке программ для вычислительных машин зависит от характера и качества соответствующих проверок, самосознание должно зависеть от прежних состояний человека и выработанных для них итоговых оценок. В этом случае феноменологически «гладкая» или «грубая» последовательность психических состояний должна отражать только стиль описания, используемого для представления этой последовательности.

Точные количественные измерения параметров могут лежать в основе выполнения различных прогнозов в системах роботов, связанных с вычислительными машинами. При работе над созданием теории восприятия зрительной информации человеком нам следует уяснить, насколько хорошо качественные символьные методы могут имитировать наши способности к воображению и манипуляции образами. Люди очень плохо воспринимают абсолютные значения размеров, расстояний и интенсивностей; они не могут с достаточной точностью устанавливать принадлежность размера, громкости, высоты тона, массы к одной из, скажем, десяти категорий. При сопоставлении различных суждений друг с другом многие заключения, для которых, казалось бы, требуются числовые данные, во многом предопределяются наличием простой упорядоченности величин. Рассмотрим три предмета А, В и С, видимые последовательно на фоне центральной стены комнаты. Если мы сдвинемся вправо и обнаружим, что В теперь находится левее А, то сделаем вывод, что В расположен ближе к прежней точке наблюдения и его надо задать как элемент переднего плана. В подобных «грубых» рассуждениях может содержаться даже большее количество информации, если пользоваться данными о расстояниях между линией воображаемого перемещения наблюдателя и объектами сцены.

Таким образом, человеку вряд ли часто требуются точные количественные данные: дифференциальные измерения вполне подходят для близлежащих предметов, тогда как более общие суждения достаточны для тех объектов, которые находятся на значительных расстояниях друг от друга. Для большинства практических целей достаточно установить небольшое число связей между соседними предметами. Число их не должно увеличиваться быстрее, чем растет число предметов; если два предмета находятся у противоположных стен комнаты, этот факт следует представить во фрейме «комната» верхнего уровня и этой информации человеку обычно вполне достаточно; если два предмета расположены вблизи друг друга, это отмечается в менее крупном фрейме, который содержит и другие данные о связях между этими двумя объектами. Таким образом, будет правильно полагать, что человеку трудно вспоминать взаимное расположение предметов, информация о которых содержится в разных фреймах, поскольку это требует поиска дополнительных данных, которых нет в памяти, а это всегда сложно и утомительно.

Против схемы GSF имеется ряд существенных возражений. В самой природе перспективы заложено, что любой близлежащий элемент будет заслонять ряд более удаленных элементов; в тех случаях, когда невидимой будет граница объекта, картина станет еще менее ясной, ибо нельзя будет сказать точно, какие части удаленного предмета от нас заслонены. (Поэтому идея видовых перечней не совсем хороша, если, впрочем, обратиться к вопросам человеческого воображения, то проблемы здесь будут те же самые.) Чтобы улучшить свойство предвидения, присущее системе, видовые перечни можно преобразовать в видовые структуры с целью представления специальных отношений, более сложных, чем пары вида «ближе — дальше». Я полагаю, что измерительные возможности данной системы можно значительно улучшить, используя «символьную интерполяцию». Если рассмотреть совместно или последовательно видовые перечни двух (или более) близких друг другу позиций, то можно отыскать компромиссный вариант для согласующихся в отдельности прогнозов. Используя движение (изменение точки наблюдения), человек, таким образом, может значительно точнее определять невидимые границы предметов.

Эта идея интерполяции или — в своей простейшей форме — суперпозиции во многих случаях позволяет улучшить общую применимость используемых стратегий. Усреднение или иное комбинирование прогнозов приводит к получению лучших, нежели можно того ожидать, результатов. Следовательно, расчеты для манипуляций образом тела (которые, видимо, требуют проведения сложных векторных и матричных преобразований) могут выполняться путем суммирования ожиданий или прогнозов, исходящих от достаточно близких к требуемым «стереотипных положений». Заманчиво распространить это правило на абстрактные виды деятельности, например на процессы, которые могут многократно использовать символьные представления.

Поиск и извлечение информации из памяти — еще одна область, где важны, по крайней мере, на первый взгляд, количественные методы. Здесь нужны механизмы для управления допустимым диапазоном изменения заданий терминалов. Что лучше: принцип «полного согласования», использование некоторого порога пригодности или что-либо еще? Ни одна стратегия в отдельности не принесет желаемых результатов. Рассмотрим следующее высказывание:

«Возьмите этот самый большой красный кирпич».

Чтобы уяснить смысл слова «самый большой», надо сопоставить различные по своим размерам тела. Если для подобных целей разработать одну неизменную процедуру, она сможет правильно работать лишь в простых ситуациях. Поэтому следует обратиться к цели решения стоящей перед нами задачи. Если кого-то интересует масса, то следует принять, что самый большой — это самый тяжелый. Если человек придерживает окно и для этого ему нужен шест, тогда самый большой — это самый длинный.

Положение может сильно осложниться, если выбор предмета не будет оговорен в тексте:

«Возьмите какой-нибудь большой красный кирпич».

В этом случае следует использовать те же принципы; разделить мир на классы, уместные в данной ситуации, затем взять из этого класса то понятие, которое наиболее подходит к слову «большой». Обычно слово «большой» означает «самый большой», но это правило не применимо в том контексте, где употребляется слово «громадный». В последнем случае следует, определив цель высказывания, произвести выбор соответствующего метода группировки понятий и далее действовать аналогичным образом. Количественные признаки и здесь могут найти себе применение, но они, естественно, будут подчиненными, второстепенными, ибо в противном случае можно упустить наиболее важные аспекты рассматриваемой проблемы. Д.Макдермотт (1974) рассматривает многие вопросы, касающиеся дискретных представлений пространственных структур.

В данной работе приведено довольно много различных аргументов против использования количественных моделей. Каждый из них в отдельности не слишком весом, и поэтому мне, видимо, следует остановиться на тех общих положениях, которые лежат в основе негативного в целом отношения к количественным моделям. Исходный тезис таков: выходные данные такого механизма независимо от того, являются ли они цифровыми, аналоговыми, физическими (несимвольными) или статистическими, слишком бесструктурны и неинформативны, чтобы на их основе можно было проводить дальнейший анализ. Данные в виде чисел позволяют принимать решения о немедленном выполнении каких-то действий или мускульных сокращений, о выделении и объединении стимулирующих признаков и т. д. Но поскольку каждое такое данное по природе своей является оценкой, а не резюме, то для целей планирования и проведения дальнейших рассуждений все они непригодны. В числовом показателе нельзя отразить те соображения, на основании которых он был получен. Поэтому, хотя количественные результаты полезны для достижения непосредственных целей, они во многом ограничивают возможности дальнейшего и более глубокого развития систем.

Это, конечно, не означает, что люди не должны и не пользуются такими методами. Учитывая, однако, те препятствия, которые они создают для проведения дальнейших рассуждений, мы можем сказать, что количественные методы будут концентрироваться и использоваться функциональными элементами типа терминалов. В более общем плане они могли бы обусловливать деятельность, наиболее близкую к бихейвористическим концепциям, и это могло бы в какой-то мере объяснить традиционный интерес ученых этого направления к количественным методам исследований. Опасность заключается в том, что основанные на них теории, пригодные для расчета вероятностных характеристик, составления расписаний и др., видимо, не способны объяснить сложную познавательную деятельность. В качестве психологических теорий они, по-видимому, не могут не быть ошибочными.

Быть может, я кое-где слишком старательно подчеркивал возможности использования моделей первого порядка. Это, скорее всего, следствие моей реакции на высказывания критиков, придерживающихся философии холизма, которые показали (но только в теории), что если вы в любой ситуации можете всегда заметить хотя бы еще одну новую черту, вам не составит труда убедить себя в том, что вы заметили их уже бесконечное множество. С другой стороны, я, возможно, излишне резко реагировал на те утверждения моих коллег, в которых слишком тщательно игнорируется интроспективная феноменология или явно чувствуется стремление объяснить поведение с помощью бесструктурных элементарных фрагментов. Любая теория должна «сводить» вещи к более простым элементам, однако это не выполнимо с помощью бихейвористических единиц познания и деятельности.

В заключение я хочу особо поблагодарить С.Пейперта и моих бывших студентов Д.Боброва, Е.Чарняка, В.Рафаэля, У.Мартина, Д.Мозеса и П.Уинстона за помощь, которую они мне оказали при написании данной работы, а также И.Голдштейн, Дж.Суссмана, С.Фальмана, Э.Рубина, С.Смолиара, М.Деникоффа, Б.Куиперса, М.Фрайлинга и других, принявших участие в обсуждении первых вариантов книги, за их конкретный вклад в этот труд.

Приложение

Критика логистического подхода

«Когда кто-либо пытается описать реальные мыслительные процессы с помощью традиционно-формальной логики, результат часто оказывается неудовлетворительным; в этом случае, несмотря на существование целого набора правильных операций, теряется смысл процессов, а то, что было жизненно важным, значительным, творческим, как-то исчезает из формулировок».

М.Вертхаймер (1959)

В приложении я хотел бы разъяснить, почему считаю большинство логических подходов малоэффективными. Еще со времен Аристотеля предпринимались серьезные усилия, чтобы представить рассуждения с помощью логистической системы, т.е. такой системы, в которой полностью отделены друг от друга предложения, которые содержат конкретную информацию, и силлогизмы или общие законы построения правильных высказываний. На протяжении веков никому не удалось продемонстрировать успешное функционирование такой системы на реальном и значительном множестве высказываний. Я полагаю, что подобные попытки будут и впредь заканчиваться неудачно, но не вследствие дефектов логических формализмов, а из-за самого характера логистического метода. (Последние опыты базировались на логике предикатов первого порядка, но не в ней корень зла).

Типичная попытка имитации рассуждений на уровне здравого смысла начинается с выбора «микромира» ограниченной сложности. С одной стороны, задаются цели высокого уровня, например: «Я хочу попасть из дома в аэропорт»; с другой — множество небольших высказываний — аксиом, например: «Автомобиль находится в гараже», «Никто не выходит из дома раздетым», «Чтобы попасть в какое-то место, человек должен двигаться в том направлении» и т. д. Для работы системы используются процедуры эвристического поиска, с помощью которых должна быть доказана достижимость поставленной цели и найден соответствующий перечень необходимых действий.

Я не буду останавливаться и анализировать историю всех имевших место попыток получить из набора аксиом целевые высказывания, а приведу по этому вопросу свое мнение: в простых случаях можно добиться, чтобы подобные системы могли «действовать», но по мере приближения выбранного микромира к реальному трудности становятся непреодолимыми. Проблема поиска подходящих аксиом или, иначе, проблема «задания фактов» на основе всегда логически правильных допущений оказалась значительно более трудной, чем это ранее предполагалось.

ФОРМАЛИЗАЦИЯ ЗНАНИЙ. Главной проблемой в изучении интеллекта является проблема создания основы знаний. Мы слишком мало знаем о содержании и структуре обычных знаний независимо от того, какую цель преследуют наши исследования: создание логистических систем или что-либо иное. Самая простая система здравого смысла должна быть информирована о таких категориях, как причина и следствие, время, цель, местоположение, процесс, вид знаний; ей также необходимы сведения о том, как приобретаются, представляются и используются знания. В этой области необходимы серьезные эпистемологические исследования. Работы Дж.Маккарти (смотрите, например, Дж.Маккарти, 1968а,б; Дж.Маккарти и П.Хэйес,1969) и Е.Сандуолла(1970) ценны именно в этом плане. У меня еще не сложилось определенного представления о том, как следует проводить подобные исследования; замечу лишь, что выбранный аппарат представления будет сильно влиять на ценность решаемых задач и здесь уже логистика приносит вред.

РЕЛЕВАНТНОСТЬ. Ключевой является проблема выбора из избыточного множества релевантной информации. Современная эпистемология во многом отличается от прежних теорий познания. Необходимы новые и общие представления о вычислениях. Наиболее ценная по своему характеру часть знаний не может передаваться нам извне, скорее, она внутренне должна быть доказана. Для каждого факта человеку требуются метафакты, сообщающие о том, каким образом и когда их можно использовать. В пределах ограниченного микромира можно установить способы взаимодействия между ситуациями, действиями и случайными явлениями. И хотя данная система сможет на базе заданных аксиом выполнять дедуктивные построения, она не сможет определить, когда ей следует это делать, а когда нет.

Например, человек может пожелать сообщить системе следующее: «Не переходи дорогу, если приближается автомобиль». Но он не может потребовать того, чтобы система доказала, будто автомобиль не приближается, поскольку подобное доказательство обычно будет совсем не тем, что нам нужно. Системе PLANNER (С.Хьюитт,1971) можно дать указание попытаться доказать, что автомобиль приближается, и сообщить, что только в том случае, если эта (ограниченная) попытка дедуктивного вывода окажется безуспешной, можно переходить улицу. Чисто логистическая система ничего подобного сделать не позволяет. Первой реакцией должно быть: «Посмотреть налево, посмотреть направо». Но если сообщить системе данные о скоростях, тупиковых переулках, вероятностях обгона на повороте и др., доказательство становится необозримым и потому невозможным. Нам следует представить и сделать понятным системе слово «обычно». В конечном счете, потребуется понять компромисс между гибелью и деятельностью, ибо нельзя ничего сделать, будучи парализованным страхом.

ЕДИНООБРАЗИЕ. Даже сформулировав ограничения на использование релевантной информации, в логистических системах нам все равно придется столкнуться с проблемой её правильного использования. В таких системах все аксиомы обязательно должны быть «разрешенными», ибо с их помощью вырабатываются новые заключения. Любая дополнительная аксиома ведет к появлению новых теорем, и поэтому ни одну из аксиом потерять нельзя. Вся сложность в том, что нет явного способа указать системе, какие выводы следует делать, а какие — не следует. Если мы зададим достаточно аксиом, чтобы на их основе вывести все требуемые нам следствия, то, кроме того, мы докажем значительно большее число других вещей. Если, однако, попытаться изменить это положение, задав ряд аксиом о релевантности данных, то это приведет лишь к росту числа нежелательных теорем: к старым добавятся такие теоремы, которые будут содержать утверждения относительно их нерелевантности.

Логиков обычно интересуют сами процедуры доказательств, они не обращают внимания на возможный рост дедуктивных систем и поэтому могут получать те утверждения, которые их интересуют. При развитии интеллекта ситуация будет иной. Субъект должен научиться определять, во-первых, какие из признаков в каждой ситуации основные, а какие нет, и, во-вторых, какие виды дедукции не должны восприниматься слишком серьезно. Обычная реакция на рассказы лгунишки — смех, из чего следует сделать вывод, что отклонять следует не его исходную посылку-аксиому, а его дедуктивные построения. В этой связи возникает следующая проблема.

ЗНАНИЯ ДЛЯ УПРАВЛЕНИЯ ПРОЦЕДУРАМИ. Отделение аксиом от процесса вывода делает невозможным использование классифицированных знаний об имеющихся в системе утверждениях или фактах. Мы также не можем включить в нее знания об управлении процессом дедукции. Проблема состоит в том, чтобы аксиоматизировать наши представления об аппроксимации и близости объектов друг к другу. Человеку привычно свойство транзитивности, скажем:

(А около B) /\ (B около С) => (А около С),

но неограниченное применение такого правила приведет к тому, что все предметы окажутся расположенными по соседству друг с другом. Можно применить нечто вроде технической шутки:

(А (около)1 В) /\ (В (около)1 С) => (А (около)2 С),

допустив при этом, скажем, только пять степеней для понятия «около»: около, (около)2, .... (около)5. Можно изобрести какие-то аналоговые величины или параметры. Но в логистической системе нельзя ограничиться применением, например, трех правил транзитивности подряд, если на то нет серьезных оснований. Я не знаю пока, как же следует разрешить эту проблему, и, по имеющимся сведениям, никто еще не предложил в этом плане чего-либо делающего ему честь. Хочу лишь отметить тот факт, что, поскольку логистический подход достаточно распространен, никто непредвзято не исследовал подобный тип процедурных ограничений.

КОМБИНАТОРНЫЕ ПРОБЛЕМЫ. Логическим системам, на мой взгляд, не удастся избежать комбинаторного взрыва в том случае, если будет найдена возможность представления более обширных знаний. Хотя время от времени мы получаем сведения об успешной работе подобных систем в ограниченных микромирах, следует иметь в виду, что для исследований по искусственному интеллекту это обычная ситуация: система высокого качества, решающая трудные головоломки, часто оказывается непригодной для работы в более крупных проблемных областях.

СОВМЕСТИМОСТЬ И ПОЛНОТА. В процессе своей умственной деятельности человек критически оценивает имеющиеся у него планы и перечни целей, пересматривая свои знания и правила их использования. Некоторые из этих действий можно непосредственно внести в саму программу доказательства теорем и использовать их для последующего самоанализа, но человек в действительности хочет представлять их себе более естественным образом, в виде свода декларативных правил. Почему же тогда ученые стремятся, чтобы именно логистические системы выполняли эту работу? Действительная причина заключается в том, что такие системы весьма просты и элегантны; если бы они еще были и эффективны, было бы просто замечательно. Чаще указывают на другую причину, неверную по своей сути, именно, что подобные системы математически строги, поскольку они обладают свойствами:

(1) полноты, т.е., «можно доказать все истинные утверждения», и

(2) совместимы, т.е. «нельзя доказать ни одно ложное утверждение».

По всей видимости, люди часто не понимают, что полнота — это достоинство не такое уж редкое. Оно является тривиальным следствием любой процедуры исчерпывающего поиска, поэтому всякая система может быть переведена в категорию «полных», если к ней подсоединить любую другую полную систему и после этого чередовать этапы вычислений. Совместимость — понятие более тонкое, оно предполагает отсутствие противоречивости в наборах аксиом. Мне кажется, что в системах искусственного интеллекта подобного требования не следует придерживаться, ибо ни одна система естественного интеллекта не является полностью совместимой. Важно то, каким образом человек разрешает парадокс или находит выход из конфликтной ситуации, каким образом человек учится на своих и чужих ошибках, как распознает и отбрасывает всевозможные несоответствия.

Подобные неправильные представления привели к тому, что теорема неполноты Гёделя стимулировала появление совершенно беспочвенных утверждений о различиях между человеком и машиной. Никто, видимо, не заметил ее более «логичной» интерпретации, именно, что стремление к совместимости налагает определенные ограничения.

Конечно, есть и будут различия между людьми (которые доказуемо несовместимы) и машинами, конструкторы которых создавали их на основе этого принципа. Но для машин вовсе не является необходимым программирование на основе только совместимых логических систем. Те же философские рассуждения, которые выше не были нами приведены, но, тем не менее, подразумевались, использовали это ненужное допущение. (Полученные не так давно результаты, показывающие совместимость современной теории множеств, рассматриваются мною не как доказательство потенциальной возможности ее использования в системах искусственного интеллекта, а, наоборот, как подтверждение ее вероятной неприменимости для наших целей.)

Когда одного известного математика предупредили, что, сделав еще один логический шаг в своем доказательстве, он придет к парадоксу, тот совершенно серьезно ответил: «А я не буду делать этот шаг». Значительная часть наших обычных (и даже математических) знаний напоминает знания людей — представителей опасных профессий, которые должны очень хорошо знать, когда и какие действия следует считать неразумными. В наших условиях нужно дать ответы на следующие вопросы: в каких случаях возможно применение тех или иных видов аппроксимаций; когда различные критерии могут предопределить получение различимых оценок; какие утверждения и какие типы ссылок допустимы и другое. Концепции, основанные на свойстве транзитивности, представляют значительный интерес и от них вовсе не следует отказываться лишь потому, что еще не найдена удовлетворительная система аксиоматизации. Подводя итоги, отметим следующее.

1. Логические рассуждения недостаточно гибки и не могут служить основой для мышления; они представляются мне в виде набора эвристических методов, эффективных только тогда, когда применяются к упрощенным схематическим планам. Совместимость, требуемая логикой, в иных аспектах обычно не обеспечивается и, вероятно, даже нежелательна, поскольку совместимые системы по своим возможностям будут, видимо, недостаточно мощными.

2. Я сомневаюсь в возможности эффективного представления обычных знаний в виде совокупности простых, независимых, «истинных» утверждений.

3. Стратегия полного отделения конкретных знаний от общих правил вывода слишком радикальна. Мы нуждаемся в разработке более непосредственных способов соединения фрагментов знаний, позволяющих дать совет, каким образом их следует использовать.

4. Декларативная форма представления информации, которую долгое время считали наиболее подходящей для проведения дедуктивных выводов, оказалась не столь уже необходимой, ибо мы нашли способы манипуляции структурными и процедуральными описаниями.

Я не собираюсь утверждать, что мышление во многом может самостоятельно развиваться без чего-либо подобного рассуждениям. Мы, без сомнения, нуждаемся и используем элементы силлогистической дедукции, однако их применение должно подчиняться процессам «согласования» и «конкретизации», вызванным к жизни другими функциональными потребностями. К традиционной формальной логике следует подходить как к техническому инструменту для уточнения всего, что может быть выведено из некоторого множества данных или для подтверждения того, что данное следствие можно получить совершенно определенным образом; формальная логика совершенно непригодна для обсуждения того, какая информация требуется и что должно выводиться при обычных обстоятельствах. Подобно абстрактной теории синтаксиса формальная логика нуждается в мощной процедуральной семантике, без которой она попросту бессильна в сложных проблемных ситуациях.

Не следует категорически утверждать, что принцип совместимости, столь важный для математической логики, оказал губительное влияние на исследования в области моделирования мышления. Однако в общем плане он привел к роковой концепции о потенциальных возможностях машин вообще. На «логическом» уровне были заблокированы попытки представления обычных знаний, ибо все работы предполагали поиск набора таких истин, которые бы не зависели от контекста и были почти всегда сами по себе справедливы. На уровне моделирования интеллекта был задержан процесс осознания того факта, что мышление всегда начинается с наводящих на мысль, но несовершенных планов и образов, которые (если это вообще имеет место) постепенно совершенствуются и заменяются лучшими вариантами.

Ф. М. Кулаков

Приложение к русскому изданию

Предлагаемая советскому читателю книга известного американского ученого Марвина Минского посвящена одной из наиболее важных и сложных проблем, обсуждаемых ныне в рамках исследований по «искусственному интеллекту», — проблеме представления знаний в памяти ЭВМ. Суть ее заключается в том, что любое «осмысленное» поведение искусственной системы в условиях реального внешнего мира требует наличия у этой системы специально организованной модели этого мира. Данные ряда фундаментальных наук и в первую очередь психологии, генетики, цитологии позволяют утверждать, что способность к информационному моделированию, к внутреннему воссозданию окружающей обстановки является основополагающей и необходимой в жизни и деятельности не только человека, но и животных. Создание искусственного интеллекта является целью бурно развивающегося нового научного направления, вся история которого свидетельствует в пользу правильности модельного подхода к решению данной проблемы. Особую значимость приобретают вопросы представления знаний о свойствах, характеристиках и закономерностях реальных внешних сред для построения робототехнических систем, обладающих широкими функциональными возможностями и высокой степенью автономии. Подобные кибернетические устройства, именуемые интегральными роботами, разрабатываются как комплексные системы, способные воспринимать и анализировать информацию о внешнем мире, принимать самостоятельные решения и формировать управляющие воздействия для исполнительных органов с целью реализации принятых решений. Очевидно, что модель мира робота должна отражать совокупность объектов и отношений реального мира, существенных для решения некоторого множества задач, на которые нацелен робот.

Сложность решения проблемы представления чрезвычайно велика, и это объясняется в первую очередь недостатком наших знаний о механизмах человеческого мышления. Результаты, полученные при изучении человеческого интеллекта, оказывают все большее влияние на решение проблемы искусственного интеллекта. Последние в свою очередь помогают ученым глубже понять принципы работы человеческого мозга.

Существует несколько направлений исследований в области искусственного интеллекта, отличающихся, в частности, своими подходами к проблеме представления знаний.

Наиболее известные методы машинного представления знания: логистический, теоретико-графовый, а также метод, использующий для описания мира вектор-функции, определенные на нормированных пространствах.

Логистический метод, используемый, например, при построении такой известной системы для решения задач, как STRIPS (P.Файкс, Н.Нильсон, 1973), основан на привлечении языка исчисления предикатов первого порядка для формирования модели внешнего мира, на использовании понятий пространства состояний, а также методов доказательства теорем и эвристических методов как основных механизмов поиска решений. Модель в данном случае представляет собой систему аксиом — предложений языка исчисления предикатов первого порядка, определяющую всю совокупность объектов, характеристик и свойств внешнего мира робота, существенных для его функционирования. В случае относительно простых, статических сред системы аксиом выглядят достаточно компактно, а существующие поисковые процедуры (такие, как метод резолюций и его модификации, эвристика «анализа целей и средств» и др.) оказываются мощным средством для выработки планов действий. Но как только возникает задача создания машинной модели реальной, динамичной, недетерминированной внешней среды, то логистический подход оказывается несостоятельным вследствие резкого усложнения как самих конструкций моделей, так и формализованного представления в них смысловых отношений между элементами внешней среды.

Кроме того, с усложнением внешнего мира число формализующих его аксиом лавинообразно растет, что приводит не просто к громоздкости машинной модели окружающей среды, но к ряду принципиальных трудностей. Они связаны, во-первых, с выбором только того подмножества из всего множества аксиом, которое имеет непосредственное отношение к решаемой в данный момент времени задаче, и, во-вторых, с активизацией и выполнением лишь тех дедуктивных процедур, которые существенны для получения конечного результата. Проблема заключается совсем не в том, чтобы из множества выведенных отобрать нужные теоремы, а в том, чтобы не выводить ненужных.

Аналогичные по характеру трудности возникают при использовании теоретико-графового метода, в рамках которого модель внешнего мира представляется в виде графа, узлы которого соответствуют возможным состояниям внешней среды, а дуги — возможным действиям, переводящим систему из одного состояния в другое.

Ограничены возможности описания реального мира и с помощью вектор-функций, определенных на нормированных пространствах, что имеет место в случае методов, использующих основные положения теории автоматического управления (Ф.М.Кулаков,1976).

Одним из возможных путей решения проблемы явился подход, предполагающий использование семантических связей между понятиями, включенными в модель внешнего мира и учет прагматики внешнего мира. Это нашло свое отражение в исследованиях советских ученых, например, П.М.Амосова в области развития М-сетей, Д. А. Поспелова, В. Н. Пушкина и Ю. И. Клыкова по ситуационному управлению, а также ряда зарубежных специалистов, в том числе Р.Шенка по теории семантической зависимости (conceptual dependency), Дж. Уилкса в области семантики предпочтений (preference semantics), Ч. Ригера по теории семантических наложений (conceptual overlays) и др.

Наиболее значительной среди появившихся за последние годы была теория фреймов (frames) M. Минского, привлекшая к себе пристальное внимание специалистов в области искусственного интеллекта (Р. Шенк, Р. Абельсон, 1975; Дж. Лаубш, 1975; Дж. Майлопулос, П. Коэн, А. Борджида, Л. Шугар, 1975; Д. А. Поспелов, 1976; Д. А. Поспелов, Е. Н. Ефимов,1977; Н. Н. Перцова,1977 и др.). Впервые теория была опубликована в 1974 г.

В своей теории М. Минский отказался от попыток формировать модель внешнего мира на основе разрозненных, отдельных фактов или понятий. Центральным моментом является его утверждение о том, что любая машинная модель, отражающая сложности реального мира, должна строиться в виде достаточно большой совокупности определенным образом сформированных данных — фреймов, представляющих собой модели стереотипных (часто повторяющиеся) ситуаций. Ситуация понимается здесь в обобщенном смысле, т. е. это может быть действие, рассуждение, зрительный образ, повествование и т.д. Фрейм представляет собой не одну конкретную ситуацию, а наиболее характерные, основные моменты ряда близких ситуаций, принадлежащих одному классу. В переводе с английского frame означает скелет, остов, рамка, что лишний раз подчеркивает общность представленных в нем сведений о моделируемом явлении. Графически фрейм можно изобразить в виде сети, состоящей из узлов и связей между ними. Каждый узел представляет собой определенное понятие, которое — и в этом заключается основной смысл теории — может быть, а может и не быть задано в явном виде. В последнем случае оно может быть конкретизировано в результате процесса согласования данного фрейма с некоторой конкретной ситуацией, имеющей место во внешнем мире. Незаданные в явном виде узлы называются терминалами. Они образуют нижние уровни графовой структуры, тогда как на верхних уровнях располагаются понятия, которые всегда справедливы в отношении представляемой данным фреймом ситуации. Таким образом, совокупность заданных в явном виде узлов — понятий образует основу для «понимания» любой конкретной ситуации из определенного для данного фрейма класса ситуаций. «Понимание» происходит путем конкретизации терминалов и согласования возможных для каждого из них понятий с вполне определенной, существующей во внешнем мире обстановкой. Центральным моментом является использование одних и тех же терминалов различными фреймами, что позволяет координировать информацию, собираемую из разных источников. Группы связанных между собой фреймов объединяются в системы, которые могут отражать действия, причинно-следственные связи, изменения понятийной точки зрения и т. д.

В своей теории М. Минский не проводит границы между теорией человеческого мышления и теорией построения «думающих» машин (искусственного интеллекта). Он полагает, что процессы человеческого мышления базируются на хранящихся в его памяти материализованных, многочисленных запомненных структурах данных — фреймах, с помощью которых человек осознает зрительные образы (фреймы визуальных образов), понимает слова (семантические фреймы), рассуждения, действия (фреймы-сценарии), повествования и т.д. Процесс понимания при этом сопровождается активизацией в памяти соответствующего фрейма и согласованием его терминальных вершин с текущей ситуацией. В случае неудачи из памяти с помощью сети поиска информации, объединяющей системы фреймов, «выбирается» другой фрейм, терминалы которого, возможно, окажутся между собой в более подходящих отношениях применительно к той же рассматриваемой ситуации.

Процесс последовательной замены одного фрейма другим особенно наглядно проявляется в таких областях человеческого мышления, как понимание естественного языка, рассуждение, вывод по аналогии и др. Это следует из наших интуитивных представлений о процессе мышления, который начинается с наводящих на мысль, но несовершенных образов, прогрессивно заменяемых лучшими, но всё еще несовершенными идеями.

Представление знаний о мире с помощью систем фреймов оказывается весьма плодотворным во многих областях исследований по искусственному интеллекту, начиная от понимания естественного языка и кончая проблемами машинного восприятия слуховых и зрительных образов. Подтверждением тому служат многочисленные работы таких известных специалистов в области искусственного интеллекта, как Р.Шенк, Р.Абельсон, Ч.Ригер, Е.Чарняк, Дж.Уилкс и др., посвященные конкретизации и развитию теории фреймов.

Весьма обнадеживающим является использование концепции фрейма и применительно к задаче построения информационно-управляющего комплекса манипуляционного робота. Исследования в этом направлении проводятся в Ленинградском научно-исследовательском вычислительном центре АН СССР под руководством В.М.Пономарева и Ф.М.Кулакова.

Вместе с тем следует отметить, что подход М.Минского к решению проблемы представления знаний не лишен недостатков. В частности, человек способен понять не только известные, но и новые ситуации, к чему фреймы пока еще не приспособлены. Видимо, разработка механизмов машинного «понимания» новых фактов на базе системы фреймов точно так же, как и развивающихся во времени действий, еще впереди.

Существует еще целый ряд вопросов, которые не затрагиваются автором в данной книге. Например, проблема принятия решений на базе системы фреймов, в том числе проблема планирования действий робота. Однако это не следует понимать как недостаток данной работы, поскольку автор ставил перед собой цель изложить в ней общие вопросы теории фреймов и дать толкование ее основных положений.

Своеобразное изложение автором материала довольно трудно для восприятия. Именно поэтому книга дополнена настоящим материалом, в котором сделана попытка краткой интерпретации работы М.Минского. Этот материал не претендует на полное отображение всех идей настоящей книги, а имеет более конкретный характер благодаря включению в него примеров некоторых приложений теории фреймов. Примеры взяты из работ Р. Шенка (1975), Р. Абельсона (1973), И. Ригера (1975), а также составлены автором настоящего приложения.

Чтобы сделать изложение материала этого приложения замкнутым, понятным без обращения к переводу книги, в него включены в сжатой форме некоторые фрагменты перевода. Хотелось бы отметить, что весьма сложная форма изложения материала первоисточника в сочетании с еще не устоявшейся терминологией серьезно затрудняли перевод. В связи с этим считаю своим приятным долгом выразить благодарность В. М. Пономареву, Д. А. Поспелову, и В. Л. Стефанюку за ценные советы в процессе работы над книгой.

Глава 1

Суть проблемы представления знаний

Проблема представления знаний является тем ключевым пунктом, через который проходят пути к достижению успеха, пожалуй, во всех направлениях исследований по искусственному интеллекту, начиная от проблем понимания естественного языка и кончая проблемами машинного восприятия зрительных образов и речи.

Очевидная первопричина сложности создания машинной модели реального мира кроется в бесконечном многообразии этого мира.

Действительно, представим себе, что такую модель необходимо создать для робота, предназначенного для выполнения неограниченного набора приказов человека и функционирующего в среде неограниченной вариативности. Если попытаться решить задачу «в лоб», путем представления модели мира в виде набора программ, каждая из которых соответствует последовательности возможных действий робота при выполнении одного из приказов, осуществляемых с учетом конкретных условий внешнего мира робота (состояния внешней среды), то возникают по крайней мере две непреодолимые трудности, обусловленные бесконечным многообразием реального мира. (Под условиями внешнего мира понимается не только мир, воссоздаваемый сенсорами робота, но и априорные знания о закономерностях реального мира).

Первая из них связана с необходимостью наличия в памяти ЭВМ неограниченного набора программ, каждая из которых рассчитана на выполнение приказа при определенном состоянии внешней среды.

Вторая трудность порождена необходимостью соотнести данный приказ оператора и состояние внешней среды робота с конкретной программой из этого неограниченного набора, ответственной за выполнение данного приказа в конкретной внешней ситуации, и выбрать эту программу из памяти за приемлемое весьма ограниченное время.

Иными словами, речь идет о машинном «понимании» за ограниченные отрезки времени языка приказов и «языка сенсоров», с помощью которых воспринимаются те особенности внешнего мира, которые важны для выполнения приказа. И если в отношении «понимания» языка приказов можно несколько уменьшить трудности за счет, например, использования приказов однозначного толкования, то в отношении понимания «языка» сенсоров это сделать невозможно.

Приведенные трудности объясняют нереальность создания модели реального мира таким путем. Несмотря на это, такой подход всё же несет одно ценное свойство. По крайней мере, на интуитивном уровне ясно, что каждую из программ, ответственную за выполнение данного приказа, можно построить так, чтобы учесть все необходимые для выполнения приказа особенности внешнего мира робота, причем реального внешнего мира со всем его многообразием и сложностью, что невозможно при использовании известных подходов из-за принципиальной ограниченности средств описания внешнего мира, характерных для этих подходов.

Конечно, ограниченность машинной памяти не позволит иметь большого количества таких программ, но в случае маловариативных сред и невысоких требований к диапазону функциональных возможностей робота реально получение приемлемых технических решений.

Очевидный путь, позволяющий, по-видимому, несколько уменьшить трудности создания машинной модели реального мира, лежит через кардинальное уменьшение числа входящих в модель программ при сохранении общего объема знаний о мире, содержащихся в этой модели.

Это можно было бы осуществить, если бы удалось определенным образом упорядочить, структурировать программы, образующие модель.

С этой целью, во-первых, полезно найти и выделить в разнообразных возможных действиях общие универсальные фрагменты, с помощью которых можно компоновать эти действия. Очевидно, из т таких универсальных фрагментов в пределе можно скомпоновать (1!+2!+3!+…+ m!) разнообразных действий, если даже ограничить число используемых для описания действия фрагментов величиной m, т.е. имеет место колоссальный выигрыш в использовании памяти, тем больший, чем больше т.

Во-вторых, необходимо стремиться так построить программы, входящие в модель реального мира для робота, чтобы каждая из них была способна формировать широкий набор (в пределе бесконечный) разнообразных действий, варьируемых, например, в зависимости от характера информации, собираемой определенной группой сенсоров, или от модификации приказов.

Глава 2

Характерные особенности фрейм-подхода к проблеме представления знаний

Одним из возможных новых путей организации машинной модели реального мира является подход, развиваемый М.Минским. В соответствии с этим подходом знания о мире — машинная модель реального мира — должны быть представлены в памяти ЭВМ в виде достаточно большой совокупности определенным образом структурированных данных, представляющих собой стереотипные ситуации. Эти структуры запомненных данных получили название «фреймы». В случае возникновения конкретной ситуации, например, необходимости совершить роботом, управляемым ЭВМ, определённое действие, воспринять с помощью сенсоров, связанных с ЭВМ, какой-то зрительный образ и т.д., из памяти ЭВМ должен быть выбран фрейм, соответствующий данному классу ситуаций и согласован с рассматриваемой конкретной ситуацией из этого класса путем изменения подробностей, т.е. путем конкретизации данных из набора, которые могут удовлетворить выбранный фрейм.

Так как фрейм можно представить себе в виде сети, состоящей из узлов и связей между ними, то каждый узел должен быть заполнен своим «заданием», представляющим собой те или иные характерные черты ситуации, которой он соответствует. В общем случае во фрейме можно выделить несколько уровней, иерархически связанных друг с другом. Узлы фрейма, принадлежащие к верхним уровням, представляют собой более общие вещи, которые всегда справедливы в отношении предполагаемой ситуации. Эти узлы уже заполнены своими заданиями. Например, узел самого верхнего уровня фрейма обычно заполнен названием ситуации, т. е. названием зрительного образа (это может быть, например, «куб»), названием действия (например, «уборка комнаты»). Узлы нижних уровней по большей части не заполнены своими заданиями. Такие незаполненные узлы называют терминалами. Они должны быть заполнены конкретными данными, представляющими собой их возможные задания в процессе приспособления фрейма к конкретной ситуации, из того класса ситуаций, который представляет данный фрейм. Каждый терминал может устанавливать условия, которым должны отвечать его задания. Простые условия устанавливаются «маркерами», которые могут потребовать, например, чтобы заданием терминала было какое-то лицо, какой-то предмет достаточной величины, какое-то элементарное действие или «указатель» на какой-то другой фрейм, представляющий собой другую, обычно более частную ситуацию и называемый субфреймом. Более сложные условия могут устанавливать связи между заданиями для нескольких терминалов.

Группа фреймов может объединяться в систему фреймов. Результаты характерных действий отражаются с помощью трансформаций между фреймами системы. Они используются, чтобы ускорить вычисления определенных видов при представлении типичных изменений одной и той же ситуации.

В случае зрительного образа различные фреймы системы описывают картину с различных точек наблюдения, а трансформация одного фрейма в другой отражает результаты перемещения из одного места в другое. Для фреймов невизуальных видов различия между фреймами системы могут отражать действия, причинно-следственные связи и изменения понятийной точки зрения. Различные фреймы системы используют одни и те же терминалы. Это важное обстоятельство, благодаря которому, в частности, экономится объем памяти ЭВМ, используемой для построения модели реального мира. Характерной чертой описываемого подхода является возможность использования различных видов прогнозов, ожиданий, предположений. В соответствии с этим терминалы фрейма, выбираемого для представления ситуации, обычно уже заполнены заданиями, которые наиболее вероятны в данной ситуации. Эти задания называются «заданиями отсутствия».

Таким образом, фрейм может содержать большое число деталей, которые могут и не подтвердиться данной ситуацией. Задания отсутствия «непрочно» связаны со своими терминалами, поэтому они могут быть легко «вытеснены» другими заданиями, которые лучше подходят к текущей ситуации.

После того как выбран фрейм для представления ситуации, процесс согласования фрейма с данной конкретной ситуацией состоит в нахождении таких заданий для терминалов фрейма, которые совместимы с маркерами терминалов. Процесс согласования частично контролируется информацией, связанной с фреймом (в которую входит и информация относительно того, как действовать в случае появления необычных ситуаций, «сюрпризов»), а частично знанием текущих целей.

Если выбранный фрейм не удается согласовать с реальностью, т. е. если невозможно найти задания для терминалов, которые соответствующим образом согласуются с условиями маркера, то происходит обращение к так называемой сети поиска информации, с помощью которой соединяются между собой системы фреймов. Эта сеть позволяет найти другие способы представления знаний о фактах, аналогиях и другой информации, которую можно использовать для согласования с реальностью.

Теория представления знаний с помощью фреймов, развиваемая М.Минским, претендует на объяснение ряда характерных особенностей человеческого мышления. По мнению автора, она позволяет охватить единой концепцией такие, казалось бы, разные теории, как понимание естественного языка, машинного «восприятия» зрительных образов, поиска решений, планирования, в том числе применительно к задачам управления роботами. Она объединяет многие классические и современные идеи психологии, лингвистики, а также искусственного интеллекта. В частности, эта теория обобщает идеи, высказанные в ряде известных работ по искусственному интеллекту, например в работах А.Ньюэлла, Г.Саймона(1972), в которых знания о мире представляются с помощью пространств подзадач, в работах Р.Шенка(1973), Р.Абельсона(1973), где модель мира представляется пространством «сценариев», наконец, в работах С.Пейперта(1972) и самого М.Минского(1972), в которых предлагается подразделить знания на «микромиры».

В своей теории М.Минский не проводит границы между теорией человеческого мышления и теорией построения «думающей» машины (искусственного интеллекта). Он считает, что и процесс мышления человека основан на наличии в его памяти каким-то образом материализованного огромного набора разнообразных фреймов, с помощью которых человек осознает зрительные образы (фреймы визуальных образов), понимает слова (семантические фреймы), рассуждения, действия (фреймы-сценарии), повествования (фреймы-рассказы) и т.д. Процесс понимания при этом сопровождается выбором из памяти соответствующего фрейма, у которого терминалы уже заполнены заданиями отсутствия, и приспособлением его к текущей ситуации. Если это не удается, то из памяти выбирается новый более подходящий к ситуации фрейм. В случае, когда и этот фрейм не достаточно хорошо согласуется с ситуацией и поиски нового не приводят к удаче, происходит приспособление наиболее отвечающего ситуации фрейма, который был обнаружен в процессе поиска.

2.1. Фрейм — визуальный образ

В качестве простейшего примера, иллюстрирующего представление знаний с помощью фреймов, рассмотрим приведенную в работе М.Минского возможную систему фреймов для элементарного зрительного образа — куба. В соответствии с использованным в работе А.Гузмана(1967) символическим представлением тел правильной формы с помощью «областей» и «связей» между ними можно допустить, что результатом разглядывания куба является структура, подобная показанной на рис.П1а. Эту структуру можно идентифицировать с фреймом куба при разглядывании его с соответствующей позиции. Области A, E и B являются терминалами фрейма, задания для которых соответствуют возможным деталям или обозначениям на видимых с данной позиции гранях куба. Если позиция наблюдения куба перемещается вправо, то грань А исчезает из поля зрения и становится видимой грань С.

Если бы потребовалось провести полный анализ этого нового визуального образа, необходимо было бы:

1) утратить знания о грани А,

2) повторно воспринять (с помощью соответствующих «вычислений») образ грани В,

3) воспринять образ новой грани С.

Однако, поскольку известно, что произошло перемещение позиции наблюдения вправо, можно сохранить знания о грани В в виде задания терминалу левой грани нового фрейма куба, соответствующего новой позиции наблюдения. Кроме того, чтобы сохранить знания и о грани А, можно ввести дополнительный терминал невидимой грани, относящийся к этому новому фрейму, как это показано на рис.П1б.

При возвращении на начальную позицию наблюдения оказывается возможным восстановить визуальный образ куба без каких-либо новых «вычислений». Для этого достаточно «вызвать» из памяти первый фрейм. Очевидно, полезно сохранить знания и о грани С, для чего можно ввести дополнительный терминал этой невидимой грани в первом фрейме (рис.П1б).

Можно продолжить эту процедуру построения системы фреймов, соответствующую перемещению точки наблюдения вокруг куба. Это привело бы к получению более широкой системы фреймов, в которой каждый фрейм соответствует своей позиции наблюдения куба. На рис.П1в показана система фреймов, состоящая из трех фреймов, каждый из которых представляет визуальный образ, получающийся в одной из трех позиций наблюдения. Две из этих позиций соответствуют перемещению вправо и влево на 45° относительно третьей позиции; указатели между фреймами соответствуют перемещениям точки наблюдения. Важно обратить внимание на выявленное в этом примере важное свойство представления ситуации с помощью системы фреймов. Оно состоит в том, что различные фреймы, входящие в систему, используют один и тот же терминал, соответствующий одной и той же физической черте, которая видна из различных позиций наблюдения. Это позволяет заранее сосредоточить в одном месте информацию о свойствах известных объектов независимо от позиций наблюдения, которых, особенно для предметов сложной формы, может быть очень много. В результате экономится память и сокращается процесс восприятия при изменении позиций наблюдения, так как память уже располагает необходимой информацией и время затрачивается лишь на «извлечение» ее из памяти.

Сами же системы фреймов, по-видимому, сформированы в памяти не для визуальных образов каждого возможного предмета, а для обычно используемых «основных форм», которые, вступая в различные комбинации, образуют системы фреймов для новых случаев. Это создает дополнительные возможности экономии памяти. Так же, как и в случае отдельных заранее сформированных терминалов, принадлежащих фрейму, наличие в памяти заранее заготовленного набора систем фреймов ускоряет процесс восприятия, так как новый образ не приходится строить заново, а только извлекать его из памяти и «приспосабливать» к действительности.

2.2. Фрейм-сценарий

Отмеченные свойства, позволяющие экономить память и время восприятия, очевидно, могут проявляться и при представлении невизуальных знаний о мире. Действительно, системы невизуальных фреймов, например описываемых ниже фреймов-сценариев, можно представить как одно из возможных пониманий предмета обсуждения; например, электрогенератор можно представить как механическую и как электрическую системы. Любые знания о мире можно представить себе в виде некоторых общих универсальных фрагментов, которым соответствуют свои системы фреймов и из которых можно формировать новые системы фреймов, соответствующие некоторым новым представлениям.

Представление знаний о мире с помощью фреймов оказывается весьма плодотворным при объяснении механизмов понимания человеком естественного языка, рассуждений, повествований, наблюдаемых действий другого лица и т. д. По-видимому, оно будет полезным и при разработке искусственных механизмов реализации вышеперечисленных функций с помощью ЭВМ.

В работе М.Минского в этом случае предлагается строить знания о мире в виде фреймов-сценариев. Фрейм-сценарий по М.Минскому представляет собой типовую структуру для некоторого действия, понятия, события и т. п., включающую характерные элементы этого действия понятия, события. Например, фрейм-сценарий для события, состоящего в праздновании дня рождения ребенка, включает следующие элементы, которые можно трактовать как узлы фрейма, заполненные заданиями отсутствия:

Одежда: воскресная, самая лучшая;

Подарок: должен понравиться.

Для объяснения быстрого понимания человеком ситуации, представляемой сценарием, в работе Р.Шенка, Р.Абельсона(1975) предлагается отождествлять терминалы фрейма-сценария с наиболее характерными вопросами, обычно связанными с этой ситуаций. Ответы на эти вопросы полезно получить для понимания данной ситуации. По существу фрейм-сценарий в этом случае является собранием вопросов, которые необходимо задать относительно некоторой гипотетической ситуации, и способов ответа на них.

Для фрейма-сценария — дня рождения ребенка в число таких вопросов войдут следующие:

Что должны надеть гости?

Выбран ли подарок для ребенка?

Понравится ли ему подарок?

Где купить подарок?

Где достать денег? и т. д.

Для того чтобы понять действие, о котором рассказывается или которое наблюдается, человек часто вынужден задать такие вопросы:

«Кто осуществляет действие (агент)?»,

«Какова цель действия (намерение)?»,

«Каковы последствия (эффект)?»,

«На кого это действие влияет (получатель)?»,

«Каким образом оно произведено (инструмент)?».

Относительно понимания вещей, отличающихся от действий, задают несколько иные вопросы, и эти вопросы могут быть значительно меньше локализованы, чем в случае понимания действий, например: «Почему они говорят это мне?», «Каким образом я могу выяснить больше об X?», «Каким образом это поможет в решении проблемы?» и т.д. По рассказу спрашивают, какова тема, каково отношение автора, какое главное событие, кто является главным героем и т. д. По мере того, как на каждый вопрос дается предварительный ответ, из памяти могут вызываться новые фреймы, соответствующие ситуациям, которые возникают в результате ответов на вопросы. Вопросы — терминалы этих новых фреймов становятся в свою очередь активными.

Следует отметить, что число вопросов, связанных с фреймом неопределено, и на первый взгляд кажется, что для понимания ситуации их может быть очень много. Однако на практике оказывается достаточным задать весьма мало вопросов, чтобы разобраться в ситуации.

Разные люди могут задавать разное число вопросов относительно одной и той же ситуации. Число и характер этих вопросов в большой степени зависят от базы знаний относительно обсуждаемого объекта у того или иного индивидуума. Может оказаться, что полное понимание не будет достигнуто из-за отсутствия у человека необходимой системы фреймов, объединяющих знания об обсуждаемом предмете.

Однако, когда необходимая база знаний существует, а относительно обыденных понятий, действий, рассуждений она есть у любого человека, то для понимания ситуации обычно достаточно не очень большое количество вопросов. Это весьма принципиальное обстоятельство, благодаря которому на интуитивном уровне мы приходим к весьма обнадеживающему для практики положению, состоящему в том, что большое количество реальных ситуаций, возникающих при понимании языка, рассуждений, действий можно понять, получив ответы на ограниченный круг вопросов. Это косвенно подтверждает возможность построения относительно простых моделей мира в данном случае с помощью фреймов, достаточных для принятия решений в этих ситуациях.

В случае фреймов-сценариев маркеры терминалов фрейма становятся более сложными, чем это было в случае фреймов визуальных образов, и определяют рекомендации относительно того, каким образом надо отвечать на вопросы, т. е. заполнять терминал заданием. Каждый терминал должен содержать рекомендации относительно того, каким образом найти его задание — ответ на вопрос. Задания отсутствия или перечень возможных ответов на вопросы являются самыми простыми особыми случаями таких рекомендаций. По-видимому, человек может иметь иерархический набор таких рекомендаций подобно схемам предпочтения, предложенным в работе Дж.Уилкса(1973).

В соответствии с подходом М. Минского полное и всестороннее представление каждой ситуации типа событие, действие, рассуждение и т.п. подобно представлению визуального образа и осуществляется с помощью не одного, а системы фреймов. Каждый фрейм системы соответствует одной из возможных точек зрения на ситуацию, представляемую системой фреймов, подобно тому, как один из визуальных фреймов системы представляет визуальный образ из некоторой одной точки наблюдения. Различные фреймы системы представляют различные пути использования одной и той же информации, находящейся на общих терминалах. Как и в «визуальной ситуации», человек, понимая или передавая мысль, «выбирает» один из фреймов. Этот выбор «по существу» состоит в выборе вопросов, которые нужно задать относительно рассматриваемой ситуации.

В интерпретации Р.Шенка, Р.Абельсона(1975) сценарий представляет собой последовательность действий, которые описывают часто встречающиеся ситуации. В этой последовательности действий используется принцип каузальной связи, т. е. результатом каждого действия являются условия, при которых может произойти следующее действие.

Каждый сценарий имеет исполнителей ролей. Он имеет различные интерпретации, отражающие точки зрения различных исполнителей. Таким образом, его можно рассматривать как систему фреймов.

Количество сценариев, отражающих возможные ситуации, встречающиеся в реальной жизни, огромно. Сюда относится и упомянутый выше день рождения ребенка и игра в футбол, занятия в школе и т. д. Ниже приводится сценарий посещения ресторана с точки зрения посетителя.

Сценарий: ресторан

Роли: посетитель, официантка, шеф, кассир

Цель: получить пищу, чтобы утолить голод

Сцена I. Вход

Войти в ресторан

Глаза направить туда, где есть пустые столы

Выбрать, где сесть

Направиться к столу

Сесть

Сцена II. Заказ

Получить меню

Прочитать меню

Решить, что хочешь заказать

Сделать заказ официантке

Сцена III. Еда

Получить пищу

Съесть пищу

Сцена IV. Уход

Попросить счет

Получить чек

Направиться к кассиру

Заплатить деньги

Выйти из ресторана

В каждом сценарии средства выполнения действий могут варьироваться по обстоятельствам. Например, в сцене II заказ можно сделать письменно, устно и даже (в другой стране при незнании языка) жестами. В сцене IV выплата денег может быть осуществлена кассиру, официанту или словами «Включите в мой счет».

Возможно также, что обычная последовательность действий может нарушаться. Имеется по крайней мере три характерных случая такого нарушения. Первый — это отклонение, которое представляет собой прерывание последовательности действий сценария другим сценарием. Другие два случая называются препятствием и ошибкой. Препятствие имеет место тогда, когда кто-то или что-то мешает обычному действию или отсутствует какое-то условие, необходимое для выполнения действия. Ошибка появляется тогда, когда действие завершается не так, как требуется. В принципе после каждого элементарного действия сценария могут возникнуть препятствия и ошибки, поэтому в сценарий вводятся различные наборы вопросов типа «а что если...», ответ на которые необходимо получать после каждого элементарного действия. При положительном ответе на один из них в сценарии предусматриваются новые действия, устраняющие препятствия и ошибки. Например, в сцене II сценария «ресторан», если официантка не замечает посетителя, он попытается встретиться с ней взглядом или окликнуть её.

Таким образом, сценарий — не просто цепь событий, а скорее связанная каузальная цепочка действий. Он может разветвляться на множество возможных путей, которые сходятся в особо характерных для сценария точках — элементарных действиях. Для сценария в ресторане такими действиями являются «прием пищи» и «уплата денег».

Для того чтобы знать, когда пользоваться сценарием, нужны заголовки. Эти заголовки определяют обстоятельства, при которых обращаются к данному сценарию.

Из приведенного описания сценариев нетрудно установить аналогию между пониманием сценария по М.Минскому и по Р.Шенку. Действительно, как в том, так и в другом случае сценарии описывают стереотипные, обычно встречающиеся ситуации. Правда, в случае Р.Шенка сценариями охватывается несколько более узкий класс ситуаций, описываемый последовательностями действий. Как в том, так и в другом случае со сценарием связан определенный круг вопросов. Однако в случае Р.Шенка имеет место более конкретный и узкий круг вопросов типа «а что если ...», а также вопросы, ответы на которые определяют выбор средств, определяющих действия сценария.

Поскольку в соответствии с высказанным ранее положением процесс понимания человеком реальной ситуации есть выбор из памяти и приспособление к этой ситуации соответствующего фрейма, возникает вопрос о возможном механизме этого акта.

Глава 3

Способ формализации фреймов

Одни из множества возможных способов формализации фрейма-сценария предполагает представление его в виде сети следующей иерархической структуры (рис.П2).

Узел самого верхнего уровня сети (на рисунке ему соответствует кружок, обведенный жирной линией) отождествляется с заголовком сценария. Дочерние вершины этого узла, обозначенные на рисунке прямоугольниками, являются терминалами фрейма. Они отождествляются с набором вопросов типа «а что если...» или в общем случае с набором любых других вопросов — тестом. Каждое из возможных заданий терминала, являющееся элементарным действием и обозначенное на рисунке кружком внутри прямоугольника-терминала, соответствует значению теста, т. е. совокупности ответов на набор вопросов. В простейшем случае имеется конечный перечень возможных ответов, который и определяет маркер терминала.

Каждое из возможных заданий терминала рассматривается в свою очередь как фрейм следующего по рангу уровня (субфрейм) со своими терминалами, которые представляются на рисунке дочерними вершинами заданий — субфреймов и обозначаются прямоугольниками. Каждый из этих терминалов низшего ранга так же, как и терминалы фрейма верхнего ранга, отождествляется со своим тестом. Задания терминалов следующего по рангу уровня, также обозначенные кружками, являются более мелкими и сильнее конкретизированными элементарными действиями. Каждое из них соответствует значению теста. Если и эти задания еще не являются достаточно конкретными, то фрейм может иметь еще один более низкий по иерархии уровень.

Нетрудно убедиться, что описанная структура сводится к обычному графу И/ИЛИ, если отождествить терминалы фреймов и субфреймов, обозначенные на рис.П2 прямоугольниками, с вершинами типа И, задания этих терминалов — с вершинами ИЛИ, а каждой дуге, идущей от вершины И к ИЛИ, поставить в соответствие значение теста. На рис.П3 дано представление ранее представленного фрейма (рис.П2) в виде графа И/ИЛИ. Заметим, что при такой формализации дочерними вершинами для верхнего узла будут вершины типа И.

Отметим, что терминалы фрейма и субфреймов в предлагаемой формализации можно в большинстве случаев отождествлять не только с тестом, но и с действием, которое является обобщением всех действий, определяемых возможными заданиями терминала. При таком представлении все вершины И/ИЛИ графа, формализующего фрейм, соответствуют действиям, причем тем более конкретизированным, чем ниже по иерархии вершина. Часто полезным оказывается использование обобщения графа И/ИЛИ, описывающего фрейм-сценарий, которое получается за счет представления вершинами графа не действий той или иной степени общности, а так называемых «схем действий». Эти схемы определяют лишь общую структуру действия, т.е. в них могут быть не определены конкретно или действующие лица, или средства действия, или место действия и т. п., или, наконец, и то и другое вместе. Например, возможна следующая схема действия: Х прибыть в V, где Х может быть любым конкретным лицом, а V — любым конкретным местом. Чем ниже по иерархии вершина, тем более конкретно определяет она действие.

Важно подчеркнуть, что, если база знаний о мире образована в ЭВМ совокупностью таким образом формализованных фреймов-сценариев, то очень вероятна возможность многократного вхождения одних и тех же схем действий в разные фреймы-сценарии. Эта вероятность тем больше, чем большее количество фреймов включает база знаний. Для использования этого обстоятельства с целью экономии памяти полезно связать каждую схему действия с каждым своим вхождением во фреймы, образующие базу знаний, посредством «множества вхождений», которое представляет указания на все те места в базе знаний, где есть ссылки на данную схему. Кроме того, каждая схема действия связана с объемлющей ее схемой.

3.1. Примеры формализованного представления фреймов-сценариев

Приведенный выше фрейм-сценарий ресторана легко можно изобразить в виде такой графовой структуры И/ИЛИ (рис.П4). Номера сцен и действий сценария присвоены вершинам графа, представляющим соответствующие действия. Заголовок фрейма-сценария соответствует вершине графа. Каждая из четырех сцен соответствует вершине И, т.е. терминалу фрейма.

Две первые И вершины, соответствующие входу в ресторан и заказу обеда, имеют по две вершины ИЛИ, остальные две — по одной. Первые вершины ИЛИ первых двух вершин И соответствуют действию, совершаемому при утвердительном ответе на вопросы «а что если посетитель уже в ресторане», «а что если заказ сделан другом». Очевидно, в этом случае действия не нужны и вершины пусты. Все остальные ИЛИ вершины так же, как и их материнские вершины, соответствуют входу, заказу, еде, уходу.

Каждая из этих вершин имеет вершины И, соответствующие действиям, помеченным в сценарии арабскими цифрами. Наконец, вершины И 9 и 16 имеют по три дочерних вершины ИЛИ, соответствующие вариантам заказа и уплаты денег.

Другой иллюстрацией представления фрейма-сценария в виде графа И/ИЛИ является фрейм-сценарий (рис.П5), взятый из работы И. Ригера (1975).

Вершина этого графа соответствует названию сценария «кража». Она имеет две дочерние вершины И, одна из которых представляет собой схему действия вора X, вторая — потерпевшего Z после кражи.

Дочерние вершины ИЛИ представляют собой более конкретные схемы действий потерпевшего. В данном случае имеет место шесть вариантов действия вора и девять вариантов действий потерпевшего. Всего имеется пятнадцать вершин ИЛИ. Выбор каждой из них зависит от значения теста, который представляется списком вопросов. Функция выбора осуществляется с помощью так называемой тернарной сети переходов (рис.П6). Каждый узел этой сети представляет собой вопрос, входящий в тест, а каждая из трех дуг, исходящих из узла, соответствует трем возможным ответам на вопросы: «да», «нет», «не известно».

В зависимости от ответа на вопрос выбирается тот или иной узел сети, определяющий очередной вопрос теста. В результате имеет место продвижение по сети по тому или иному пути в зависимости от характера ответов. Оно заканчивается попаданием в один из заключительных узлов, каждый из которых соответствует рекомендуемому действию.

Дочерние вершины И еще более конкретизируют действия, представляемые вершинами ИЛИ. На рис.П5 раскрыты лишь две из вершин ИЛИ. Первая соответствует схеме действий: «потерпевший Z отбирает вещь Y у вора X». Эта схема предполагает три обязательных последовательно совершаемых действия, представляемых изображенными на рис.П5 тремя вершинами типа И. Каждая из этих вершин имеет дочерние вершины типа ИЛИ. На рис.П5 представлено несколько вершин типа ИЛИ, относящихся к первой из вершин типа И, представляющих собой уточненные варианты схемы действия «потерпевший Z прибывает к X». Уточнение происходит за счет конкретизации средства действия, в данном случае — перемещения (лошадь, машина, пешком). Далее на рис.П5 раскрыта одна из вершин ИЛИ, соответствующая передвижению на лошади.

Вторая вершина ИЛИ соответствует схеме действия «потерпевший Z сообщает властям о краже». Эта схема имеет две обязательные схемы действия, первая из которых совпадает со схемой действия, представляемой дочерней вершиной вышерассмотренной вершины ИЛИ. Однако если в первой схеме под Х понимается вор, то во второй — власти.

3.2. Механизмы «приспособления» фрейма к реальной ситуации

Рассмотрим теперь возможные механизмы выбора из памяти фрейма и приспособления его к реальной ситуации. Как отмечено у М.Минского, именно этот процесс лежит в основе понимания человеком реальной ситуации. В случае же машинной базы знаний этот процесс открывает доступ к знаниям, материализированным в памяти ЭВМ в виде совокупности систем фреймов.

Этот механизм приводится в действие двумя дополняющими друг друга потребностями. Первая — состоит в необходимости нахождения заданий терминалам фрейма, удовлетворяющим маркерам этих терминалов. Вторая — обусловлена требованием, чтобы рассматриваемый фрейм удовлетворял маркерам терминала более общего фрейма, объемлющего первый. Иными словами, каждый фрейм считается приспособленным к ситуации, если он включен в более крупный фрейм в качестве задания его терминалу и если его терминалы заполнены заданиями, удовлетворяющими маркерам.

В процессе понимания рассуждения, рассказа, точно так же, как и восприятия образа, ключевые слова, идеи рассуждения, элементы образа вызывают из памяти различные совокупности фреймов, большинство терминалов которых еще не согласовано с реальностью, а заполнено заданиями отсутствия. По мере поступления новой информации выясняется, что некоторые из первоначально выбранных из памяти субфреймов не согласуются с реальностью. Они заменяются другими более подходящими субфреймами, удовлетворяющими двум вышеприведенным условиям.

В простейшем случае такая замена осуществляется путем так называемой операции согласования. Она имеет место, когда отсутствуют особые знания относительно того, как поступать при смене фрейма, кроме некоторой общей стратегии. Эта стратегия состоит в выборе после поступления очередной порции входной информации такого фрейма, для которого вся ранее поступившая информация, например текст в случае понимания языка, и порция новой удовлетворяют маркерам его терминалов.

Проиллюстрируем эту стратегию на простом примере. Пусть в базу знаний входят два фрейма А и В, представленные в виде графовой структуры И/ИЛИ (рис.П7а). Первая порция входной информации соответствует заданию 1 (зачерненный круг). Оно удовлетворяет одному из трех T1, Т2, Т3 терминалов фрейма А — Т2. Это задание является субфреймом фрейма А; субфрейм вызывается из памяти со своими терминалами T'1 и T'2, заполненными заданиями отсутствия 1 и 2.

На рис.П7б структура активизированного субфрейма показана жирными линиями. Новая порция информации соответствует заданию 2. Она удовлетворяет одному из терминалов активизированного субфрейма и вытесняет задание отсутствия 2, ранее занимавшее этот терминал, так как оно не совпадает с воспринятым заданием 2. В результате происходит уточнение активизированного субфрейма, структура которого изображена на рисунке П7в. Следующая порция информации — задание 3, как видно из графовой структуры И/ИЛИ, не может быть заданием ни одного из терминалов Т'1, T'2 субфрейма задания 1, а является заданием одного из терминалов Т"1, Т"2 субфрейма а (рис.П7г).

В соответствии с используемой стратегией все три порции воспринятой информации должны удовлетворять терминалам одного фрейма. Очевидно, этим фреймом может быть только фрейм А, так как субфрейм а является заданием одного из трёх его терминалов, задание же 1 является заданием другого терминала Т2 и в качестве субфрейма объемлет задание 2, так как последнее является заданием этого субфрейма. В результате фрейм А вызывается из памяти в виде структуры, изображенной на рисунке П7г жирными линиями. Два из трёх его терминалов заполнены субфреймами: задание 1 и а, третий терминал — заданием отсутствия 3.

Возможным содержательным примером описанной стратегии, взятым из работы Ч.Ригера(1975), является процесс интерпретации текста: «Пит украл скот Джейка. Джейк оседлал свою лошадь. Наутро скот был снова у Джейка». Предположим, что имеется специальная программа, которая осуществляет отбор предложений входного текста путем сопоставления их с субфреймами.

Предположим, что в памяти ЭВМ содержатся знания в виде графовой структуры фреймов И/ИЛИ, один из которых описан выше и показан на рис.П5, и существует программа выбора субфреймов, реализующая рассматриваемую стратегию. Она сравнивает каждое предложение входного текста с субфреймами графоподобной структуры знаний и отбирает те субфреймы, смысл которых соответствует анализируемым предложениям. Затем она выбирает фреймы, объемлющие все отобранные в результате анализа интерпретируемого текста предложения. Очевидно, эта программа отбора — один из вариантов рассматриваемой стратегии приспособления фрейма к реальности.

В данном примере первое предложение с помощью программы отбора активирует фрейм «кража». Далее, после ввода второго предложения программа активирует субфрейм, представляющий собой схему действия «Z кладет седло на лошадь», и отбирает субфреймы более высокого уровня, охватывающие активизированный субфрейм. В данном случае после анализа второго предложения образуются два набора вложенных друг в друга субфреймов, охватываемых субфреймом «действия потерпевшего». На рис.П5 они помечены пунктиром. В результате на этом этапе возникают две возможные интерпретации текста «Джейк отобрал скот у Пита» и «Джейк сообщил властям о краже». Последняя фраза текста активизирует субфрейм «Z берет Y у X» и с помощью программы отбора устанавливается ее принадлежность к субфрейму «Джек отбирает скот у Пита», что, очевидно, и является интерпретацией данного отрывка.

На этом мы заканчиваем краткое изложение способа представления знаний с помощью фреймов. По нашему мнению, оно облегчит восприятие основного материала книги.

Список литературы

Абельсон (Abelson R.). The Structure of Belief Systems, in «Computer Models of Thought and Language» in R. Shank K. Colby, San Francisco, 1973.

Андервуд, Гейтс (Underwood S., Gates C.). Visual Learning and Recognition by Computer, TR-123, Elect. Res. Center University of Texas, 1972.

Бартлетт (Bartlett F.). Remembering: A Study in Experimental and Social Psychology, The University Press, Cambridge, England, 1932.

Берлин (Berlin I.). The Hedgehog and the Fox: an Essay on Tolstoy’s vies of History, New York, 1953.

Вальтц (Waltz D.). Generating Semantic Descriptions from Drawings of Scenes with Shadows, MIT Thesis, Mass. 1972.

Вертхаймер (Wertheimer M.). Productive Thinking, Harper and Row. 1959.

Голдштейн (Goldstein I.). Understanding Simple Picture Programs, Ph.D.Thesis, AI-TR-294, Artificial Intelligence Laboratory, MIT, Cambridge, Mass. 1973.

Гомбрих (Gombrich E.). Art and Illusion, Pantheon Books, New York. 1969.

Гузман (Guzman A.). а. Some Aspects of Pattern Recognition by Computer, Thesis, MAC-TR-37, Project MAS, MIT, Cambridge, Mass, 1967.

б. Computer Recognition of Three Dimensional Objects in a Visual Scene, Ph.D.thesis, MAC-TR-59, Project MAC, MIT, Cambridge, Mass., 1968.

Кофка (Koffka К.). Principles of Gestalt Psychology, Harcourt, Brace and World, New York, 1963.

Лавуазье (Lavoisier A.). Elements of Chemistry, Great Books of the Western World, v. 45, Encyclopedia Britannica, Chicago, 1952.

Левин (Levin J.). Network Representation and Rotation of Letters, Dept. of Psychology, USCD, La Jolla, Calif. 1973.

Макдермотт (McDermott D.). Assimilation of New Information by a Natural Language Understanding System, M.S.Thesis, AI-TR-291, MIT Artificial Intelligence Laboratory, Cambridge, Mass. 1974.

Макдермотт, Суссман (McDermott D., Sussman G.). The CONNIVER Reference Manual, AI Memo 259, Artificial Intelligence Laboratory, MIT, Cambridge, Mass., 1972.

Мартин (Martin W.). Memos on the OWL System, Project MAC, MIT, Cambridge, Mass., 1974.

Минский (Minsky M.). Form and Content in Computer Science, J. А. С. М., 1972.

Минский, Пейперт (Minsky M., Papert S.). Perceptrons, MIT Press. 1969.

Минский, Пейперт (Minsky M., Papert S.). Progress Report on Artificial Intelligence, AI Memo 252, MIT Artificial Intelligence Laboratory, Cambridge. Mass. 1972.

Myp, Ньюэлл (Moore J., Newell A.). How can MERLIN Understand? in «Knowledge and Cognition», Gregg J. (ed.) Lawrence Erlbaum Associates, Potomac Md. 1973.

Ньюэлл (Newell A.), a. Productions Systems: Models of Control Structures, Visual Information Processing, Academic Press, 1973.

б. Artificial Intelligence and the Concept of Mind, in «Computer Models of Thought and Language», R.Schank and R.Colby, (eds.), San Francisco, 1973.

Ньюэлл, Саймон (Newell A., Simon H.). Human Problem Solving, Prentice-Hall, Engelwood Cliffs, New York, 1972.

Норман (Norman D.). Memory, Knowledge and Answering of Questions, in «Contemporary Issues in Cognitive Psychology: The Loyola Symposium», Solso R., Washington D. C. (eds.), 1973.

Пейперт (Papert S.). Teaching Children to be Mathematicians Versus Teaching About Mathematics, Int. J. Math. Educ. Sci. Technol., 1972, v. 3, p. 249–262.

Пиаже (Piaget J.). Mental Imagery in the Child: a Study of the Development of Imaginal Representation, Basic Books, New York, 1971.

Пиаже, Инельдер (Piaget J., Inhelder В.). The Child’s Conception of Space, The Humanities Press, New York, 1956.

Пилишин (Pylyshyn L.). What the Mind’s Eye Tells the Mind’s Brain, Psychological Bulletin, 1973, v.80, № 1, р. 1–24.

Пуанкаре (Poincare H.). The Foundations of Science, The Science Press, New York 1946.

Ригер (Rieger С.). Conceptual Overlays: a Mechanism for the Interpretation of Sentence Meaning in Context, 1975. [Русский перевод: Труды IV Межд. конф. по искусств. интеллекту, т.6. М.: Научн.совет по компл.пробл. «Кибернетика» АН СССР, 1975, с.138–153].

Робертс (Roberts L.). Machine Perception of Three Dimensional Solids, in «Optical and Electro-Optical Information Processing». Tuppet J. (ed.), The MIT Press, Cambridge, Mass. 1965.

Сандуолл (Sandewall E.). Representing Natural Language Information in Predicate Calculus, in «Machine Intelligence», v. 6, Edinburgh. 1970.

Селс-Мурсиа (Celce-Murcia M.). Paradigms for Sentence Recognition, Department of Linguistics, University of California at Los Angeles. 1972.

Симмонс (Simmons R.). Semantic networks: Their Computation and Use for Understanding English Sentences, in «Computer Models of Thought and Language», Schank R., Colby C. (eds.), San Francisco. 1973.

Суссман (Sussman G.). A Computational Model of Skill Acquisition, Ph. D. Thesis, AI-TR-297. Artificial Intelligence Laboratory, MIT, Cambridge, Mass. 1973.

Уилкс (Wilks Y.). a. Preference Semantics, Stanford Artificial Intelligence Laboratory, Memo AIM-206, Stanford University, Stanford, Calif. 1973.

б. An Artificial Intelligence Approach to Machine Translation, in «Computer Models of Thought and Language», Schank R., Colby C. (eds.), San Francisco. 1973.

Филмор (Fillmore C.). The Case for Case, in «Universal in Linguistic Theory», Chicago, Bach E. Harms R. (eds.), N.Y.1968.

Фримэн, Ньюэлл (Freeman P., Newell A.). A Model for Functional Reasoning in Design, Proc. Second Intern. Conf. on Artificial Intelligence, London. 1971.

Хаффман (Huffman D.). Impossible Objects as Nonsense Sentences, in «Machine Intelligence 6», Meltzer B., Michie D. (eds.), Edinburgh University Press, Edinburgh, 1971.

Хогарт (Hogarth W.). Hogarth essays, Garden City, New York. 1965. [Русский перевод: Хогарт В. Анализ красоты, Л.; M.: Искусство, 1958].

Хомский (Chomsky N.). Syntactic Structures, The Hague. 1957. [Русский перевод: Новое в лингвистике, вып. 2, Изд-во иностр. лит., 1962, с. 412–427].

Чарняк (Charniax E.). Towards a Model of Children’s Story Comprehension, Ph. D. Thesis, AI-TR-266, MIT Artificial Intelligence Laboratory, MIT, Cambridge, Mass. 1974.

Чейф (Chafe W.). Contrastive Semantics Project, First Tech Report, Dept. of Linguistics, University of California, Berkeley. 1972.

Шенк (Schank R.). a. Conceptual Dependency: A Theory of Natural Language Understanding. Cognitive Psychology, 1972, v.3, № 4.

б. Identification of Conceptualization Underlying Natural Language, in «Computer Models of Thought and Languages», Shank R., Colby K. (eds.), San Francisco. 1973.

Шенк, Колби (Shank R., Colby K.). Computer Models of Thought and Language, Freeman, San Francisco. 1973.

Список литературы, добавленной при переводе

Афанасьев В. Г. Проблема целостности в философии и биологии. М.: Мысль. 1964.

Виноград (Winograd Т.). Procedures as a Representation for Data in a Computer Program for Understanding Natural Language, MAC TR-84, MIT, Mass., 1971.

Клоувз (Clowes М.). On Seeing Things, Artificial Intelligence, 1971, v.2, №1, p.79–116, [Русский перевод: Интегральные роботы, вып. 2. М.: Мир, 1975, с. 89–135].

Кулаков Ф. М. Организация супервизорного управления роботами-манипуляторами. — Изв. АН СССР. Техническая кибернетика, 1976, №5, с. 37–46, №6, с.78–90, 1977, №1, с.51–66.

Кун Т. Структура научных революций. М.: Прогресс, 1975.

Лаубш (Laubsch J.). Some Thoughts about Representing Knowledge in Instructional Systems, Advance Papers of the Fourth Intern. Joint Conf. on Artificial Intelligence, v.1, 1975, p.122–125. [Русский перевод: Труды IV Межд. конф. по искусств. интеллекту, т.10. М.: Научн. совет по компл. пробл. «Кибернетика» АН СССР, 1975, с. 103–113].

Маккарти (McCarthy J.). a. Programs with Common Sense, in «Semantic Information Processing», Minsky М. (ed.), p. 403–410, MIT Press, Cambridge, Mass., 1968.

6. Situations, Actions and Causal Laws, In «Semantic Information Processing», Minsky М. (ed.), p. 410–418, MIT Press, Cambridge, Mass., 1968.

Маккарти, Хэйес (McCarthy J., Hayes P.). Some Phylosophical Problems from the Standpoint of Artificial Intelligence, in «Machine Intelligence 4», Meltzer B. and Michie D. (eds.), 1969, p.463–502, N. Y. [Русский перевод: Кибернетические проблемы бионики, ч. II. М.: Мир, 1972].

Майлопулос, Коэн, Борджида, Шугар (Mylopoulos J., Cohen P., Borgida A., Sugar L.) Semantic Networks and the Generation of Context, Advance Papers of the Fourth Intern. Joint. Conf. on Artificial Intelligence, v.1, 1975, p.134–142. [Русский перевод: Труды IV Межд.конф.по искусств.интеллекту, т. 2. М.: Научн.совет по компл. пробл. «Кибернетика» АН СССР, 1975, с.42–62].

Ньюэлл , Шоу, Саймон (Newell A., Shaw J., Simon H.). Report on a General Problem — Solving Program, Proc. Intern. Conf. Inform. Process, p. 256–264, UNESCO House, Paris. 1959.

Перцова H. H. Способы представлений предметных областей при автоматической обработке текстов (обзор). — Изв. АН СССР. Техническая кибернетика, № 5, 1977, с. 51–59.

Поспелов Д. А. Семиотические модели: успехи и перспективы. — Кибернетика, 1976, № 6, с. 114–123.

Поспелов Д. А., Ефимов Е. И. Семиотические модели в задачах планирования для систем искусственного интеллекта. Изв. АН СССР Техническая кибернетика, 1977, «№ 5, с. 60–68.

Сираи (Shirai J.). A Heterarchical Program for Recognition of Polyhedra, Bull. Electrotechn. Lab., 1972, v. 36, № 10, p. 665–672. [Русский перевод: Интегральные роботы, вып. 2. М.: Мир, p.215–243].

Уинстон (Winston P.). a. Learning Structural Descriptions from Examples, Ph. D. Thesis, project MAS, TR-76, MIT, Cambridge, Mass. 1970.

б. Wandering about the Tom of Robot, Vision Flash 15, Artif. Intell. Lab., MIT, Mass. 1971.

в. The MIT Robot, Machine Intelligence, v. 7, Edinburgh Univ. press. 1972. p. 431–463. [Русский перевод: Интегральные роботы, вып. 2. М.: Мир, 1975, с.47–88].

Уотсон (Watson J.). Behaviour: An Introduction to Comparative Psychology, N. Y., 1914.

Фальман (Fahlman S.). A Planning System for Robot Construction Tasks, Artificial Intelligence, 1974, v.5, №1, p.1–49.

Файкс, Нильсон (Fikes R., Nilsson N.). STRIPS: A New Approach to the Application of Theorem Proving to Problem Solving, Second Intern. Joint Conf. Artif. Intell., London. 1971, p. 608–619. [Русский перевод: Интегральные роботы, М.: Мир, 1973, с. 382–403].

Хьюитт (Hewitt С.). Procedural Embedding of Knowledge in PLANNER, Second Intern. Joint. Conf. Artificial Intelligence, London. 1971, p. 167–182.

Хьюм (Hume D.) An Enguiry Concerning Human Understanding and other Essays, Washington Square Press, New York, 1963.

Шенк, Абельсон (Schank R., Abelson R.). Scripts Plans and Knowledge, Advance Papers of Fourth Intern. Joint Conf. on Artif. Intell., 1975, № 2, p. 151–157. [Русский перевод: Труды IV Межд. конф. по искусств. интеллекту, т. 6. М.: Научн. совет по компл. пробл. «Кибернетика» АН СССР, 1975, с. 208–220].

Ярошевский М. Г. История психологии. М.: Мысль, 1976.