Virtual Laboratory Wiki
Advertisement


(ниже публикую мое письмо к Бурцеву М.С.)

Добрый день, получил удовольствие от прочтения Вашей диссертации, сопоставимое с тем когда читал Розенблатта по нейронным сетям, если бы в то время мне попалась бы Ваша работа возможно я бы большее внимание уделил бы генетическим алгоритмам.

Но по порядку, с первых строк меня в основном заинтересовала глава 4 (глупая привычка читать с конца) из-за того, что я так же достаточно много интересуюсь вопросами затронутыми там, а именно целенаправленностью поведения. Несколько разочаровало отсутствие нейронных сетей (то что Вы называете нейронной сетью сильно «притянуто за уши», впрочем я об этом еще скажу), но оригинально, я бы даже сказал классически выполненная работа по применению генетических алгоритмов меня снова порадовала. Так же мне наконец удалось практически понять смысл роли регулирования, описанный Турчиным В.Ф., но там все было теоретически и слабо верилось, Ваша работа внесла больше конкретики (имеются в виду Ваши параметры r0 и r1). В общем я испытал полный букет эмоций, за что Вам отдельное спасибо.

Но дальше я буду критиковать, и даже не столько Вашу работу, сколько сам подход генетических алгоритмов (я подозреваю, что Вы не согласитесь, что это работа только про них, но всему свое время ... ). Думаю, все, что можно было вытянуть из этого направления, Вы с блеском вытянули и это возможно взять на вооружение. Сознаюсь честно, что критиковать Вашу работу сложно (а я в этом имею некоторый опыт), т.к. все так хорошо обставлено, что тяжело подобраться. Поэтому я буду подходить плавно, чтобы Вы могли прочувствовать ... Я даже не столько желаю ее критиковать, т.к. повторюсь в рамках определенной парадигмы все выполнено на «ура», я лишь попытаюсь проинтерпретировать результаты Вашей диссертации не в столь «розовом свете».

Вы можете спросить, для чего я это делаю? Не для Вас ... меня самого не раз мучают сомнения в правильности моих идей, и как бы искусно не была бы замаскировано то, что я называю «предопределяющая логика», я пытаюсь ее найти и отдавать себе отчет, насколько модель соответствует действительности, и что является случайностью, а что естественным ходом событий ... Так же я надеюсь, что у нас затем получится плодотворная дискуссия ...

Итак, первая фраза которую я обвел, и с которой я понял, что дальше нужно читать серьезно это: «Возникновение целенаправленности поведения в эволюции возможно лишь в том случае, когда целенаправленность будет приносить животному селективные преимущества по сравнению с другими особями, у которых целенаправленность отсутствует». Если Вы первичный автор этих строк, то могу поздравить – это прелестно. И важен именно тот смысл, который Вы вложили в целенаправленность: «целенаправленность проявляется в том, что поведение конкретной особи существенным образом зависит от внутреннего состояния самой особи, а не только от сигналов, поступающих из внешней среды, как при рефлекторном поведении».

Дальше просматривая, что Вы скажете о «мотивации», я понял, что Вы так и не сказали главного – как появляется Мотивация ? у вас лишь некоторые слова «адекватно потребностям животного в рассматриваемой ситуации», но как появляется такая адекватная мотивационная память, как она улучшается со временем – об этом ни слова, отсюда и слабая модель нейронной сети ... но не будем забегать вперед.

Таким образом, мне пришлось уточнить ряд ваших фраз, чтобы для меня все стало на свои места. Вашу замечательную фразу про целенаправленность можно назвать необходимым условием возникновения целенаправленности. Действительно без этого целенаправленность не появится. Но далее, чтобы с чистым сердцем мы это могли признать, целенаправленности нужно еще дать достаточное условие. Для этого мотивацию нужно разделить на два вида: 1. безусловную мотивацию и 2. адаптивную (изменяемую) мотивацию.

Ведь действительно, можно дать жесткое или косвенное (как у вас) указание как нужно себя вести, чтобы быть успешным (то, что в генетических алгоритмах называется функцией пригодности). Это и будет безусловная мотивация. Классический пример из вашей работы «если энергетический ресурс агента мал, то есть мотивация - найти пищу и пополнить энергетический ресурс» - это и есть безусловная мотивация. И строго говоря, введение такого условия разрушает необходимое условие возникновения целенаправленности – появление такого поведения «с нуля» лишь с помощью мутирования никогда не даст селективных преимуществ перед другими, особенно если будут организмы с жестко заданной логикой (без мотивации, и собственно, те особи, про которые вы говорите «у которых целенаправленность отсутствует») – а следовательно если так, то поставив рядом организмы с потенциальной возможностью к мотивации и организмы без целенаправленности и желая выработать целенаправленность эволюционным путем – мы ее никогда не получим (!). Т.е. наличие жестко заданной логики является как бы предусловием возникновения возможности селективности (конкурентности) организмов с наличием памяти, которая даст возможность обзавестись мотивацией. Этот вывод противоречит эволюционной теории, которая утверждает, что все преимущества получены в ходе эволюционных преобразований, а не жестко детерминированы Богом. Таким образом, или не справедливо следствие которое прямо следует из вашей работы или эволюционная теория. Лично мое мнение - недостаток моделирования, т.е. слишком простой мир Вы рассматривали, и еще рано делать такие выводы как Вы пытаетесь сделать, в противном случае ваши выводы свидетельствуют о обратном ... но я увлекся, к этому я еще вернусь, я сейчас продолжим ...

В случае адаптивной мотивации такие знания должны целенаправленно приобретаться. Вы, конечно, сможете возразить, что у Вас дается только начальная ситуация (врожденные предрасположенности), а потом матрица изменяется – что и есть адаптирование мотивации к условиям окружающей среды ... но это не так – этого я еще коснусь ...

Теперь, мы можем дать достаточное условие возникновения целенаправленности – наличие адаптивной мотивации.

Теперь посмотрим на коэффициенты – ведь именно из-за них возникает целенаправленное поведение, а совсем не из-за якобы происходивших эволюционных изменений. Если бы все эти коэффициенты отсутствовали бы или равнялись бы нулю, а не были бы специальным образом подобраны – то все было бы замечательно, но это не так. Посмотрим как можно обосновать наличие таких коэффициентов. Начнем с коэффициентов k0 … k7, здесь вроде все в порядке назовем их физическими константами, а их взаимоотношения физическими законами, и это позволит нам ввести любые правила в среду и не быть заподозренными в «жульничестве». А вот с коэффициентами r0, r1 не все так гладко. Во введении самих коэффициентов нет ничего криминального, тоже самое, что позволить устройству обладать внутренними состояниями, которые по сути есть резервуар памяти. Далее ввести законы их насыщения, тем самым показав к какому значению оптимально стремится – тоже вполне нормально, надо лишь признать, что и внутри организма действуют физические законы, и ведь действительно ими может определятся, например, благоприятная температура тела 36,6 ; сытость равное определенному количеству калорий, желание размножатся равное наличию соответствующих гормонов. Но дальше начинаются чудеса: «Оптимальный ресурс агента r0 задается на три-четыре порядка больше, чем затраты на выполнение какого-либо действия, что дает ему возможность существовать несколько тысяч тактов времени» - вот оно прямое «божье» указание, в моей среде тебе нужно столько то пищи, чтобы забыть о ней на долгое время. Это указание не выработалось, не было осознанно (хотя бы на инстинктивном уровне), не стало предметом размышлений – а просто было скинуто с выше. Вы скажите, чем же это отличается от сытости равному определенному количеству калорий? А тем, что это инструкция, увязанная с расчетом по отношению с затратами на движение, а с помощью второго параметра r1 увязано еще с оптимальностью к растрачиванию энергии во время размножения (основная причина смерти агентов без мотивации, им ведь приходится размножатся несмотря на то, что могут умереть – «ужасный мир» вы сконструировали).

Таким образом, что получилось: двигательная система полностью зависит от пищевой системы (двигаться не будем пока не наедимся – вот ваша тенденция к отдыху, у Вас почти вся популяция наевшись спит тысячелетиями), и она же влияет на половую систему практически минуя мозг (размножатся будем лишь тогда, когда объелись на 500 лет вперед). Теперь, наверное излишне говорить, что такой прямой взаимосвязи между мотивациями быть не должно, и эти внутренние регуляторы должны быть в пределах суточного рациона.

Теперь, в вашей модели якобы имеется память (мозг), от которого якобы зависит принимаемые решения. Но во-первых, эти решения никак не появились в мозгу, а были эволюционно предопределены. Во-вторых, изменения происходящие в мозгу на столько ничтожны, что не могут существенно повлиять с одной стороны на предопределенность «мозговых связей», а с другой ни как не могу разорвать безусловные связи между двигательно – пищево - половой системами. Поэтому в таком положении мозг подчинен пищеварительной системе, отсюда и успешность выживания.

Теперь осталось сделать лишь несколько штрихов: заведомо агентов без мотивации поместить в невыгодную среду – т.е. «выкинуть рыбу на сушу»; и с удивлением заметить, что такие агенты ни как не могут выучить, что нужно держатся определенного отрезка оптимальных параметров. Хотя вот если бы как раз они на основании нейронной сети приняли бы решение держатся этого оптимального промежутка, то это уже значило бы куда больше.

Но такая простенькая нейронная сеть и такая жесткая, без вариантная среда не позволяют выработать соответствующие весовые коэффициенты.

Начнем с нейронной сети, я выше говорил – ее у Вас нет ... возвращаюсь к этому аспекту ... Что у Вас есть – 9 входов и 7 выходов, которые связанны между собой матрицей весов ... В принципе действительно это можно интерпретировать как однослойную сеть с жестко заданными весами. Хотя ближе это к одному из методов принятия решений в неопределенных условиях. Имеем 7 альтернатив действий и 63 специально отобранных параметра, которые нужно взять во внимание при выборе решения. Каждый параметр специально заранее оценен экспертом. Что же касается обучения – то его у Вас нет, точнее это последовательное применение генетического алгоритма со скрещиванием и мутацией (интересен тот факт, что если бы в условиях задачи не было бы размножения, то все ограничилось бы просто случайными флуктуациями, т.к. не было бы скрещивания).

Теперь, я еще говорил, что вернусь к вопросу того, что Ваша работа исключительно по генетическим алгоритмам. Итак, мы уже выявили, что целевую функцию играют взаимоотношения между внутренними регуляторами (что и вводит в заблуждение, т.к. классически у генетических алгоритмов целевая функция задается средой, и их главный минус заключается в том, что агент с легкостью узнает результат этой функции напрямую. Здесь же внутренние по сути стали внешними.). Скрещивание есть благодаря такому действию организмов, и только мутация дана наиболее явно. Не хватает еще естественного отбора. Но и здесь постарались т.н. внутренние регуляторы – они дают возможность размножаться только наиболее успешным (сытым) особям. Итого классика генетического алгоритма, но поданная под таким приятным соусом.

И, наконец, безвариантность, проще сказать простота среды. Первое поражает одномерность, второе, что еда падает с небес ... но это не главное. Главное, что возможностей у агентов разработать различные стратегии практически нет – среда к этому не предрасполагает. Поэтому если делать характеризующие сравнение, то вместо обрубания информации от регуляторов у «без мотивационных» агентов (а эти регуляторы введены без оснований не там, не там – поэтому по честному их нужно дать всем, а без них вообще ничего не получится), нужно было показать, что только генетическое обучение (раз Вы против нейронного обучения) дает преимущества в популяции. Т.е. для одной группы дать все то, что давалось по умолчанию, а вторая должна отличаться только тем, что происходит коррекция весовых коэффициентов. Но я уверен, что в этом случае выиграет популяция без целенаправленности, т.к. их поведение будет свободно от «придурковатости» якобы целенаправленных агентов типа «прыгать от радости когда рядом упала пища».

Только поймите меня правильно, вся эта критика не сколько не умаляет достоинств работы, лично мне она понравилась и позволила более точно выразить свою позицию. Выход из ситуации, в котором не было бы этой критики мне видится в дальнейших исследованиях при усложнении правил мира и принципов работы нейронной сети. И если Вас это заинтересует мы могли бы попытаться сконструировать такие миры и дать больше мозгов агентам.

С уважением, Сергей Яковлев.

Ответ был получен, но не публикую. К сожалению, в ответе так и не было ответов.

Advertisement