АВТОМАТИЗИРОВАННАЯ СИСТЕМА РУБРИКАЦИИ ЛЕКЦИОННОГО МАТЕРИАЛА С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ И КОМПЕТЕНТНОСТНЫХ МОДЕЛЕЙ (А.С. Кожаринов, Е.А. Ефремова1) Приведена краткая характеристика разработанного исследовательского прототипа автоматизированной системы рубрикации лекционного материала на соответствие компетентностным моделям выпускников ВУЗа с использованием нейронных сетей Гроссберга и без заданных заранее словарей предметных областей. Введение Система высшего образования в нашей стране серьезно меняется и объективно ответить на вопрос, "хорошо это или плохо" сейчас не сможет ответить никто. Это, в полной мере, относится и к внедряемой новой двухстадийной модели высшего образования "бакалавр – магистр", базирующейся на, так называемом, компетентностном подходе.^ Компетентность выпускника высшего учебного заведения (ВУЗ) – это проявляемая им на практике способность реализовать свой потенциал (знания, умения, опыт, личностные качества и др.) для успешной деятельности в профессиональной и социальной сфере. Она складывается из частных компетентностей, сформированных в учебном процессе, в процессе самовоспитания и в других видах деятельности. Кроме того, ее можно рассматривать как цель и/или результат воздействия системы образования на конкретного человека [1]. Появление таких понятий в образовательной практике, как компетентность, компетенция и компетентностные модели, потребовало серьезной работы с существующим гносеологическим багажом. В это понятие включаются все виды и множества существующих знаний, как зафиксированных в любых формах (книги, печатные издания, конспекты лекций, учебные пособия, макеты, тренажеры, программное обеспечение и т.д.), так и знаний, которые содержаться только "в сознании и памяти" профессорско-преподавательского состава ВУЗа. Одним из главных вопросов, на который каждому ВУЗу нужно объективно ответить, является вопрос: "^ Насколько существующий объем знаний, которым располагает ВУЗ, обеспечивает выполнение требований, предъявляемых обществом к содержанию и качеству образования?". В свою очередь, множество требований общества к содержанию и качеству подготовки через утвержденные образовательные стандарты представляются в форме компетентностных моделей для каждой конкретной специальности. Появление такого нового "акцента" породило лавину проблем, многие из которых касаются в первую очередь именно гносеологического багажа каждого конкретного ВУЗа. Так, например, в рамках выполнения в Государственном Технологическом Университете "Московский Институт Стали и Сплавов" (МИСиС) инновационного образовательной программы "Качество. Знания. Компетентность" был сформирован полный набор учебно-методических комплексов документации (УМКД) по каждой учебной дисциплине. Все курсы были переведены в электронную и бумажную форму, что привело к появлению гигантского информационного массива, требующего тщательного исследования на предмет актуальности содержащихся в нем знаний. Методов и средств, которые комплексно бы решали такую масштабную задачу не существует, поэтому необходимо разрабатывать методики и инструментальные средства, что называется "с нуля". Однако даже сейчас можно выделить ряд подзадач, решение которых возможно найти, с учетом ряда допущений. Как раз здесь и целесообразно использовать методы и средства ИИ, особенно технологии обработки текстов на естественном языке (ТЕЯ) и нейросетевые технологии.^ 1. Общая постановка задачи МИСиС в настоящий момент располагает гигантским объемом УМКД по всем направлениям подготовки специалистов в виде текстовых документов, причем с течением времени эти объемы увеличиваются, за счет разработки новых учебных программ для бакалавриата и магистратуры. УМКД представляет собой квинтэссенцию знаний о предмете, аккумулированных преподавателями на протяжении многолетней образовательной и научной практики. Однако вопрос, насколько имеющийся массив знаний соответствует требованиям к содержанию и качеству подготовки выпускников остается открытым. Каждый комплект УМКД включает в себя следующие материалы: программу учебной дисциплины в компетентностном подходе; учебное пособие; демонстрационную презентацию; тесты, задачи и вопросы для контроля; конспекты лекций; вопросы к экзаменационным билетам и целый ряд других материалов. Вследствие этого, было принято решение в качестве "пилотной" задачи выбрать задачу разработки автоматизированной системы рубрикации (АСР) лекционного материала УМКД и оценки качества рубрикации2 (на уровне исследовательского прототипа). В качестве исходных данных взяты конспекты лекций по учебным дисциплинам отдельных специальностей МИСиС. Исключительно лекции были отобраны потому, что для отработки технологии на уровне исследовательского прототипа необходимо использовать самые информативно-ценные и самые простые по внутренней структуре из имеющихся документов. Кроме того, весь объем документации предварительно был разделен на блоки с различной направленностью содержания: общеобразовательные, гуманитарные и специализированные дисциплины – и дальнейшая работа проводилась для разнопрофильных документов отдельно. При рубрикации лекционного материала роль классов (рубрик) играют отдельные компетентности, которые составляют для каждой специальности компетентностную модель. В МИСиС такая модель для каждой специальности имеет двухуровневую структуру. На верхнем уровне такой модели находятся интегральные (групповые) компетентности, а на нижнем, формирующие их частные компетентности. Пример структуры типовой компетентностной модели представлен на рис.1. Рис.1. Пример структуры модели компетентности выпускника МИСиС Для каждой специальности выпускающие кафедры формируют свои наборы интегральных и частных компетентностей, причем, количество их на каждом уровне никак не ограничено и именно частные компетентности и играют в задаче роль классов (рубрик). Следует отметить, что в рамках данной проблематики актуальным является применение технологий, для которых характерна "терпимость" к неточности, неопределенности в сочетании с легкостью обработки, низкой "стоимостью" обучения решению в изменяющейся реальности. К таким технологиям относятся искусственные нейронные сети. ^ 2. Краткое описание функциональности автоматизированной системы рубрикации Основная функциональность разработанного исследовательского прототипа АСР определяется возможностью решения следующих основных задач: рубрикация ТЕЯ с использованием следующих типов классификаторов: метод на основе нейронной сети Гроссберга [2]; метод опорных векторов3; "наивный" Байесовский метод – рубрикатор, основе которого лежит формула Байеса для условной вероятности и исходящий из предположения о взаимной независимости признаков; расчет критериев качества классификаторов и выбор на их основе для входных ТЕЯ заданного профиля наилучшего из них. В силу ограничений на размер статьи кратко опишем особенности применения метода рубрикации на основе нейронной сети Гроссберга.^ 3. Нейронная сеть Гроссберга для рубрикации ТЕЯ Нейронные сети приспособлены обрабатывать информацию, представленную числовыми векторами, поэтому для их применения в обработке ТЕЯ, последние необходимо представлять в векторном виде. В АСР используется наиболее адекватный способ – модель терм-документ с частотными характеристиками. Постановка задачи в этом случае заключается в проведении частотного анализа , где требуется исходный текст представить как точку в n-мерном пространстве признаков (системный словарь4), так что: . Здесь – итоговая частота i-го термина, – элемент словаря, набор слов, имеющих одинаковый информативный вес: синонимы, синонимичные устойчивые словосочетания и т.п.; – информативный вес, . Если термин часто встречается в документах одного класса, но редко в документах другого, то будем считать, что этот термин более значим, чем термин, встречающийся в малом количестве документов, но во многих классах. Топология сети ART (Adaptive Resonance Theory), разработанная Гроссбергом и Карпентером, хорошо зарекомендовала себя для решения задач кластеризации. Основная идея сетей Гроссберга - опознание образа за счет сравнения характерных признаков сигнала с запомненным ранее эталоном (классом). Сеть ART имеет достаточно много выходных нейронов, однако используется только часть из них. В сети хранится набор образцов для сравнения с входным сигналом. Если входной сигнал достаточно похож на один из эталонных образцов (находится с ним в резонансе), усиливается вес для синапса нейрона, отвечающего за данную категорию. Если же в сети нет схожих с входным вектором образцов, ему в соответствие ставится один из незадействованных выходных нейронов [1]. В АСР используется модифицированный алгоритм её работы для классификации ТЕЯ. Как и любая сеть с обратными связями, ART обладает «памятью», что очень ценно в условиях нашей задачи, поскольку она ориентирована на анализ текстов в условиях меняющейся реальности. Нейронная сеть Гроссберга состоит из двух слоев нейронов (рис.2). Первый (входной) слой – сравнивающий, второй слой – распознающий. Здесь: – множество тематических классов-рубрик. В общем случае между слоями существуют прямые связи с весами от i – ого нейрона входного слоя к j–му нейрону распознающего слоя (сплошные стрелки на рис.2), обратные связи с весами – от i-ого нейрона распознающего слоя к j–му нейрону входного слоя (пунктирные стрелки на рис.2). Рис.2. Топология сети Гроссберга применительно к задаче классификации. Так же существуют латеральные тормозящие связи между нейронами распознающего слоя (точечные стрелки на рис.2). Входной слой содержит столько нейронов, сколько терминов в словаре обучающей выборки документов. Каждый нейрон распознающего слоя отвечает за один класс объектов. Согласно назначению приведенных компонентов такой сети процедура классификации укрупнено представляет собой следующую последовательность операций:Этап 1: Вектор F (исходный текст, преобразованный с помощью функции q в числовой n-мерный вектор) подается на вход сети. Для каждого нейрона распознающего слоя определяется взвешенная сумма его входов.Этап 2: За счет латеральных тормозящих связей распознающего слоя на его выходах устанавливается единственный сигнал с наибольшим значением, остальные выходы считаются близкими к 0. В этом заключается принцип «последовательного победителя», лежащий в основе сети Гроссберга.Этап 3: Определяется уровень порогового значения , который является и параметром алгоритма и определяет необходимую степень похожести входного вектора на прототип класса. Если р близко к 1, то требуется, чтобы исходный текст практически идеально соответствовал классу, если р около 0, то к классу могут быть отнесены и непохожие документы. Вычисляется функция активации нейрона: Если результат сравнения превышает порог p, делается вывод о том, что входной вектор принадлежит классу ci: , тогда . Выход данного нейрона обнуляется (принудительная блокировка) и повторяется процедура этапа 2, в которой за счет обнуления самого активного нейрона происходит выбор нового. Эта процедура повторяется до тех пор, пока результат не станет меньше порогового значения, это значит, что выбраны все рубрики, к которым относится входной текст. В противном случае, - если результат сравнения на первом шаге уже меньше порога, то делается выход о том, что документ не принадлежит ни одной из заданных рубрик. Емкость сети совпадает с числом нейронов второго слоя и может увеличиваться в процессе функционирования сети. В АСР для обучения разработанной нейронной сети был выбран принцип обратного распространения, реализующий методику "обучения с учителем".^ 4. Принципиальная схема работы АСР Разработанный исследовательский прототип АСР, принципиальная функциональная схема которого представлена на рис.3, состоит из ряда функциональных модулей, среди которых: модуль ввода документов; среда разработки описаний, модуль преобразования текста; модуль обучения, модуль классификации, модуль оценки качества классификации. Основные функции каждого модуля также показаны на рис.3. в соответствующих блоках. Входом для АСР в общем случае являются множество классифицируемых ТЕЯ и набор классов. Единицей классификации («документом») является одна лекция со средним размером 15 страниц. Формат представления - документ Microsoft Word. После получения и подготовки исходных документов АСР можно проводить рубрикацию ТЕЯ различными классификаторами. Для оценки результатов классификации рассчитываются шесть показателей качества классификации (пример - см. рис.4). В качестве оценок качества показателей классификации в АСР производится расчет: точности и полноты, применяемые так же при оценке качества естественно-языкового поиска. Для количественной оценки полноты и точности рубрикатора используются измерения: число правильно рубрицированных документов, число неправильно рубрицированных документов, число неправильно отвергнутых документов [3]. Под правильной и неправильной рубрикацией понимается случай, когда классификатор приписывает анализируемый документ некоторой рубрике, что расценивается некоторым экспертом соответственно, как верное и неверное решение. Под неправильным отвержением документа понимается случай, когда классификатор не приписывает документ рубрике. В результате рубрикации считается, что документ "найден", если ему сопоставлена некоторая рубрика, иначе считается, что документ "не найден" – он «чужой». Для такой схемы определены пять возможных различных исходов рубрицирования каждого документа: документ «Свой» правильно определился в свою рубрику; действительно «Чужой» документ определился как «Чужой»; документ определился не в свою рубрику; «Свой» документ ошибочно определился как «Чужой»; «Чужой» документ ошибочно определился как «Свой». Первые две ситуации – правильная работа рубрикатора, остальные – ошибочные исходы. Рис.3. Принципиальная функциональная схема АСР Рис.4. Значения показателей качества классификации В связи с противоречивостью характеристик полноты и точности – чем меньше полнота классификации, тем больше её точность и наоборот – в АСР производится расчет величины, известной как F-мера. Когда важно оценить качество работы классификатора в среднем, а не с точки зрения полноты или точности, именно F-мера является наиболее адекватной оценкой. Участие эксперта в процессе работы и настройки АСР необходимо. Несмотря на то, что принятие решения о выборе рубрикатора в первую очередь основывается на рассчитанных значениях критериев качества классификации, не малую роль в нем играет и мнение эксперта, поскольку он устанавливает важность этих критериев – рис.5. Для эксперта реализована возможность ручной корректировки значений составляющих вектора весовых коэффициентов при показателях. Автоматическая система выбирает наилучший с учётом веса авторубрикатор для входных документов определенного типа. Рис.5. Настройка весовых коэффициентов и выбор наилучшего классификатора Так, например, в ситуации, когда эксперт считал, что при классификации лекционного материала наиболее важно, насколько полно будут отражены связи в рамках модели компетентности, а точность отражения играет меньшую роль, было установлено, что наиболее эффективным является классификатор на основе нейронной сети Гроссберга. В заключении необходимо отметить, что АСР является открытой к расширению пространства информационных признаков, и уже сейчас позволяет проводить исследование на разнопрофильных УМКД, используя в качестве набора классов модель компетентности выпускника ВУЗа, и выявлять наиболее эффективный способ авторубрицирования для определённых входных данных. К сожалению ограничения на объем статьи не позволяют подробнее описать результаты исследований и все реализованные функциональные возможности АСР.Список литературы 1. Зимняя И.А. Ключевые компетенции - новая парадигма результата образования // Высшее образование.-2003-№3.-с.34-42. 2. Carpenter G.A., Grossberg S. Pattern Recognition by SelfOrganizing Neural Networks. - MIT Press, Cambridge, Mass., 1991. 3. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. – М.: Наука, 1989. 1 ФГОУ ВПО ГТУ "Московский Институт Стали и Сплавов", 119049, Москва, Ленинский пр., д. 4, Efremova.E.A@mail.ru. 2 Рубрикация - подзадача классификации, где в качестве объекта исследования выступают ТЕЯ, а в качестве классов – смысловые темы, т.е. это распределение документов по тематическим рубрикам. Классификацию текстов на естественном языке называют рубрицированием, и в дальнейшем эти термины принимаются идентичными. 3 Также известен как метод классификатора с максимальным зазором. Он принадлежит к семейству линейных классификаторов, был предложен В.Вапником в 70-х годах и реализует алгоритмы вида «обучение с учителем». 4 Набор признаков, характеризующий пространство, в рамках которого функционирует система классификации. Применительно к задаче рубрикации это набор слов и частот их появления, характерных для каждого класса.