Построение модели терминосистемы предметных знаний на

Информатика, вычислительная техника и инженерное образование. – 2014. − № 1 (16)
УДК 002.53:004.89
В.В. Бова, Д.В. Лещанов
ПОСТРОЕНИЕ МОДЕЛИ ТЕРМИНОСИСТЕМЫ ПРЕДМЕТНЫХ ЗНАНИЙ
НА ОСНОВЕ ОНТОЛОГИЙ
Работа посвящена исследованиям в области извлечения и представления
знаний в виде онтологий. Рассмотрены возможности и преимущества применения онтологий в информационных системах представления разнородных знаний.
Предложен способ построения онтологий предметной области на основе аппарата семантического моделирования. Онтологии строятся в виде терминосистемы, содержащей совокупность информационных структур категорийнопонятийного аппарата предметной области, множества операций над ними и
стратегий управления. Создаваемые онтологии предназначены для проблемноориентированных систем, использующих тезаурусную систематизацию и классификацию объектов знаний предметной области.
Онтологии, сетевые модели представления знаний, системы продукций, модель предметной области, проблемно-ориентированные системы.
V.V. Bova, D.V. Leshchanov
CONSTRUCTION OF THE MODEL DOMAIN KNOWLEDGE IN TERM
SYSTEM BASED ON ONTOLOGIES
The work is devoted to research in the field of extraction and representation of
knowledge in the form of ontologies. The possibilities and advantages of the use ontologies in information systems represent of heterogeneous knowledge. Proposed method of
constructing domain ontology-based semantic modeling apparatus. Ontologies are constructed in the form of a term system comprising a plurality of categories of information
structures and concepts of the unit domain, a variety of operations on them, and management strategies. Created ontologies designed for task-oriented systems using thesaurus classification and ordering of objects on the domain knowledge.
Ontology, network models of knowledge representation, production system, domain
model, problem-oriented systems.
Введение. Во всех сферах деятельности современного общества, основанного
на знаниях, существует проблема возрастающей сложности ориентации пользователей в постоянно увеличивающемся объеме документов, заполняющих информационные хранилища в глобальных и корпоративных сетях. До настоящего времени
трудоемкими и требующими дальнейшей разработки являются задачи организации
поиска нужной информации, навигации по информационным ресурсам и интегрирования информационных ресурсов в единую среду [1]. Одним из результатов научных исследований, проводившихся в последние годы в целях преодоления указанных трудностей, стало появление онтологических технологий и их использование в информационных системах, основанных на знаниях [1−4].
Онтологии предметной области в настоящее время находят основное
применение в области построения поисковых систем, систем представления
знаний, инженерии знаний и при решении задач семантической интеграции
1
Информатика, вычислительная техника и инженерное образование. – 2014. − № 1 (16)
информационных ресурсов. По своей сути онтология предметной области
представляет собой формальную модель понятийной структуры предметной
области (ПрО) и употребляется в контексте с такими понятиями искусственного
интеллекта, как концептуализация, модели знаний, системы, основанные на
знаниях [3].
Самым распространенным на данный момент является определение,
предложенное Т. Грубером [5], согласно которому «онтология есть точная
(выраженная формальными средствами) спецификация концептуализации, которая
имеет место в некотором контексте предметной области». С этой точки зрения
концептуализация трактуется как результат подробного процесса представления и
описания множества понятий ПрО (терминов), знаний о них (свойствах) и связях
(отношениях) между ними. Путем создания онтологий, т.е. терминов,
организованных в таксономию, их определений и атрибутов, формируется
согласованное формализованное представление ПрО – терминосистема.
В статье предложен подход, описывающий способ построения онтологий ПрО
на основе аппарата семантического моделирования. Онтологии строятся в виде
терминосистемы,
содержащей
совокупность
информационных структур
категорийно-понятийного аппарата ПрО, множества операций над ними и
стратегий управления. Создаваемые онтологии предназначены для проблемноориентированных систем, использующих тезаурусную классификацию и
систематизацию объектов знаний ПрО.
Применение моделей онтологии в задачах создания информационных
систем управления знаниями. Одним из перспективных направлений развития
информационных систем является построение систем, использующих онтологическую систематизацию как инструмент классификации объектов ПрО, с которыми
работают пользователи, и как средство для организации семантическиориентированного доступа пользователей к этим объектам. Онтологии являются
инструментом системного анализа ПрО, обеспечивая целостное представление
совокупности понятий, характеризующих ПрО, и их связей [6, 7]. Формализованное представление понятийной структуры ПрО в онтологии делает возможной автоматическую обработку онтологической информации, что находит применение в
поисковых системах нового поколения, мультиагентных системах, системах интеграции данных, получаемых из гетерогенных источников [8].
Сфера реализации онтологий быстро расширяется и находит основное применение в следующих областях деятельности:
1. Построение поисковых систем, использующих технологию семантическиориентированного поиска. Онтологии используются в таких системах как инструмент семантического аннотирования информационных ресурсов [9].
2. Интегрирование данных и знаний. При объединении информационных баз
онтология позволяет устанавливать семантическую эквивалентность фактов и
понятий, сформулированных в разных терминах [6].
3. Построение информационных систем научно-исследовательского назначения. Онтологии являются в этой сфере инструментом обеспечения согласованной между специалистами и унифицированной терминологии ПрО [2].
4. Системный анализ ПрО. Онтология предоставляет структурированную и
частично формализованную основу для проведения системного анализа ПрО
[4].
5. Создание компьютерных обучающих систем, использующих онтологическое структурирование элементов знаний и учебных объектов [10].
2
Информатика, вычислительная техника и инженерное образование. – 2014. − № 1 (16)
Информационные системы, разработанные на основе онтологий, показывают
на практике свою эффективность. Фактором, сдерживающим распространение
технологий, использующих онтологические модели, является недостаточный уровень разработки формализованных и автоматизированных процедур формирования
структуры онтологий.
Создание онтологий осуществляется не только при разработке сред, ориентированных на совместное использование информации несколькими пользователями,
но также и при проектировании баз знаний, создании экспертных систем и систем
поддержки принятия решений, разработке контекстно-зависимых и поисковых
систем [8, 9]. В связи с тем, что данные системы управления знаниями в процессе
принятия решений используют информацию, накопленную в хранилищах данных,
то лучшим решением является создание онтологий уже при проектировании систем обработки данных на этапе изучения проблемной области и анализа требований. Для решения этой проблемы необходимо создавать инструментальные среды,
позволяющие осуществлять процесс построения онтологий в интерактивном и автоматическом режимах.
Обобщенная модель представления знаний о предметной области.
Онтологию представления знаний предлагается строить в виде семантической
модели терминосистемы, описывающей категорийно-понятийный аппарат ПрО.
При разработке модели учитывались следующие ключевые требования [1, 4−6]:

обеспечение возможности настройки на различные ПрО;

наглядность
представления
(наличие
геометрической
структурной
интерпретации основных компонентов модели);

высокая однородность модели, упрощающая представление знаний и
манипулирование ими;

открытость, понимаемая как возможность расширения модели без
переопределения ее ядра – модели онтологий верхнего уровня;

наличие условий для реализации свойства активности знаний;

высокая структурированность, основанная на наличии в модели механизмов
композиции и декомпозиции с учетом принципов агрегации, инкапсуляции,
полиморфизма, наследования и иерархии.
Отправной точкой в формировании модели знаний ПрО является выбор ее
категориального аппарата. При моделировании знаний был проведен анализ
категорий информационных структур, представленных в работах [6, 8−10], что
позволило выделить в качестве центрального звена (ядра терминосистемы
предметной онтологии) – триаду понятие (термин) – свойство – отношение.
Необходимо подчеркнуть, что в аппарате формальной логики данные категории
занимают одну из ключевых позиций. Вместе с тем, они, как правило, трактуются
как самые общие и элементарные понятия. В связи с этим, необходимо в модели
знаний отражать более сложные с точки зрения внутренней структуры
производные категории.
Обобщенная модель знаний ПрО охватывает три уровня представления:
 информационных структур;
 операций;
 стратегии управления операциями.
Вывод об однородности модели был сформулирован по отношению к уровню
информационных структур. Его формальное описание базируется на следующих
принципах [1, 4].
1. Ядром модели терминосистемы ПрО является множество понятий. Каждое
понятие существует в нескольких различных формах: термин, денотат
3
Информатика, вычислительная техника и инженерное образование. – 2014. − № 1 (16)
2.
3.
4.
5.
6.
понятия, коррелят, синоним, дефиниция понятия, свойство, отношения.
Причем только термин может выделяться и рассматриваться в
самостоятельной качестве.
Для выражения обоснований можно использовать непосредственное указание
обоснующей категории (для свойства – отношения и его коррелятов, для
отношения – квантитативных и квалитативных свойств).
Среди свойств понятия выделяются качества, или существенные атрибуты без
которых данное понятие не может быть представлено и описано в модели
ПрО. Факт наличия концептуальных отношений, установленных по качествам
понятия, определяется по наличию понятий-коррелятов (оппозитов).
Свойства понятий могут быть базовыми и составными. Базовое свойство
является не структурированным. Составное содержит явное указание на
отношение данного понятия к свойству другого.
Элементы информационной структуры выявляются и зависят от основных
видов концептуальных отношений (по Дальбергу) [1, 5]:
 квантитативные (совпадают с логическими отношениями тождества,
включения, пересечения и дизъюнкции);
 квалитативные (онтологические – включают в себя отношения иерархии,
агрегации, части – целого, оппозитивные и функциональные).
Представления понятий являются размытыми. Выделяются следующие
аспекты устойчивости принадлежности (нечеткости) формирующих их
свойств и отношений:
 интенсиональная распределенность в классе понятий, являющихся
элементами самого понятия;
 экстенсиональная распределенность в классе понятий, охватываемых
объемом понятий;
 временная распределенность;
 пространственная распределенность.
Информационная структура модели онтологий. Под терминосистемой будем понимать систематизированную совокупность терминов [5]. При построении
модели будем использовать тематическую и иерархическую классификации −
таксономии понятий ПрО. Структура терминосистемы должна определять связи
терминов, переходы внутри общей совокупности терминов; описывать семантику,
синтактику и прагматику отдельных терминов; включать описание отношений,
которые необходимы для построения семантической сети, и способы их выявления.
На уровне информационных структур модели выделим множество понятий
{Pi}. Понятие задается тройкой
Pi=(Ai, Bi, Ci),
(1)
где Ai – термин, соответствующий типу понятия Pi; Bi – свойство, соответствующее
понятию Pi; Ci – отношение, соответствующее понятию Pi.
Предполагается, что в информационной структуре описаны только устоявшиеся понятия рассматриваемой ПрО. Подключим к представлению (1) следующие элементы: денотат понятия, дефиниции понятия, синонимы, оппозиты, список
терминов, с которыми данное понятие имеет отношения (рис. 1).
4
Информатика, вычислительная техника и инженерное образование. – 2014. − № 1 (16)
Рис. 1. Графическая интерпретация структуры концептуального
объекта – понятие
Тогда информационную структуру концептуального знания о понятии можно
представить в виде:
Concept = (P, D, B, F, K, E, A, S, С),
(2)
где:
P = <P1, P2, P3, P4> – множество типов описываемого концептуального объекта, в котором выделены четыре, согласно Дальбергу [5]:
 cущность P1: материальные и нематериальные объекты, способы их рассмотрения;
 cвойства P2: количественные, качественные, релятивные (отношения);
 действия P3: операции, процессы, состояния;
 величины (dimensions) P4: время, положение, пространство.
D = {D1, D2} – множество дефиниций понятия. Для одного понятия может
быть несколько дефиниций. Очевидно, что из общего набора утверждений для дефиниции отбирается только часть. Поскольку понятие – это узел в сложной структуре теоретической системы, то различные дефиниции можно рассматривать как
«разные пути или способы вхождения нашей мысли фактически в одну и ту же
структуру» [11]. Обычно дефиницию определяют как словесно выраженный интенсионал, достаточный для задания экстенсионала, поэтому будем различать D1 –
содержательную и D2 – формальную дефиниции. Будем считать, что формальная
дефиниция определяет понятие через другие понятия, а именно – через собственные свойства и связи с другими понятиями.
B = <B1, B2> – пара множеств свойств понятия, где B1 – множество качественных свойств; B2 – множество количественных свойств.
F = {F1, F2, F3, …, Fn} – множество состояний понятия, описывающих процессы/функции, свойственные данному понятию, и отражающих прагматику, связанную с данным понятием.
G = {G1, G2, G3, …, Gn} – множество коррелятов, или, другими словами, множество терминов, имеющих отношение оппозиции к данному понятию.
E = <E1, E2> – денотат понятия, где E1 – уникальное имя понятия; E2 – ссылка
на термин, соответствующий типу Pi.
A = <A1, A2> – пара множеств терминов, имеющих квалитативные отношения
с данным, где: A1 – множество терминов, составляющих отношение обобщения с
данным <A11, A12>, A11 – родовое отношение, A12 – множество видовых отношений;
A2 – множество терминов, составляющих отношение агрегации с данным
<A21, A22>, A21 – термин, являющийся «целым» по отношению к описываемому,
A22 – множество терминов, являющихся частью описываемого.
5
Информатика, вычислительная техника и инженерное образование. – 2014. − № 1 (16)
S = {S1, S2, S3, …, Sn} – множество синонимов понятия, или, другими словами,
множество терминов, имеющих квантитативные отношения (отношение тождества) с данным понятием.
C = {C1, C2, C3 } – множество отношений, необходимых для построения семантической сети представления понятия. C1 – квалитативные отношения (совпадают с логическими отношениями тождества, пересечения, дизъюнкции); C2 – квалитативные (онтологические и включают в себя отношения иерархии, части – целого, оппозитивные и функциональные); C3 – отношение включения.
Таким образом, предложенный подход к построению информационной структуры концептуальных объектов, как основных категорий абстракций, позволяет
создать единую терминосистему предметной области, которую смогут понимать
различные системы.
Заключение. В статье рассмотрена задача концептуализации знаний в модели
онтологий. Онтологию ПрО предлагается строить в виде терминосистемы,
описывающей
категорийно-понятийный
аппарат,
обладающей
лучшей
структурированностью, что способствует более точному описанию понятий и
отношений между ними и, как следствие, лучшему их пониманию людьми и
вычислительными системами.
На основе онтологических аннотаций может обеспечиваться семантически
ориентированный доступ к информации из различных источников, к которым относятся ресурсы глобальной сети, научно-технические базы знаний, обучающие
системы, а также управленческие, производственные и коммерческие информационные ресурсы и системы.
В перспективе предполагается строить онтологии задач, содержащие методы
и их решения, представленные в виде базы продукционных правил. Общее направление решения указанных проблем многим специалистам [10−12] видится в разработке и исследовании методов и алгоритмов построения онтологий с использованием продукционной модели знаний, созданных на основе интеграции прогрессивных подходов эволюционных вычислений и природных аналогий.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии //
Учебное пособие. – М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. – 304 с.
2. Бова В.В Моделирование области знаний в системах поддержки принятия решений для
непрерывного профессионального обучения // Известия ЮФУ. Технические науки. –
2009. – № 4 (93). – С. 242-248.
3. Курейчик В.M. Особенности построения систем поддержки принятия решений // Известия ЮФУ. Технические науки. – 2012. – № 7. – С. 92-98.
4. Бова В.В. Модели предметных знаний на основе системно-когнитивного анализа // Известия ЮФУ. Технические науки. – 2010. – № 7 (120). – С. 146-153.
5. Найханова Л.В. Основные типы семантических отношений между терминами предметной области // Известия высших учебных заведений. Поволжский регион. Технические
науки. – 2008.– № 1. – С. 62-71.
6. Кравченко Ю.А. Синтез разнородных знаний на основе онтологий // Известия ЮФУ.
Технические науки. – 2012. – № 11.– С. 216-221.
7. Кравченко Ю.А., Марков В.В. Онтологический подход формирования информационных
ресурсов на основе разнородных источников знаний // Известия ЮФУ. Технические
науки. – 2013. – № 7 (144). – С. 116-120.
8. Кравченко Ю.А. Метод создания математических моделей принятия решений в многоагентных подсистемах // Известия ЮФУ. Технические науки. – 2011. – № 7. –
С. 141-145.
6
Информатика, вычислительная техника и инженерное образование. – 2014. − № 1 (16)
9. Родзина Л.С., Родзин С.И. Контекстно-зависимые мобильные обучающие системы //
Известия ЮФУ. Технические науки. – 2013. – № 7 (144). – С. 247-253.
10. Курейчик В.В., Бова В.В., Нужнов Е.В., Родзин С.И. Интегрированная инструментальная
среда поддержки инновационных образовательных процессов // Открытое образование.
– 2010. – № 4. – С. 101-111.
11. Башмаков И.А., Рабинович П.Д. Анализ моделей семантических сетей как математического аппарата представления знаний об учебном материале // Справочник. Инженерный журнал. – 2002. – № 7. – С. 55-60.
12. Курейчик В.М., Родзин С.И. Компьютерный синтез программных агентов и артефактов //
Программные продукты и системы. – 2004. – № 1. – С. 23.
Статью рекомендовал к опубликованию д.т.н., профессор Ю.А. Гатчин.
Бова Виктория Викторовна
Федеральное государственное автономное образовательное учреждение высшего
профессионального образования «Южный федеральный университет».
E-mail: [email protected]
347928, г. Таганрог, Некрасовский, 44.
Тел.:8(8634) 37-16-51.
Кафедра систем автоматизированного проектирования, старший преподаватель.
Лещанов Дмитрий Валерьевич
Федеральное государственное автономное образовательное учреждение высшего
профессионального образования «Южный федеральный университет».
E-mail: [email protected]
347928, г. Таганрог, Некрасовский, 44.
Тел.:8(8634) 37-16-51.
Кафедра систем автоматизированного проектирования, студент.
Bova Victoria Victorovna
Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.
E-mail: [email protected]
44, Nekrasovskiy, Taganrog, 347928, Russia.
Phone: 8(8634) 37-16-51.
The Department of Computer Aided Design, Senior Teacher.
Leshchanov Dmitry Valerevich
Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.
E-mail: [email protected]
44, Nekrasovskiy, Taganrog, 347928, Russia.
Phone: 8(8634) 37-16-51.
The Department of Computer Aided Design, student.
7