Двухуровневая модель сложноструктурированных информационных единиц, соответствующая метафоре анкетирования

В документе описывается двухуровневая модель информационных единиц, которая может быть положена в основу компьютерных средств редактирования инвариантной по отношению к технологическим пространствам (предметным областям) сложноструктурированной информации различных уровней абстракции в привычной для ее носителей системе понятий – без специального обучения последних или участия в этом процессе специалистов-посредников.

Введение

Одним из классов задач, решаемых в информационном обществе, являются задачи «заказа информации»: заказчик информации хочет получить у носителей информации такую информацию,которая соответствует его потребности, как по содержанию, так и по форме (структуре). Примерами таких задач являются перепись населения, социологические опросы, заполнение историй болезни, чтение лекций, создание учебников, другие многочисленные формы, которые заполняются в банках, социальных, государственных и коммерческих учреждениях (оформление кредита, пособия, пенсии, покупка билета и т.п.). Для решения такой задачи заказчик должен сформировать запрос, в соответствии с которым носитель должен передать заказчику нужную ему информацию – ответ на запрос. Примерами запросов являются опросные листы и анкеты, образовательные стандарты и программы и т.п.

Если заказчик и носитель являются людьми, которые могут взаимодействовать непосредственно, то запрос и ответ на него могут формироваться в процессе диалога между ними. Если же заказчик и носитель не могут непосредственно взаимодействовать, то для того, чтобы ответ на запрос содержал релевантную информацию, необходима некоторая «технология» решения такого рода задач. Примером такой «технологии» может служить анкетирование, когда запрос представляется некоторой анкетой (метаинформацией), а ответ – результатом заполнения этой анкеты (информацией, соответствующей метаинформации). Простейшая анкета может быть совокупностью вопросов, на которые необходимо получить ответы. Но в более сложных случаях анкета содержит структуру информации, которая: облегчает понимание запроса за счет того, что вопросы формулируются в контексте этой структуры; неявно руководит действиями носителя по заполнению анкеты (поскольку структура анкеты, как запроса, одновременно является и структурой ответа на запрос).

Примерами задач «заказа информации», когда заказчиком является компьютерная программа, а носителем – человек, могут служить формирование баз данных и баз знаний. При этом компьютерная программа должна иметь такой интерфейс, чтобы, пользуясь им, носитель мог сам, без посторонней помощи передать необходимую информацию. Если передаваемая информация имеет большой объем и сложную структуру, то в качестве подходящей метафоры для разработки таких интерфейсов предпочтительно использовать одну из таких «технологий» решения задачи заказа информации, которая знакома носителю этой информации (поскольку последний, как правило, не станет тратить свое «драгоценное» время на получение специальной подготовки, чтобы научиться передавать компьютерной системе свои знания).

В основе многих систем извлечения экспертных знаний лежит «технология» решения задачи заказа информации, базирующаяся на парадигме объектно-ориентированных онтологий, которая незнакома большинству реальных и потенциальных носителей этих знаний, что вызывает в их работе значительные трудности, а иногда делает ее практически невозможной.

В настоящем документе рассматривается двухуровневая модель сложноструктурированных информационных единиц[1], соответствующая метафоре анкетирования. В соответствии с данной моделью любая информация (результат заполнения анкеты) связана с метаинформацией (анкетой), по которой она формируется или модифицируется.

1. Двухуровневая модель анкеты

В модели анкеты естественно различать два уровня: абстрактный (метаинформация), соответствующий запросу, и конкретный (информация), соответствующий ответу на запрос. Рассмотрим двухуровневую модель анкеты, в которой: Легко видеть, что такая модель анкеты является частным (упрощенным) случаем модели, лежащей в основе редактора Web.

Пример 1.

Приведем модель анкеты, в которой могут быть заданы такие информационные единицы, как базы наблюдений в различных разделах медицины. В этом описании: Метаинформация описывается следующим образом: Информация описывается следующим образом: Из этого примера видно, что, следуя парадигме, лежащей в основе объектно-ориентированного подхода, реализованного в редакторе WebProtégé и ряде других программных средств, носитель информации должен каждому экземпляру каждого понятия сопоставить имя этого экземпляра. Часть этих имен является терминами предметной области: «База наблюдений в области офтальмологии», «Главные жалобы», «Дополнительные жалобы», «Ощущение инородного тела в глазу», «Светобоязнь», «Головная боль», «Повышение температуры». Другие же имена экземпляров понятий в предметной области не используются: «Описывается характеристиками присутствие, сторона, характер начала, периодичность», «Описывается характеристиками присутствие, характер начала, степень проявления, периодичность, длительность», «Описывается значениями отсутствует, имеется», «Описывается значениями справа, слева», «Описывается значениями острое, постепенное», «Описывается значениями постоянно, периодически», «Описывается значениями слабая, умеренная, резкая». Они возникают, как следствие принятого порядка «снизу-вверх» определения понятий, при котором сначала вводятся понятия, которые определяются лишь через сорта и константы, затем понятия, которые определяются через уже определенные понятия и т.д. Вспомогательные имена необходимы для связи через атрибуты понятий одних экземпляров понятий с другими, ранее определенными. Из-за этого носитель информации, во-первых, испытывает значительный дискомфорт при необходимости придумывать эти искусственные имена, во-вторых, ему приходится изначально определить весь необходимый и достаточный набор экземпляров понятий, требуемый для задания целостной информационной единицы, в-третьих, процесс описание информационной единицы от понятий нижнего уровня к понятиям верхнего уровня является неестественным для человека, в-четвертых, при определении косвенно рекурсивных понятий, порядок определения понятий «снизу-вверх» не может быть реализован (в примере 1 такой порядок вынужденно нарушается при определении понятий «Составные значения» и «Тип области возможных значений»). Для преодоления этой трудности в объектно-ориентированной парадигме помимо понятий и их атрибутов вводятся бинарные отношения между понятиями; атрибут понятия также рассматривается как бинарное отношение между этим понятием и областью возможных значений этого атрибута.

2. Орграфовая связная двухуровневая модель анкеты

Каждый атрибут понятия можно считать бинарным отношением между множеством экземпляров этого понятия и множеством возможных значений этого атрибута – либо множеством констант некоторого сорта, либо множеством экземпляров конечного множества понятий. Имя атрибута является именем этого отношения. Практика формализации систем понятий разных предметных областей показывает, что, если множество возможных значений атрибута однозначно идентифицирует этот атрибут, то в ряде случаев имя этого атрибута является излишним. Таким образом, некоторые атрибуты понятия удобно обозначать именами, другие же оставлять безымянными. Не умаляя общности, введем орграфовую связную двухуровневую модель анкеты, в которой и абстрактный (метаинформация), и конкретный (информация) уровни представлены орграфами с размеченными вершинами. В орграфе, представляющем абстрактный уровень модели (метаинформации): Кроме того, введем следующие ограничения: В орграфе, представляющем конкретный уровень модели (информации): В орграфе, представляющем конкретный уровень модели (информации), также существует начальная вершина – она является вершиной, соответствующей экземпляру того понятия, которому соответствует начальная вершина в орграфе, представляющем абстрактный уровень модели. Аналогичным (орграфу метаинформации) образом вводится и ориентация дуг в орграфе информации. Далее будут рассматриваться только орграфовые связные двухуровневые модели анкеты.

Орграфовая связная двухуровневая модель анкеты является не только более экономной в некоторых отношениях, но также представляет как анкету (метаинформацию), так и заполненную анкету (информацию) «целиком», каждую в виде единой информационной единицы, представленной орграфом, а не в виде неестественным образом частично упорядоченного множества вопросов и ответов на них. Кроме того, в орграфе информации «искусственные» имена экземпляров понятий отсутствуют, поскольку обозначаемые ими экземпляры понятий идентифицируются своим вхождением в граф и своим содержанием.

В орграфовой связной двухуровневой модели анкеты каждый вопрос, представленный меткой вершины орграфа метаинформации, оказывается в контексте, который представляет собой последовательность вопросов, лежащих на пути из начальной вершины в вершину, соответствующую данному вопросу. Каждый ответ на вопрос, представленный меткой вершины орграфа информации, также оказывается в соответствующем контексте.

Пример 2.
На рис.1 приведен орграф, представляющий метаинформацию, приведенную в примере 1.


Рис.1. Орграф метаинформации для баз наблюдений в различных разделах медицины

Начальная вершина, имеющая метку «База наблюдений», закрашена серым цветом. Названия сортов представлены на рисунке курсивным начертанием. Спецификаторы дуг (см. раздел 5) имеют следующие символьные обозначения: «копия» – «=», «возможное отсутствие» – «[=]», «в точности один» – «!», «ноль или один» – «[!]», «непустое упорядоченное множество» – «+». Ограничители дуг (см. раздел 5) имеют следующие символьные обозначения: «порождение» – «gen>», «порождение или ссылка» – «all», Если из вершины выходит лишь одна дуга, то тип такого набора исходящих дуг (см. раздел 5) – «список» – на рисунке не указывается.

Орграф, представляющий информацию, приведенную в примере 1, приведен на рис. 2. Начальная вершина, имеющая метку «База наблюдений в области офтальмологии», закрашена серым цветом, а в квадратных скобках у вершин указаны метки соответствующих вершин из метаинформации.


Рис.2. Орграф информации для базы наблюдений в области офтальмологии

3. Вершины орграфов метаинформации и информации

К вершинам орграфов метаинформации и информации может быть присоединена дополнительная информация различных видов. Будем говорить, что вершина имеет несколько «полей», каждое из которых имеет название.

В орграфе метаинформации каждая вершина имеет поле «комментарий», значением которого является строка (возможно пустая). Назначение информации в этом поле – пояснение вопроса анкеты.

Все вершины орграфа метаинформации можно разбить на два непересекающиеся подмножества: Пример 3.
На Рис.1 к первому подмножеству относятся вершины «База наблюдений», «Группа», «Наблюдение», «Единица измерения», «Значение», «Характеристика», «Целые значения», «Вещественные значения», которые представлены прямоугольниками с горизонтальной разделительной линией. В верхней половине таких прямоугольников отображено значение поля «имя», а в нижней (курсивным начертанием) – значение поля «сорт» соответствующей вершины орграфа. Название сорта, множество констант которого представляют собой строки конечной длины, есть «строковое» (в соответствии с разделом 4). Ко второму подмножеству относятся вершины «Группы», «Наблюдения», «Тип области возможных значений», «Числовые значения», «Качественные значения», «Составные значения», «Тип значения», которые представлены прямоугольниками без разделительной линии. В таких прямоугольниках отображено значение поля «значение» соответствующей вершины орграфа. Начальная вершина орграфа метаинформации имеет поля «имя», значением которого является название системы понятий, представляемой орграфом метаинформации, и «сорт» со значением «строковое».

Пример 4.
На рис.1 значение поля «имя» у начальной вершины есть «База наблюдений». В орграфе информации каждая вершина имеет поле «комментарий», значением которого является строка (возможно пустая). Назначение этого поля – пояснение ответа на вопрос анкеты. Кроме того, каждая вершина имеет поле «значение», значением которого может быть константа некоторого сорта (имя собственное экземпляра понятия или название атрибута понятия, экземпляр которого представляет вершина).

Пример 5.
В примере 2 все вершины орграфа информации имеют поле «значение». Их значения приведены на рис.2. Начальная вершина орграфа информации имеет поле «значение» со значением сорта строковое, являющимся названием системы экземпляров понятий, представляемой орграфом информации.

Пример 6.
В информации из примера 2 у начальной вершины поле «значение» имеет значение «База наблюдений в области офтальмологии».

4. Сорта и константы орграфов метаинформации и информации

Каждый сорт имеет название и множество констант этого сорта. Сорта могут быть базовыми и библиотечными. Базовые сорта имеют названия: Каждый библиотечный сорт имеет название, отличное от названий базовых сортов и других библиотечных сортов. Для каждого библиотечного сорта определяется свое множество констант этого сорта. Множество библиотечных сортов может быть произвольным. Множество констант сорта служит для представления множества возможных значений атрибута понятия или имен собственных экземпляров понятий.

Пример 7.
На рис.1 у вершин «База наблюдений», «Группа», «Наблюдение», «Единица измерения», «Значение», «Характеристика» значением поля «сорт» является название одного из базовых сортов («строковое»), у вершины «Целые значения» – название одного из библиотечных сортов – «целые интервалы», а у вершины «Вещественные значения» – «вещественные интервалы».

5. Дуги орграфов метаинформации и информации

Каждая дуга в орграфе (метаинформации или информации) соединяет две вершины. Вершину, из которой выходит дуга, назовем началом, а вершину, в которую дуга входит – концом этой дуги.

В орграфе метаинформации для каждой нетерминальной вершины (из которой выходит хотя бы одна дуга) определен тип набора исходящих дуг: «список» или «альтернатива». Если тип набора дуг, выходящих из вершины, есть «список», то концы этих дуг, которые являются нетерминальными вершинами орграфа, задают упорядоченное множество атрибутов понятия или значений безымянных атрибутов, а концы, которые являются терминальными вершинами, – значения атрибутов понятия. Тип набора дуг «альтернатива» определяет возможные значения атрибута понятия.

Пример 8.
На рис.1 для вершин «База наблюдений», «Группы», «Наблюдения», «Группа», «Наблюдение», «Числовые значения», «Качественные значения», «Составные значения», «Характеристика» типом наборов исходящих дуг является «список», а для вершин «Тип области возможных значений» и «Тип значения» – «альтернатива».

Вершины, являющиеся соответственно началом и концом дуги, могут принадлежать как одному, так и разным орграфам (метаинформации или информации). Вершины, принадлежащие орграфу, отличному от текущего редактируемого орграфа, но связанные дугами с последним, будем называть вершинами, не принадлежащими редактируемому орграфу.

Каждая дуга в орграфе метаинформации имеет ограничитель и спецификатор, которые определяют возможные способы ответов на вопросы анкеты. Значениями ограничителя могут быть «порождение», «ссылка», «порождение или ссылка». Если значение ограничителя есть: Значениями спецификатора могут быть «копия», «возможное отсутствие», «пропуск», «в точности один», «непустой список», «непустое упорядоченное множество», «непустая последовательность», «ноль или один», «возможно пустой список», «возможно пустое упорядоченное множество» и «возможно пустая последовательность».

Хотя структура информации (ответа на анкету) соответствует структуре метаинформации (анкеты), между ними имеются и некоторые различия: могут отсутствовать ответы на необязательные вопросы анкеты; ответ может выбираться из предложенного списка; ответом на некоторые вопросы может быть множество экземпляров понятия или значений сорта. Анкета (метаинформация) и ответ на нее (информация) являются разными информационными единицами, поэтому ответ содержит структуру, которая формируется по структуре анкеты и ответам на ее вопросы. Если в метаинформации (анкете) спецификатор дуги D, выходящей из вершины с типом набора дуг «список», имеет значение «копия», то в информации (ответе на анкету) создается дуга d, поле «значение» конца которой является копией значения поля «значение» конца дуги D; если у дуги D значение спецификатора есть «в точности один», то в информации создается дуга d, а значение поля «значение» ее конца задается в ответе; если у дуги D значение спецификатора есть «непустой список», то на основе ответа в информации создается множество дуг {d1, ..., dn}, у каждой из которых значение поля «значение» ее конца задается в ответе, причем эти значения у концов разных дуг могут совпадать; если у дуги D значение спецификатора есть «непустое упорядоченное множество», то на основе ответа в информации создается множество дуг {d1, ..., dn}, у каждой из которых значение поля «значение» ее конца задается в ответе, причем эти значения у концов разных дуг должны быть попарно различны; если у дуги D значение спецификатора есть «непустая последовательность», то на основе ответа в информации создается множество дуг {d1, ..., dn}, у каждой из которых значение поля «значение» ее конца формируется как порядковый номер этой дуги; если у дуги D значение спецификатора есть «возможное отсутствие», «ноль или один», «возможно пустой список», «возможно пустое упорядоченное множество» или «возможно пустая последовательность», то новые дуги в информации могут и не создаваться; если у дуги D значение спецификатора есть «пропуск», то для таких дуг в информации новые дуги не создаются.

Возможные значения спецификатора для дуги, выходящей из вершины с типом набора дуг «список», определяются следующим образом: Если в метаинформации из вершины выходит набор дуг с типом «альтернатива», то при построении ответа (информации) выбирается одна из дуг этого набора и для нее ответ формируется в соответствие со значением ее спецификатора, как описано выше.

Возможные значения спецификатора для дуги, выходящей из вершины с типом набора дуг «альтернатива», определяются следующим образом: Пример 9.
Значения спецификатора и ограничителя дуг на рис.1 приведены в табл.1.

Таблица 1. Значения спецификатора и ограничителя дуг на рис.1.
Дуга Значение спецификатора Значение ограничителя
1 База наблюдений [=]gen Группы возможное отсутствие порождение
2 База наблюдений [=]gen Наблюдения возможное отсутствие порождение
3 Группы +gen Группа непустое упорядоченное множество порождение
4 Группа [=]gen Группы возможное отсутствие порождение
5 Группа [=]all Наблюдения возможное отсутствие порождение или ссылка
6 Наблюдения +gen Наблюдение непустое упорядоченное множество порождение
7 Наблюдение =all Тип области возможных значений копия порождение или ссылка
8 Тип области возможных значений =all Составные значения копия порождение или ссылка
9 Тип области возможных значений =all Качественные значения копия порождение или ссылка
10 Тип области возможных значений =all Числовые значения копия порождение или ссылка
11 Составные значения +all Характеристика непустое упорядоченное множество порождение или ссылка
12 Характеристика =all Тип области возможных значений копия порождение или ссылка
13 Качественные значения +all Значение непустое упорядоченное множество порождение или ссылка
14 Числовые значения =all Тип значений копия порождение или ссылка
15 Числовые значения [!]all Единица измерения ноль или один порождение или ссылка
16 Тип значения !all Целые значения в точности один порождение или ссылка
17 Тип значения !allВещественные значения в точности один порождение или ссылка


Пример 10.
Одним из методов доказательства текущей цели (математического утверждения), является ее унификация с утверждением из базы математических знаний. Суть данного метода состоит в том, чтобы показать, что цель есть частный случай некоторого (более общего) математического утверждения, пропозициональной тавтологии или метаматематического утверждения, принадлежащего базе математических знаний. На рис.3 представлен фрагмент орграфа онтологии доказательств теорем.

Рис.3. Фрагмент орграфа метаинформации, описывающего онтологию доказательств математических теорем

На данном рисунке вершины, представленные пунктирными прямоугольниками, принадлежат орграфу, представляющему метаинформацию для базы математических знаний. Символ «@» в метках данных вершин разделяет значение поля «имя» начальной вершины соответствующего орграфа и значение поля «имя» вершины этого же орграфа (не являющейся начальной), экземпляр которой является корневой вершиной повторно используемого фрагмента орграфа информации. Поскольку общее утверждение для унификации содержится в базе математических знаний, концом дуги, началом которой является вершина-экземпляр вершины «Общее утверждение», должна быть корневая вершина выбранного пользователем утверждения из базы математических знаний.

Спецификатор дуги «непустой список» имеет символьное обозначение «*», а спецификатор дуги «возможно пустой список» – «[*]». Значение ограничителя у дуг «Общее утверждение !ref Математическое утверждение», «Общее утверждение !ref Пропозициональная тавтология», «Общее утверждение !ref Метаматематическое утверждение» на рис.3 есть «ссылка» (соответствующие дуги на рисунке имеют символьную метку «ref»).

В орграфе информации дуги не имеют ограничителей и спецификаторов.


Сноски:
  1. Под сложноструктурированными информационными единицами в работе понимаются онтологии, базы знаний, базы данных и вообще любая сложным образом организо-ванная информация.
  2. Объем этого понятия совпадает с объединением объемов множества других понятий.
  3. Значение ограничителя в этом случае не задается.
  4. Значением поля «сорт» у вершины, куда входит дуга, у которой значение спецификатора есть «непустая последовательность» или «возможно пустая последовательность», может быть только «целое», а значение ограничителя – только «порождение».