РАЗРАБОТКА МЕТОДА ОПИСАНИЯ СЕМАНТИКИ АТРИБУТОВ РЕЛЯЦИОННЫХ БАЗ ДАННЫХ > Полезные советы
Тысяча полезных мелочей    

РАЗРАБОТКА МЕТОДА ОПИСАНИЯ СЕМАНТИКИ АТРИБУТОВ РЕЛЯЦИОННЫХ БАЗ ДАННЫХ

РАЗРАБОТКА МЕТОДА ОПИСАНИЯ СЕМАНТИКИ АТРИБУТОВ РЕЛЯЦИОННЫХ БАЗ ДАННЫХ

Комар Ф.В. Статья в формате PDF 118 KB

В задачах интегрирования баз данных часто возникает проблема оценки сходства объектов [1]. В большинстве случаев такого рода оценка сходства может базироваться на некоторых семантических хаpaктеристиках объектов [2]. Так, например, наиболее примитивной семантической хаpaктеристикой атрибутов отношений можно считать тип атрибута. Однако при интегрировании комплексных баз данных, такой хаpaктеристики недостаточно. Возникает проблема разработки более сложных семантических хаpaктеристик атрибутов, на базе которых в дальнейшем можно разpaбатывать меры сходства объектов баз данных. В данной работе будет предложена семантическая хаpaктеристика атрибутов отношений на базе строковых шаблонов.

Шаблон - общеизвестный образец, трафарет. Шаблоны используются для сжатого описания некоторого множества объектов, без необходимости перечисления всех экземпляров этого множества.

Пусть дано множество объектов (экземпляров) некоторого типа. Пусть на этом множестве заданы правила определения шаблонов и язык шаблонов L - это формальный язык определения шаблонов. Каждый шаблон  определяет набор экземпляров , которые удовлетворяют данному шаблону. Множество  является подмножеством множества всех возможных экземпляров U [3].

Опишем синтаксис и структуру шаблонов, которые будем использовать для описания строковых данных. Разобьем символы в иерархически упорядоченные группы (см. рис. 1).

Рис. 1. Иерархия символов строкового шаблона.

В квадратных скобках будем обозначать группы символов, которые могут присутствовать на текущей позиции строки. Например [а, б, в] - множество букв а, б, в. Конструкция вида [а, б, в]{n, m} - означает, что символы а, б, в встречаются в количество от n до m. Конструкция вида [а, б, в]{n, } - означает, что символы а, б, в встречаются в количество не менее n. Конструкция вида [а, б, в]{ , m} - означает, что символы а, б, в встречаются в количество не более m. Отметим, что в квадратных скобках может так же присутствовать некоторый шаблон, который в данном случае будем называть подшаблоном.

Для удобства использования и в соответствии с рисунком 1 введем следующие обозначения групп символов:

 - множество букв нижнего регистра: [а, б, в, ..., я];

 - множество букв верхнего регистра: [А, Б, В, ..., Я];

 - множество любых символов;

 - множество букв [а, б, в, ... , я, А, Б, В, ... , Я];

 - множество цифр [0, 1, 2, ... , 9];

 - множество букв и цифр;

 - знак пунктуации [!, ", #, $, %, &, ´, (, ), *, +, ,, -, ., /, :, ;, <, =, >, ?, @, [, , ], ^, _, `, {, |, }, ~];

 - множество разделителей [ , , f, , s];

Как было показано выше, любой шаблон определяет некоторое множество строк. И можно считать, что данный шаблон является некоторым семантическим описанием этого множества строк. Очевидно, что один шаблон не может полностью описать все семантические особенности данного множества строк, однако некоторую семантическую значимость шаблон, безусловно, несет. С одной стороны шаблон тем лучше описывает множество строк, чем больше строк из этого множества удовлетворяют шаблону. С другой стороны шаблон тем лучше описывает множество строк, чем больше строк, не принадлежащих данному множеству, не удовлетворяют этому шаблону. Семантической значимостью можно считать некоторую обобщенную численную оценку, удовлетворяющую указанным выше свойствам. Можно так же предположить, что при определенных условиях некоторое множество шаблонов в совокупности будет иметь семантическую значимость для множества строк.

Для примера рассмотрим множество строк вида: Имя Фамилия. Естественным образом можно сказать, что шаблон вида

имеет некоторую семантическую значимость. Очевидно так же, что указанный выше шаблон не представляет полностью семантику множества строк указанных выше. Более того, для предложенного примера можно составить целое множество шаблонов, которые будут с тем или иным уровнем семантической значимости описывать множество указанных строк. Например:

и т.д.

Очевидно, что для множества строк, можно отыскать такой шаблон, которому будут удовлетворять все строки данного множества, однако при этом семантической значимости у этого шаблона будет не велика. Так например семантическая значимость шаблона вида  будет гораздо меньше чем семантическая значимость шаблона вида

.

Любая реляционная база данных содержит некоторое множество атрибутов, а так же множество конкретных значений каждого атрибута [4]. Пусть  - множество всех атрибутов базы данных. Пусть  - множество значений атрибута ,  - набор, множеств значений атрибутов, φ - некоторый шаблон. Рассмотрим функцию:

  (6)

где  - определенная выше функция, которая возвращает количество строк из множества , которые удовлетворяют шаблону φ, а  - объем множества .

Функция  дает численную оценку того, насколько точно шаблон описывает строки, которые принадлежат рассматриваемому домену. Значения функции лежат на отрезке [0, 1]. В дальнейшем эту величину будем кратко называть частотой появления шаблона φ на множестве .

Определим функцию:

  (7)

где  - набор множеств значений атрибутов. Указанная функция дает усредненное значение численной оценки того, насколько точно шаблон описывает строки, принадлежащие соответствующим множествам строк.

Определим функцию:

  (8)

где  - множество значений i- го атрибута,  - набор всех множеств значений атрибутов, кроме i- го. Значение функции тем выше, чем больше экземпляров множества i- го атрибута удовлетворяют шаблону φ и чем меньше среднее значение количества экземпляров остальных атрибутов удовлетворяющих шаблону. Значения функции лежат на отрезке [0, 1]. Максимальное значение функция принимает в том случае, когда все значения i- го атрибута удовлетворяют шаблону φ, и ни один экземпляр остальных атрибутов не удовлетворяет шаблону φ.

Примем значение функции pV как численное выражение семантической значимости атрибута A относительно атрибутов  в контексте шаблона φ.

Для множества шаблонов  определим функцию семантической значимости, как среднее значение семантической значимости каждого шаблона в отдельности:

   (9)

Таким образом, множество шаблонов может считаться некоторой семантической хаpaктеристикой атрибута реляционной базы данных. Для построения такого множества необходимо решить задачу максимизации функции семантической значимости. Разработка метода решения такого рода задачи позволит автоматически строить семантическую хаpaктеристику атрибутов реляционных баз данных.

СПИСОК ЛИТЕРАТУРЫ:

  1. W. Hasselbring. Information system integration. //Communications of the ACM, 43(6)33-38, 2000.
  2. Цаленко М. Ш. Моделирование семантики в базах данных. - М.: Наука, 1989. - 287 c.
  3. Фридл Дж. Регулярные выражения, 2-е издание. - Спб.: Питер, 2003. - 464 с.
  4. Дейт К. Дж. Введение в системы баз данных, 7-е издание. - Пер. с англ. - М.: Издательский дом Вильямс, 2001. - 1072 c.


ПЕРВОЕ НАЧАЛО ТЕРМОЛЕВИТАЦИИ

ПЕРВОЕ НАЧАЛО ТЕРМОЛЕВИТАЦИИ Статья в формате PDF 114 KB...

20 05 2026 1:45:16

ДЕСТРУКЦИЯ ЭРИТРОЦИТОВ В КОСТНОМОЗГОВЫХ ЭРИТРОКЛАЗИЧЕСКИХ КЛАСТЕРАХ

ДЕСТРУКЦИЯ ЭРИТРОЦИТОВ В КОСТНОМОЗГОВЫХ ЭРИТРОКЛАЗИЧЕСКИХ КЛАСТЕРАХ В костном мозге больных гематологическими заболеваниями выявлено значительное количество эритроклазических кластеров, хаpaктеризующихся экзоцитарным лизисом входящих в них эритроцитов кластерообразующими миелокариоцитами разных видов, включая эритрокариоциты. Содержание эритроклазических кластеров с происходящим в них экзоцитарным лизисом эритроцитов варьировало от 21% от всех эритроклазических кластеров в костном мозге больных апластической анемией до 81% в костном мозге больных в активной фазе острого лимфобластного лейкоза, что свидетельствует об интенсивности лизиса в них эритроцитов. С наибольшей интенсивностью лизис эритроцитов происходил в костном мозге больных в активную фазу острого лимфобластного лейкоза и больных хроническим миелолейкозом. При этом в момент исследования подвергались деструкции в эритроклазических кластеров десятки тысяч эритроцитов в мкл костного мозга. Эти данные подтверждают представление о костном мозге как органе гемолиза. ...

19 05 2026 5:13:32

БЕЛИК АЛЕКСАНДР ВАСИЛЬЕВИЧ

БЕЛИК АЛЕКСАНДР ВАСИЛЬЕВИЧ Статья в формате PDF 394 KB...

18 05 2026 0:11:27

ПРЕДСТАВЛЕНИЕ ФУНКЦИИ РАЗЛИЧНЫМИ РЯДАМИ ФУРЬЕ

ПРЕДСТАВЛЕНИЕ ФУНКЦИИ РАЗЛИЧНЫМИ РЯДАМИ ФУРЬЕ Статья в формате PDF 648 KB...

16 05 2026 5:46:54

КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В ТЕХНОЛОГИЯХ ОБУЧЕНИЯ

КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В ТЕХНОЛОГИЯХ ОБУЧЕНИЯ Статья в формате PDF 108 KB...

14 05 2026 23:59:14

ЭНДОЭКОЛОГИЯ И ПРОБЛЕМА ПЕКТИНА

ЭНДОЭКОЛОГИЯ И ПРОБЛЕМА ПЕКТИНА Статья в формате PDF 244 KB...

13 05 2026 22:31:58

ПРОГНОЗИРОВАНИЕ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТЬЮ ПРЕДПРИЯТИЯ И УПРАВЛЕНИЕ ЕГО РАЗВИТИЕМ

ПРОГНОЗИРОВАНИЕ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТЬЮ ПРЕДПРИЯТИЯ И УПРАВЛЕНИЕ ЕГО РАЗВИТИЕМ На основе системного анализа функционирования экономической деятельности промышленного предприятия введена его теоретическая кривая прогнозирования бизнеса и разработан алгоритм выхода на данную кривую в процессе стратегического управления развитием предприятия. ...

09 05 2026 14:32:33

БИОЭЛЕКТРИЧЕСКАЯ АКТИВНОСТЬ СЕРДЦА ДЕВУШЕК АЛТАЙСКОЙ И РУССКОЙ НАЦИОНАЛЬНОСТЕЙ РАЗНОГО СРОКА ПРОЖИВАНИЯ НА ТЕРРИТОРИИ РЕСПУБЛИКИ АЛТАЙ

БИОЭЛЕКТРИЧЕСКАЯ АКТИВНОСТЬ СЕРДЦА ДЕВУШЕК АЛТАЙСКОЙ И РУССКОЙ НАЦИОНАЛЬНОСТЕЙ РАЗНОГО СРОКА ПРОЖИВАНИЯ НА ТЕРРИТОРИИ РЕСПУБЛИКИ АЛТАЙ Целью исследования явился анализ биоэлектрической активности сердца коренных и пришлых дeвyшек Горного Алтая алтайской и русской национальностей по данным электрокардиографии. Выявлено, что длительность интервала QT снижена во всех исследуемых группах, а интервала ТР и комплекса QRS превышает общепринятые значения. Снижение длительности всех интервалов происходит от алтаек к русским пришлым, что может свидетельствовать о более выраженной симпатикотонии среди последних. Расчетные величины показывают существенное несоответствие фактических значений должным, за исключением синусового ритма, который также снижается от алтаек к русским пришлым. Анализ амплитудно-частотных хаpaктеристик указывает на нарушения, связанные с процессами реполяризации, внутрижелудочковой и внутрипредсердной проводимости, а также гипертрофии этих отделов. О гипертрофии отделов сердца и нарушениях внутрижелудочковой проводимости в виде блокады ножек пучка Гиса свидетельствует также положение электрической оси сердца. ...

08 05 2026 14:10:54

РЫНОК ЦЕННЫХ БУМАГ В&#8239;РОССИИ

РЫНОК ЦЕННЫХ БУМАГ В&#8239;РОССИИ Статья в формате PDF 269 KB...

04 05 2026 17:31:36

СИСТЕМНЫЕ МОДЕЛИ ВООРУЖЕННЫХ КОНФЛИКТОВ

СИСТЕМНЫЕ МОДЕЛИ ВООРУЖЕННЫХ КОНФЛИКТОВ Статья в формате PDF 108 KB...

02 05 2026 22:54:14

ИНФОРМАЦИОННЫЙ АНАЛИЗ ВЛАГАЛИЩНОЙ ЖИДКОСТИ

ИНФОРМАЦИОННЫЙ АНАЛИЗ ВЛАГАЛИЩНОЙ ЖИДКОСТИ Статья в формате PDF 283 KB...

27 04 2026 19:15:45

О МОРФОГЕНЕЗЕ ДОЛЕЙ ТИМУСА У ПЛОДОВ БЕЛОЙ КРЫСЫ

О МОРФОГЕНЕЗЕ ДОЛЕЙ ТИМУСА У ПЛОДОВ БЕЛОЙ КРЫСЫ Разделение тимуса на истинные доли происходит у плодов белой крысы в процессе его неравномерного роста в плотном окружении, под давлением ветвей внутренней грудной артерии и сопровождающих вен. ...

21 04 2026 2:11:28

СТАНОВЛЕНИЕ РЕПРОДУКТИВНОЙ СИСТЕМЫ НОВОРОЖДЕННЫХ

СТАНОВЛЕНИЕ РЕПРОДУКТИВНОЙ СИСТЕМЫ НОВОРОЖДЕННЫХ Статья в формате PDF 145 KB...

18 04 2026 14:51:14

ЭНЕРГОСБЕРЕГАЮЩАЯ ТЕХНОЛОГИЯ ВЫРАЩИВАНИЯ СОРГО В УСЛОВИЯХ АСТРАХАНСКОЙ ОБЛАСТИ

ЭНЕРГОСБЕРЕГАЮЩАЯ ТЕХНОЛОГИЯ ВЫРАЩИВАНИЯ СОРГО В УСЛОВИЯХ АСТРАХАНСКОЙ ОБЛАСТИ В обзорной статье рассмотрены основные элементы энергосберегающей технологии возделывания сорго в условиях Астpaxaнской области, к которым относятся: подготовка семян к посеву, севооборот, подбор сортов, нормы высева и способы посева, минеральные подкормки, борьба с сорными растениями и болезнями с помощью внесение гербицидов, орошение по фазам роста и развития, с помощью дождевания наименее энергозатратных агрегатов. ...

17 04 2026 17:18:47

БИОВОЛНОГЕНЕЗ: Ч.1. СТИХИЙНЫЕ БЕДСТВИЯ

БИОВОЛНОГЕНЕЗ: Ч.1. СТИХИЙНЫЕ БЕДСТВИЯ Статья в формате PDF 133 KB...

15 04 2026 13:59:51

О природе времени

О природе времени Понятие время является важнейшим понятием, как физики, так и философии. Актуальность этой проблемы обусловлена тем, что до сих пор, несмотря на широкий круг исследований, не сложилось твердо закрепленного представления о времени. В статье делается попытка раскрыть сущность понятия времени и связать меру времени с движением. За меру времени механического движения предлагается выбрать путь, пройденный, например, концом стрелки часов, участвующей не только в собственном движении относительно циферблата, как это принято, но и в сложном движении, включающем движение часов как целое относительно внешнего наблюдателя. Синхронизация хода часов производится по периодам их движений в соответствие с принятым эталоном времени. Рассматривается случай, когда часы движутся относительно внешнего наблюдателя с постоянной скоростью. Такой подход к проблеме времени позволяет понять его непрерывность и бесконечность. ...

14 04 2026 4:47:44

Еще:
Поддержать себя -1 :: Поддержать себя -2 :: Поддержать себя -3 :: Поддержать себя -4 :: Поддержать себя -5 :: Поддержать себя -6 :: Поддержать себя -7 :: Поддержать себя -8 :: Поддержать себя -9 :: Поддержать себя -10 :: Поддержать себя -11 :: Поддержать себя -12 :: Поддержать себя -13 :: Поддержать себя -14 :: Поддержать себя -15 :: Поддержать себя -16 :: Поддержать себя -17 :: Поддержать себя -18 :: Поддержать себя -19 :: Поддержать себя -20 :: Поддержать себя -21 :: Поддержать себя -22 :: Поддержать себя -23 :: Поддержать себя -24 :: Поддержать себя -25 :: Поддержать себя -26 :: Поддержать себя -27 :: Поддержать себя -28 :: Поддержать себя -29 :: Поддержать себя -30 :: Поддержать себя -31 :: Поддержать себя -32 :: Поддержать себя -33 :: Поддержать себя -34 :: Поддержать себя -35 :: Поддержать себя -36 :: Поддержать себя -37 :: Поддержать себя -38 ::