РАЗРАБОТКА МЕТОДА ОПИСАНИЯ СЕМАНТИКИ АТРИБУТОВ РЕЛЯЦИОННЫХ БАЗ ДАННЫХ > Полезные советы
Тысяча полезных мелочей    

РАЗРАБОТКА МЕТОДА ОПИСАНИЯ СЕМАНТИКИ АТРИБУТОВ РЕЛЯЦИОННЫХ БАЗ ДАННЫХ

РАЗРАБОТКА МЕТОДА ОПИСАНИЯ СЕМАНТИКИ АТРИБУТОВ РЕЛЯЦИОННЫХ БАЗ ДАННЫХ

Комар Ф.В. Статья в формате PDF 118 KB

В задачах интегрирования баз данных часто возникает проблема оценки сходства объектов [1]. В большинстве случаев такого рода оценка сходства может базироваться на некоторых семантических хаpaктеристиках объектов [2]. Так, например, наиболее примитивной семантической хаpaктеристикой атрибутов отношений можно считать тип атрибута. Однако при интегрировании комплексных баз данных, такой хаpaктеристики недостаточно. Возникает проблема разработки более сложных семантических хаpaктеристик атрибутов, на базе которых в дальнейшем можно разpaбатывать меры сходства объектов баз данных. В данной работе будет предложена семантическая хаpaктеристика атрибутов отношений на базе строковых шаблонов.

Шаблон - общеизвестный образец, трафарет. Шаблоны используются для сжатого описания некоторого множества объектов, без необходимости перечисления всех экземпляров этого множества.

Пусть дано множество объектов (экземпляров) некоторого типа. Пусть на этом множестве заданы правила определения шаблонов и язык шаблонов L - это формальный язык определения шаблонов. Каждый шаблон  определяет набор экземпляров , которые удовлетворяют данному шаблону. Множество  является подмножеством множества всех возможных экземпляров U [3].

Опишем синтаксис и структуру шаблонов, которые будем использовать для описания строковых данных. Разобьем символы в иерархически упорядоченные группы (см. рис. 1).

Рис. 1. Иерархия символов строкового шаблона.

В квадратных скобках будем обозначать группы символов, которые могут присутствовать на текущей позиции строки. Например [а, б, в] - множество букв а, б, в. Конструкция вида [а, б, в]{n, m} - означает, что символы а, б, в встречаются в количество от n до m. Конструкция вида [а, б, в]{n, } - означает, что символы а, б, в встречаются в количество не менее n. Конструкция вида [а, б, в]{ , m} - означает, что символы а, б, в встречаются в количество не более m. Отметим, что в квадратных скобках может так же присутствовать некоторый шаблон, который в данном случае будем называть подшаблоном.

Для удобства использования и в соответствии с рисунком 1 введем следующие обозначения групп символов:

 - множество букв нижнего регистра: [а, б, в, ..., я];

 - множество букв верхнего регистра: [А, Б, В, ..., Я];

 - множество любых символов;

 - множество букв [а, б, в, ... , я, А, Б, В, ... , Я];

 - множество цифр [0, 1, 2, ... , 9];

 - множество букв и цифр;

 - знак пунктуации [!, ", #, $, %, &, ´, (, ), *, +, ,, -, ., /, :, ;, <, =, >, ?, @, [, , ], ^, _, `, {, |, }, ~];

 - множество разделителей [ , , f, , s];

Как было показано выше, любой шаблон определяет некоторое множество строк. И можно считать, что данный шаблон является некоторым семантическим описанием этого множества строк. Очевидно, что один шаблон не может полностью описать все семантические особенности данного множества строк, однако некоторую семантическую значимость шаблон, безусловно, несет. С одной стороны шаблон тем лучше описывает множество строк, чем больше строк из этого множества удовлетворяют шаблону. С другой стороны шаблон тем лучше описывает множество строк, чем больше строк, не принадлежащих данному множеству, не удовлетворяют этому шаблону. Семантической значимостью можно считать некоторую обобщенную численную оценку, удовлетворяющую указанным выше свойствам. Можно так же предположить, что при определенных условиях некоторое множество шаблонов в совокупности будет иметь семантическую значимость для множества строк.

Для примера рассмотрим множество строк вида: Имя Фамилия. Естественным образом можно сказать, что шаблон вида

имеет некоторую семантическую значимость. Очевидно так же, что указанный выше шаблон не представляет полностью семантику множества строк указанных выше. Более того, для предложенного примера можно составить целое множество шаблонов, которые будут с тем или иным уровнем семантической значимости описывать множество указанных строк. Например:

и т.д.

Очевидно, что для множества строк, можно отыскать такой шаблон, которому будут удовлетворять все строки данного множества, однако при этом семантической значимости у этого шаблона будет не велика. Так например семантическая значимость шаблона вида  будет гораздо меньше чем семантическая значимость шаблона вида

.

Любая реляционная база данных содержит некоторое множество атрибутов, а так же множество конкретных значений каждого атрибута [4]. Пусть  - множество всех атрибутов базы данных. Пусть  - множество значений атрибута ,  - набор, множеств значений атрибутов, φ - некоторый шаблон. Рассмотрим функцию:

  (6)

где  - определенная выше функция, которая возвращает количество строк из множества , которые удовлетворяют шаблону φ, а  - объем множества .

Функция  дает численную оценку того, насколько точно шаблон описывает строки, которые принадлежат рассматриваемому домену. Значения функции лежат на отрезке [0, 1]. В дальнейшем эту величину будем кратко называть частотой появления шаблона φ на множестве .

Определим функцию:

  (7)

где  - набор множеств значений атрибутов. Указанная функция дает усредненное значение численной оценки того, насколько точно шаблон описывает строки, принадлежащие соответствующим множествам строк.

Определим функцию:

  (8)

где  - множество значений i- го атрибута,  - набор всех множеств значений атрибутов, кроме i- го. Значение функции тем выше, чем больше экземпляров множества i- го атрибута удовлетворяют шаблону φ и чем меньше среднее значение количества экземпляров остальных атрибутов удовлетворяющих шаблону. Значения функции лежат на отрезке [0, 1]. Максимальное значение функция принимает в том случае, когда все значения i- го атрибута удовлетворяют шаблону φ, и ни один экземпляр остальных атрибутов не удовлетворяет шаблону φ.

Примем значение функции pV как численное выражение семантической значимости атрибута A относительно атрибутов  в контексте шаблона φ.

Для множества шаблонов  определим функцию семантической значимости, как среднее значение семантической значимости каждого шаблона в отдельности:

   (9)

Таким образом, множество шаблонов может считаться некоторой семантической хаpaктеристикой атрибута реляционной базы данных. Для построения такого множества необходимо решить задачу максимизации функции семантической значимости. Разработка метода решения такого рода задачи позволит автоматически строить семантическую хаpaктеристику атрибутов реляционных баз данных.

СПИСОК ЛИТЕРАТУРЫ:

  1. W. Hasselbring. Information system integration. //Communications of the ACM, 43(6)33-38, 2000.
  2. Цаленко М. Ш. Моделирование семантики в базах данных. - М.: Наука, 1989. - 287 c.
  3. Фридл Дж. Регулярные выражения, 2-е издание. - Спб.: Питер, 2003. - 464 с.
  4. Дейт К. Дж. Введение в системы баз данных, 7-е издание. - Пер. с англ. - М.: Издательский дом Вильямс, 2001. - 1072 c.


ЭЛЕКТРОМАГНИТНЫЙ ФАКТОР ПЛАНЕТЫ

ЭЛЕКТРОМАГНИТНЫЙ ФАКТОР ПЛАНЕТЫ Статья в формате PDF 190 KB...

27 06 2026 4:53:32

ОБЩАЯ ТЕОРИЯ ПАТОЛОГИИ: ХРОНИЧЕСКИЙ ИНФЕКЦИОННЫЙ ПРОЦЕСС

ОБЩАЯ ТЕОРИЯ ПАТОЛОГИИ: ХРОНИЧЕСКИЙ ИНФЕКЦИОННЫЙ ПРОЦЕСС В статье представлен фрагмент авторской концепции теории патологического процесса. На примере становления хронического инфекционного процесса проведен анализ взаимоотношения основных причинных факторов, составляющих сложную структуру этиологии болезни. ...

26 06 2026 23:41:43

Целиакия – современные представления о патогенезе и классификация (обзор)

Целиакия – современные представления о патогенезе и классификация (обзор) Целиакия – энтеропатия, обусловленная развитием неадекватной иммунной реакции в ответ на поступление глютена – белка, содержащегося в злаковых, – в просвет тонкой кишки. Распространенность заболевания составляет 0,5-1,0 % в популяции. Большинство больных являются носителями мутировавшего лейкоцитарного гена DQ2/DQ8. В обзоре обсуждаются современные представления о патогенезе целиакии и классификация Marsh, дополненная Oberhuber. «Золотым стандартом» диагностики целиакии является биопсийное исследование. Диагностически значимыми морфологическими критериями целиакии являются атрофия ворсинок слизистой оболочки тонкой кишки, гиперплазия крипт увеличение числа межэпителиальных лимфоцитов, лимфо-плазмоцитарная инфильтрация собственной пластинки. В плане лечения наиболее эффективна строгая аглютеновая диета, обсуждается возможность применения заместительной ферментной терапии. ...

19 06 2026 5:54:54

О ЗАКОНЕ АРХИМЕДА

О ЗАКОНЕ АРХИМЕДА Статья в формате PDF 161 KB...

15 06 2026 17:45:34

ЗНАЧЕНИЕ СЪЕЗДОВ ЗЕМСКИХ ВРАЧЕЙ РЯЗАНСКОЙ ГУБЕРНИИ В РАЗВИТИИ ПРОФИЛАКТИЧЕСКОГО НАПРАВЛЕНИЯ МЕДИЦИНЫ КРАЯ

ЗНАЧЕНИЕ СЪЕЗДОВ ЗЕМСКИХ ВРАЧЕЙ РЯЗАНСКОЙ ГУБЕРНИИ В РАЗВИТИИ ПРОФИЛАКТИЧЕСКОГО НАПРАВЛЕНИЯ МЕДИЦИНЫ КРАЯ В статье представлены материалы о значении съездов земских врачей Рязанской губернии (1874 – 1900) и их роль в развитии профилактического направления медицины края. ...

14 06 2026 21:42:52

ВЛИЯНИЕ ХАРАКТЕРИСТИК СТРУКТУРНОЙ ГЕТЕРОГЕННОСТИ НА ПРОЦЕССЫ ИЗНАШИВАНИЯ ТЕРМОДИФФУЗИОННЫХ ПОКРЫТИЙ

ВЛИЯНИЕ ХАРАКТЕРИСТИК СТРУКТУРНОЙ ГЕТЕРОГЕННОСТИ НА ПРОЦЕССЫ ИЗНАШИВАНИЯ ТЕРМОДИФФУЗИОННЫХ ПОКРЫТИЙ В течение продолжительного времени проводились триботехнические испытания различных термодиффузионных покрытий на изнашивание при трении скольжения. Они позволили сделать ряд принципиальных обобщений по взаимообусловленности структурного состояния покрытий и кинетики процессов износа. В результате моделирования фрикционных процессов широкого класса материалов было получено эмпирическое уравнение для коэффициента трения, отражающее параметрическое влияние свойств материала покрытий, реологию поверхностного трения и свойство смaзoчного материала. ...

10 06 2026 11:45:19

НОВЫЕ МЕТОДЫ ОБОГРЕВА ЖИЛИЩА ЧЕЛОВЕКА

НОВЫЕ МЕТОДЫ ОБОГРЕВА ЖИЛИЩА ЧЕЛОВЕКА Статья в формате PDF 134 KB...

09 06 2026 6:47:58

ЯВЛЕНИЕ КРИОБИОГЕНЕЗА И САМООРГАНИЗАЦИЯ МЕРЗЛОТНЫХ ГЕОХИМИЧЕСКИХ ЛАНДШАФТОВ

ЯВЛЕНИЕ КРИОБИОГЕНЕЗА И САМООРГАНИЗАЦИЯ МЕРЗЛОТНЫХ  ГЕОХИМИЧЕСКИХ ЛАНДШАФТОВ Самоорганизация мерзлотных геохимических ландшафтов определяется явлением криобиогенеза и эффектами, которые он вызывает. Криобиогенез - это единство и взаимосвязь биогенных и криогенных процессов, формирующих мерзлотную экосистему, в которой геохимические процессы и миграция химических процессов тесно взаимосвязаны и взаимообусловлены энергией, веществом и информацией живого вещества и криогенеза. Главным условием возникновения и развития мерзлотных ландшафтов является непрерывный периодический (зима-лето) круговорот вещества во времени - криогенный и биогенный, проявляющийся в единстве, взаимодействии и соответствии друг с другом. Периодичность и взаимодействие этих главных противоположных процессов обеспечивают целостность и устойчивость системы. Периодичность явлений (зима-лето, оледенение - межледниковье) - важный признак мерзлотных ландшафтов. Этот признак обобщающий критерий и мера самоорганизации системы. В мерзлотном ландшафте биологический круговорот выполняет основную организующую роль. Он связывает воедино биогенный и криогенный циклы миграции - потоки вещества и энергии биогенеза и криогенеза, создают новую информационную систему, отличную от исходных составляющих. Криогенез и самоорганизация наиболее ярко проявляются в экосистемах на рудных провинциях, геохимически специализированных породах, нефтегазоносных и угленосных породах. Высокая самоорганизация мерзлотных ландшафтов (экосистем) Северной Азии с высокой биопродуктивностью и биоразнообразием с обилием животных (звери и рыбы) были главным фактором этногенеза. ...

08 06 2026 14:38:21

ИНДИВИДУАЛЬНЫЕ ОСОБЕННОСТИ ОДАРЕННЫХ УЧАЩИХСЯ

ИНДИВИДУАЛЬНЫЕ ОСОБЕННОСТИ ОДАРЕННЫХ УЧАЩИХСЯ Статья в формате PDF 96 KB...

06 06 2026 20:56:18

ЭНВИРОЛОГИЯ – НАУКА ОБ ОКРУЖАЮЩЕЙ СРЕДЕ

ЭНВИРОЛОГИЯ – НАУКА ОБ ОКРУЖАЮЩЕЙ СРЕДЕ Статья в формате PDF 149 KB...

05 06 2026 19:44:39

Викулина Мария Анатольевна

Викулина Мария Анатольевна Статья в формате PDF 381 KB...

31 05 2026 19:57:51

НАЧАЛЬНЫЕ ЭТАПЫ НАУЧНОГО ИЗУЧЕНИЯ ПРИРОДНЫХ УСЛОВИЙ И ТЕРИОФАУНЫ КАВКАЗА

НАЧАЛЬНЫЕ ЭТАПЫ НАУЧНОГО ИЗУЧЕНИЯ ПРИРОДНЫХ УСЛОВИЙ И ТЕРИОФАУНЫ КАВКАЗА В статье рассматриваются основные начальные этапы научного изучения природных условий и фауны млекопитающих Кавказа. Рассмотрен вклад выдающихся научных деятелей России в становление и развитие отечественной териологии на Кавказе, приводятся интересные сведения об отдельных биографических моментах ученых, связанных с освоением изучаемой территории. ...

24 05 2026 18:25:35

Еще:
Поддержать себя -1 :: Поддержать себя -2 :: Поддержать себя -3 :: Поддержать себя -4 :: Поддержать себя -5 :: Поддержать себя -6 :: Поддержать себя -7 :: Поддержать себя -8 :: Поддержать себя -9 :: Поддержать себя -10 :: Поддержать себя -11 :: Поддержать себя -12 :: Поддержать себя -13 :: Поддержать себя -14 :: Поддержать себя -15 :: Поддержать себя -16 :: Поддержать себя -17 :: Поддержать себя -18 :: Поддержать себя -19 :: Поддержать себя -20 :: Поддержать себя -21 :: Поддержать себя -22 :: Поддержать себя -23 :: Поддержать себя -24 :: Поддержать себя -25 :: Поддержать себя -26 :: Поддержать себя -27 :: Поддержать себя -28 :: Поддержать себя -29 :: Поддержать себя -30 :: Поддержать себя -31 :: Поддержать себя -32 :: Поддержать себя -33 :: Поддержать себя -34 :: Поддержать себя -35 :: Поддержать себя -36 :: Поддержать себя -37 :: Поддержать себя -38 ::