АЛГОРИТМ МАКСИМИЗАЦИИ ФУНКЦИИ ОЦЕНКИ СЕМАНТИЧЕСКОЙ ЗНАЧИМОСТИ СТРОКОВОГО ШАБЛОНА > Полезные советы
Тысяча полезных мелочей    

АЛГОРИТМ МАКСИМИЗАЦИИ ФУНКЦИИ ОЦЕНКИ СЕМАНТИЧЕСКОЙ ЗНАЧИМОСТИ СТРОКОВОГО ШАБЛОНА

АЛГОРИТМ МАКСИМИЗАЦИИ ФУНКЦИИ ОЦЕНКИ СЕМАНТИЧЕСКОЙ ЗНАЧИМОСТИ СТРОКОВОГО ШАБЛОНА

Комар Ф.В. Статья в формате PDF 113 KB

В настоящее время активно ведется работа по созданию методов автоматизированного интегрирования баз данных. [1] В большинстве случаев эти методы базируются на оценках семантического сходства объектов. Однако описание семантики объектов является нетривиальной задачей, которая до сих пор окончательно не решена. Таким образом, исследования методов описания семантики объектов являются актуальной задачей. [2]

Рассмотрим возможность использования строковых шаблонов в качестве семантической хаpaктеристики множества семантически сходных строк. В качестве языка строковых шаблонов будем использоваться общеизвестный язык регулярных выражений. [3] Любой строковый шаблон определяет некоторое множество строк. И можно считать, что строковый шаблон является некоторым семантическим описанием множества строк. Семантической значимостью можно считать некоторую обобщенную численную оценку, хаpaктеризующую то, насколько данный шаблон точно описывает заданное множество строк.

Пусть  - множество строк, обладающих сходной семантикой,  - некоторый набор, множеств строк,  - некоторый шаблон. Определим функцию:

         (1)

где  - функция, которая возвращает количество строк из множества , которые удовлетворяют шаблону , а  - объем множества . Значение функции pF будем кратко называть частотой появления шаблона  на множестве .

Определим функцию:

         (2)

где  - набор множеств строковых значений.

Определим функцию:

     (3)

где  - множество значений i- го атрибута,  - набор всех множеств значений атрибутов, кроме i- го. Примем значение функции pV как численное выражение семантической значимости шаблона  относительно множества строк  в контексте набора множеств строк .

Таким образом, задача семантической хаpaктеристики некоторого множества строк относительно набора множеств других строк может быть сведена к задаче максимизации функции семантической значимости шаблона.

Для решения задачи максимизации функции семантической значимости используем генетический алгоритм [4] представленный на рисунке 1.

Использование генетического алгоритма подразумевает представление в генетическом виде информации о шаблоне, поэтому прежде чем перейти к описанию разработанного алгоритма, определим способ кодирования информации о шаблоне в виде генов.

 

Рис. 1. Генетический алгоритм максимизации функции семантической значимости

 

Рис. 2. Древовидная структура шаблона

В общем случае структура шаблона, может содержать любое количество подшаблонов, а сам шаблон может быть представлен в виде дерева. Узлами дерева будут ялвяться подшаблоны, которые в свою очередь содержат другие подшаблоны. Листья дерева будут представлять собой шаблоны, которые не содеражат подшаблоны, но хаpaктеризуются множеством допустимых символов. Пример древовидной структуры шаблона показан на рисунке 2.

В терминах эволюционных алгоритмов каждый подшаблон представляет собой хромосому. Множество генов объединенных в древовидную структуру будут представлять шаблон, а в терминах эволюционного поиска - особь. Хромосома может состоять из различного количества генов. При этом гены определяют множество допустимых символов подшаблона в случае, если данный подшаблон является листом в дереве подшаблонов, или определяют набор подшаблонов в случае, если данный подшаблон содержит другие подшаблоны. Значение минимального и максимального количества вхождений данного подшаблона так же кодируются в виде генов.

Так как основная задача поиска - отыскание шаблонов, наиболее точно описывающих определенный атрибут в контексте множества других атрибутов, то естественным образом можно определить фитнес функцию как функцию оценки семантической значимости атрибута в контексте множества атрибутов.

Начальную популяцию будем формировать на основе множества значений рассматриваемого атрибута. Каждое значение атрибута может быть закодировано в виде шаблона следующим образом:

На основании каждого символа значения атрибута формируется шаблон. Каждый подшаблон шаблона представляет собой лист в дереве подшаблонов, множество символов представлено одним текущим символом значения атрибута, максимальное и минимальное количество вхождений подшаблонов равно единице.

Определим оператор скрещивания как случайный обмен хромосомами между двумя особями. В терминах шаблонов, такого рода обмен будет представлять собой обмен некоторыми подшаблонами между двумя деревьями подшаблонов.

Рассмотрим следующие операции над шаблонами:

Добавление подшаблона - операция, добавляющая в дерево подшаблонов новый подшаблон.

Удаление подшаблона - операция удаляющая из дерева подшаблонов подшлаблон.

Изменения минимального количества вхождения подшаблона - изменение параметра подшаблона, хаpaктеризующего минимальное вхождения подшаблона.

Изменения максимального количества вхождения подшаблона - изменение параметра подшаблона, хаpaктеризующего максимальное вхождения подшаблона.

Уточнение множества символов подшаблона - замена текущего множества символов подшаблона на множество символов, стоящих ниже в иерархии групп символов.

Обобщение множества символов подшаблона - замена текущего множества символов подшаблона на множество символов, стоящих выше в иерархии групп символов.

Добавление символа в множество символов подшаблона - добавление символа, стоящего на том же уровне иерархии символов, что и остальные допустимые символы подшаблона.

Удаление символа из множества символов подшаблона - удаление символа из множества допустимых символов подшаблона.

Определим оператор мутации как случайное применение одной из вышеописанных операций к случайной хромосоме особи. В простейшем случае будем полагать применения любой операции равновероятным.

Предложенный выше алгоритм позволяет отыскать строковый шаблон, который в контексте рассматриваемых множеств строк дает максимум значения функции семантической значимости.

Таким образом, предложен метод описания семантики множества строк с помощью строковых шаблонов, определена функция численной оценки семантической значимости шаблона, а так же предложен алгоритм максимизации данной функции. Строковые шаблоны, которые дают максимум функции семантической значимости, могут быть рассмотрены как семантическая хаpaктеристика множества строк.

СПИСОК ЛИТЕРАТУРЫ:

  1. Глеб Лодыженский. Шлюзы как средство интеграции баз данных. // Открытые системы, №2, 1999.
  2. Цаленко М. Ш. Моделирование семантики в базах данных. - М.: Наука, 1989. - 287 c.
  3. Фридл Дж. Регулярные выражения, 2-е издание. - Спб.: Питер, 2003. - 464 с.
  4. Курейчик, В.М. Генетические алгоритмы / Л.А. Гладков, В.М. Курейчик, В.В. Курейчик. - М.: Физматлит, 2006.


ПЕРСПЕКТИВЫ РАЗВИТИЯ ДУХОВОЙ БАРОЧНОЙ МУЗЫКИ

ПЕРСПЕКТИВЫ РАЗВИТИЯ ДУХОВОЙ БАРОЧНОЙ МУЗЫКИ Статья в формате PDF 302 KB...

02 07 2026 12:17:58

ИССЛЕДОВАНИЕ НАПРЯЖЕНИЯ КОСТНОЙ ТКАНИ У КРУПНОГО РОГАТОГО СКОТА И ЛОСЕЙ ПРИ ИСПЫТАНИИ НА ИЗГИБ ПЯСТНОЙ КОСТИ

ИССЛЕДОВАНИЕ НАПРЯЖЕНИЯ КОСТНОЙ ТКАНИ У КРУПНОГО РОГАТОГО СКОТА И ЛОСЕЙ ПРИ ИСПЫТАНИИ НА ИЗГИБ ПЯСТНОЙ КОСТИ Костная ткань обладает целым рядом уникальных физических свойств. Наиболее ценными с производственной точки зрения, представляются только некоторые из них: жесткость, твердость, упругость, эластичность. Наш научный интерес проявился на два основных свойства: жесткость и эластичность. ...

21 06 2026 15:48:21

ВЫБОР ВОЗДУХООЧИСТИТЕЛЬНОГО ОБОРУДОВАНИЯ

ВЫБОР ВОЗДУХООЧИСТИТЕЛЬНОГО ОБОРУДОВАНИЯ Статья в формате PDF 272 KB...

18 06 2026 21:16:33

ЭНЕРГОСБЕРЕЖЕНИЕ ПРИ АКТИВАЦИИ ВОДЫ

ЭНЕРГОСБЕРЕЖЕНИЕ ПРИ АКТИВАЦИИ ВОДЫ Статья в формате PDF 91 KB...

12 06 2026 7:40:37

Развитие Севера и Арктики: проблемы и перспективы

Развитие Севера и Арктики: проблемы и перспективы Формулируется базовая проблема социально-экономического развития и регулирования процессов на российском Севере – на фоне возрастания геополитического и экономического значения эта специфическая зона хаpaктеризуется нарастанием системных проблем и появлением новых вызовов современности. Значительный опыт исследования перспектив оптимизации управленческих социально-экономических отношений в Институте экономических проблем Кольского НЦ РАН позволил выявить и обосновать два важнейших научных направления: 1) необходимость введения особого направления – «Североведения» – в систему макроэкономических и региональных исследований; 2) необходимость формирования целостной теории прострaнcтвенного развития Севера и Арктики в современном мире. Плодотворному обсуждению этих научных направлений в рамках современных и перспективных проблем была посвящена межрегиональная научно-пpaктическая конференция «Развитие Севера и Арктики: проблемы и перспективы», состоявшаяся 14–16 ноября 2012 года в г. Апатиты Мурманской области. Результаты обсуждения приведены в настоящей статье. Делается вывод, что фундаментальная задача современности – необходимость формирования новой парадигмы развития Севера и Арктики с учетом существенных изменений в глобальной расстановке сил последнего двадцатилетия, национальных интересов арктических стран, и. прежде всего, России, глобальных изменений природной среды, роста значения ресурсов севера и Арктики, экологических требований и культурно-цивилизационных задач развития. ...

02 06 2026 23:21:17

ДАНИЛОВА ТАТЬЯНА ГЕОРГИЕВНА

ДАНИЛОВА ТАТЬЯНА ГЕОРГИЕВНА Статья в формате PDF 853 KB...

01 06 2026 7:24:24

РАЗРАБОТКА СОСТАВА, ТЕХНОЛОГИЯ И СТАНДАРТИЗАЦИЯ ОФТАЛЬМОЛОГИЧЕСКИХ ЛЕКАРСТВЕННЫХ ФОРМ С ОРТОФЕНОМ

РАЗРАБОТКА СОСТАВА, ТЕХНОЛОГИЯ И СТАНДАРТИЗАЦИЯ ОФТАЛЬМОЛОГИЧЕСКИХ ЛЕКАРСТВЕННЫХ ФОРМ С ОРТОФЕНОМ Предложены офтальмологические лекарственные формы с ортофеном - глазные лекарственные пленки и пролонгированные глазные капли. Разработан их состав, технология длч производства в аптечных условиях, стандартизация. Проведены подробные биофармацевтические исследования in vitro по выбору оптимальных вспомогательных компонентов. Выбран способ количественного анализа ортофена в разработанных лекарственных форм - с помощью спектрофотометрии. ...

28 05 2026 9:57:52

К КИНЕТИКЕ ПРОЦЕССОВ РОСТА, РАЗМНОЖЕНИЯ И ГИБЕЛИ МИКРООРГАНИЗМОВ

К КИНЕТИКЕ ПРОЦЕССОВ РОСТА, РАЗМНОЖЕНИЯ И ГИБЕЛИ МИКРООРГАНИЗМОВ Рассмотрен вариант синхронного деления клеток. Предложены кинетические уравнения, описывающие рост, размножение и гибель микроорганизмов с учетом как естественной cмepтности, так и внутривидовой борьбы. Рассматривается квазистационарный метод решения уравнения для определения плотности функции распределения микроорганизмов по возрастам. Предложен явный вид коэффициента диффузии в прострaнcтве масс. Получено аналитическое решение в квазистационарном приближении для плотности функции распределения микроорганизмов по возрастам для случая, когда рост клетки пропорционален ее массе (объему). ...

25 05 2026 5:27:35

Еще:
Поддержать себя -1 :: Поддержать себя -2 :: Поддержать себя -3 :: Поддержать себя -4 :: Поддержать себя -5 :: Поддержать себя -6 :: Поддержать себя -7 :: Поддержать себя -8 :: Поддержать себя -9 :: Поддержать себя -10 :: Поддержать себя -11 :: Поддержать себя -12 :: Поддержать себя -13 :: Поддержать себя -14 :: Поддержать себя -15 :: Поддержать себя -16 :: Поддержать себя -17 :: Поддержать себя -18 :: Поддержать себя -19 :: Поддержать себя -20 :: Поддержать себя -21 :: Поддержать себя -22 :: Поддержать себя -23 :: Поддержать себя -24 :: Поддержать себя -25 :: Поддержать себя -26 :: Поддержать себя -27 :: Поддержать себя -28 :: Поддержать себя -29 :: Поддержать себя -30 :: Поддержать себя -31 :: Поддержать себя -32 :: Поддержать себя -33 :: Поддержать себя -34 :: Поддержать себя -35 :: Поддержать себя -36 :: Поддержать себя -37 :: Поддержать себя -38 ::