18
Бодякин В.И. к.ф.-м.н. с.н.с. Институт проблем управления РАН им. В.А. Трапезникова, Москва E-mail: body@ipu.ru , http://www.informograd.narod.ru , служ.тел.:334-92-39 (Априорно неопределенной предметной области)

Автоструктуризация непрерывного текстового потока

Embed Size (px)

Citation preview

Бодякин В.И. к.ф.-м.н. с.н.с.Институт проблем управления РАН

им. В.А. Трапезникова, Москва

E-mail: [email protected] , http://www.informograd.narod.ru , служ.тел.:334-92-39

(Априорно неопределенной предметной области)

010101010101001001001110110101010101010101010101010100101010101010101010101010000010101010101001010101010101010101001010100101010101010101010100101010101010101001010100101010101010101010010101010100100110101010101010101010101010101010101010101010101010100110010101010101010101010101010101010100101010101010101010101010010101010101010100110101010101010101001010

ПОЧЕМУ ВСЕ ОРГАНИЗМЫ "ЕДИНОДУШНЫ" В КЛАСТЕРИЗАЦИИ ОКРУЖАЮЩЕГО НАС

МИРА НА ОТДЕЛЬНЫЕ ОБРАЗЫ ?

…0100101…

…0100101…

…1010010… …0100101…

Предметная область

..1010010…

2

Традиционный способ структуризации в системах ИИ

t

Информационный канал

010101010... 01010101..

ПО aj ak

ai

∆β 01001 – apll 001111 − …

00111001 - . 101010 -

Прог-рамма

ИИ

Програм-мист систем ИИ

Предметная область

3

Предметная область (ПО) – причинно-связанная совокупность физических процессов.

Процесс – независимое от времени и пространства детерминированное изменение некоторого физического параметра во времени.

Любой процесс может быть преобразован в текстовую форму.

а) б) в) г)

b⇔

tn a⇔

Z ...

⇒ ⇒

W

t1 t

A * * * * * * *

<kzkkzkb>

текстовая форма ⇒ t2

ln

Wn

многомерный физический процесс <-> текстовая форма

4

Задача:Задача: в в непрерывном потоке ТФ непрерывном потоке ТФ необходимо выделить образы, необходимо выделить образы, соответствующие процессам любой соответствующие процессам любой ПОПО

МАКРИСРИСМАКДУБЛЕН

ϕ

t01 t02 t03

ПО ИС

АКРИСМКД УБЛЕНД …

Цель: Минимальный словарь ИС (гомоморфен процессам

ПО)

Метод:Метод: построение в ИС множества построение в ИС множества различных словарей и выбор минимальногоразличных словарей и выбор минимального (R(Rii))

Инструментарий:Инструментарий: нейросемантические нейросемантические структуры структуры

R1МАКРИС

ЛЕН ДУБ

5

Демонстрационный примерДемонстрационный пример(четыре равновероятных процесса формируют непрерывный поток ТФ)(четыре равновероятных процесса формируют непрерывный поток ТФ)

СМАКРИСРИСМАКДУБЛЕН

ИС

____

"Генетич. программа"

Необходимо построить словарь в N образов, полностью покрывающий ТФ. Примем что:Энергетические затраты на обработку одного образа в ИС равна 1Е-.Время обработки символа и образа − один такт Т, Энергетические затраты на хранение одного образа в памяти 1/24 Е-.Энергетика каждого прогнозируемого ИС символа равна 1Е+, Усредненный на 12 тактов энергетический баланс ИС = -N(обработка) -1/2N(хранение) + (12-N)(прогнозирование) = (12 - 5/2N)*E

ПО

ДУБ

ЛЕН

РИС

МАК

a j

a i ak

Текстовой поток

Закрашенный поток

6

Результаты эксперимента Первая структуризация словаря ИС

Форма словаря: (наибольший размер образа один символ): <М><А><К><Р><И><С><Л><Е><Н><Д><У><Б>, R(ИС)=12R*(0,5Е-/R) = 6E-, прогнозирование (Т) = 0Т (т.к. у образа только один символ), затраты энергии на распознавание = 12E- контролирование потенциальной энергии ТФ = 0E+. Итог: для односимвольного словаря усредненный энергетический

баланс = 18E- .

Усредненный энергетический баланс ИС назовем эволюционным потенциалом ИС

7

Вторая структуризация словаря ИС

а) Минимальная форма словаря: <МА><К><РИ><С><ЛЕ><Н><ДУ><Б>:

R(ИС)=8R =4Е-, прогнозирование = 0,5Т (на образ), затраты энергии на распознавание = 8E-, контролирование потенциальной энергии ТФ = 4E+. Итог а) 4Е- + (0,5Т * 8(образов на ТФ=12) = 4E+) + 8E- = 8E- .

б) Максимальная форма (без полного пересечения): <МА><КЛ><КР><КД><КМ> <ЛЕ>…<БД>:

R(ИС)= 20R=10Е-, прогнозирование = 0,2Т (на образ), затраты энергии на распознавание = 20E-, контролирование потенциальной энергии ТФ = 4E+. Итог б) 10Е- + (0,2Т * 20(образов на ТФ=12) = 4E+) + 20E- = 26E- .

Итоговый лучший эволюционный потенциал = 8E- .

(наибольший размер образа два символа):

8

Третья структуризация словаря

(наибольший размер образа в три символа). а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>: R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ), затраты энергии на распознавание = 4E-, контролирование потенциальной энергии ТФ = 8E+. Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+.

б) Максимальная форма (без дублирования, т.е. без полного пересечения): <АКР><ИСР><ИСМ><АКД> <УБЛ><ЕНД> … <АКМ>:

R(ИС)= 36R=18Е-, прогнозирование (Т) = +4E, затраты энергии на распознавание = 36E-, контролирование потенциальной энергии ТФ = 0E+. Итог б) = 50E- .

Лучший итоговый эволюционный потенциал = 2E+ , 50E- → 2E+(!!).

9

Четвертая структуризация словаря

(наибольший размер образа в четыре символа) а) Минимальная форма словаря: <МАК><РИС><ЛЕН><ДУБ>: R(ИС)=4R =2Е-, прогнозирование = 2Т (на образ), затраты энергии на распознавание = 4E-, контролирование потенциальной энергии ТФ = 8E+. Итог а) 2Е- + (2Т * 4(образов на ТФ=12) = 8E+) + 4E- = 2E+.

б) Максимальная форма (без дублирования): <АКРИ><ИСРИ><ИСМА> <АКДУ><УБЛЕ><ЕНДУ> … <АКМА>:

R(ИС)= 48R=24Е-, прогнозирование (Т) = 0Т (на образ), затраты энергии на распознавание = 48E-, контролирование потенциальной энергии ТФ = 0,5E+. Итог б) = 78E- .

Лучший итоговый эволюционный потенциал = 2E+ , 78E- → 2E+

10

Пятая и другие структуризации словаря

Лучший итоговый эволюционный потенциал = 2E+ , 204E- → 2E+

Шестая структуризация словаря, седьмая … и т.д. → 2E+ !!! Худший - ∞E-

Теоретический анализ результатов эксперимента показывает, что эволюционный потенциал ИС обратно пропорционален размеру словаря,

Размеры минимальных и максимальных словарей ИС соотносятся как:

o(N) и o(N 3) !! ! где: N – максимальный размер образа словаря

11

МАКРИСРИСМАКДУБЛЕН…

ϕ

t01 t02 t03ПО

МАКРИС

ЛЕН ДУБ

N

£

АвтоструктуризацияАвтоструктуризация информацииинформации в ИСв ИС

ИС

АКРИСРИСМАКДУБЛЕНД …

АКМ

РИС ДУБ

МАКЛЕН

N=4

СN[L/£]

= N2+ [L/£]

L=3

o(N3) >> o(N) !!!

max min

Минимальный словарь ИС

-----> ! ! !

Образы ИС = процессам ПО

N2(L-1)=32

min

max

12

АвтоструктуризацияАвтоструктуризация иерархических процессовиерархических процессов

ПО …ДА КОЛЯ ЛОВИТ РЫБУ СА… ИС

При минимизации словаря на нейросемантических структурах, его топология гомоморфна структуре исходных процессов ПО

Подл. Сказ. Обст.

{…}{…}{…}иерархическая

структура словарей образов

Подл. Сказ. Обст.

{…}{…}{…}иерархические

процессы

13

Нейросемантическая форма представления информации

Предметная область

11011010001101101001-

Алгоритм

НСС

Номера слоев

6 5 4 3 2 1

0

1 2 3 4 5 6 Номера элементов в слоях

N-элементы

Связи

"0" "1"

Семантика, тексты ПО, содержание процессов

НСС

Автоматическое выделение образов-процессов из предметной области в нейроподобные элементы НСС при минимизации ресурсных затрат (памяти)

N‑элемент (образ НСС) ↔ процесс предметной области

14

Автоструктуризация на нейросемантических структурах

RИС = f(число N-элементов, число связей)в битах

1/P (компрессия) = --------------------------------------------------------- → 0 при t → ∞ TФИС = объем текстовой информации в ИС в битах

или ∆RИС / ∆TФИС → 0 и ∆RИС → const, при t → M при t → ∞

Примеры:а) <RISMAKDUBLENLENDUBMAKMAKLENRISRISLENMAKRISDUBRIS> правильно выделяются все процессы: <MAK><RIS><MAK><DUB>;б)<ДОМЗЕБРЫСКИТНАДОМДОМВНАДОМВСКИТВНАСКИТВВЗЕБРЫНАВНА>, правильно выделяются все процессы:<ЗЕБРЫ><СКИТ><ДОМ><НА>

<В>.сдвиг алфавита А в кодах ASCII в примере б)<ЕПНИЖВСЬТЛЙУОБЕПНЕПНГОБЕПНГТЛЙУГОБТЛЙУГЖВСЬОБГОБ> на +1 <?IGB@<KVLECMH;?IG?IG=H;?IG=LECM =H;LECM==B<KVH;=H;{> на -133.

15

НСС – это пример 1-го формального преобразования количественной текстовой формы представления информации в качественно новую форму –

структуру образов ИС

0

"без учителя" − "игра"

Авто-струк-тури-зация

log (tn) (в битах)

"с учителем" – "школа"

1 —

Критерии достаточности: а) все пространство состояний; б) если человек может правильно структурировать данный тексто- вой материал в непривычной, но взаимнооднозначной нотации, в) наличие характерных особенностей динамического процесса при минимизации ресурса RИС

16

По минимальной функции затрат ресурсов ИС Rис можно объективно определять процессы ПО

Сигнал С С

С Инфор- мация

И

С И Знание

Автомат "животн." ИС-человекБШ

ПС

"Телесериал"

Реальный

bsejgr…

abcabc...

Mather…

При TИС = const (t)

ПО

линейная; логарифмическая; const;функции затрат Rис

f = (RИС (t)) :

t

RИС

t

RИС

t

RИС ИС

Информация – знаковая последовательность на языке системы, соответствующая целому числу причинно-связанных процессов ПО…

Определения:

17

Теорема: минимальная форма словаря ИС может достигаться только при ее изоморфности исходной структуре процессов ПО

Доказательство: Если представить формирование текстовой формы двумя независимыми и непересекающимися процессами А и Б, то становится очевидным,

проц. А проц. Б 010010 УКЛОН ЭРМИТАЖ 101010010

образ А образ Б

что минимальным словарем образов закрашивающим эти два процесса могут быть только образы совпадающие по текстовой форме с генерирующих их процессами.

На вопрос: "Почему все организмы 'единодушны' в класте- ризации окружающего нас мира на отдельные образы ?" Вытекает ответ: "Т.к. минимальный словарь, дает эволюци-онные преимущества, то все ИС данной ПО выбирают его, а соответственно, и его образы".

18

ИС

ПО