Download pdf - Algorytmy wspomagania decyzji - …andrzej.rusiecki.staff.ict.pwr.wroc.pl/pliki/podsumowanieAWD.pdf · (takie rozważania są przedmiotem teorii gier) Podejście normatywne -pewność

Algorytmy wspomagania decyzji

Część materiałów ze slajdów pozbawiona: większości rysunków,

przykładów i szczegółowych wzorów


Teoria decyzji

Teoria decyzji

� Najprościej: teoria dotycząca podejmowania decyzji

� Dziedzina badań multidyscyplinarna� Wiele różnych, mniej lub bardziej

sformalizowanych podejść i tradycji badawczych

Teoria decyzji� Wspólny obszar zainteresowań wielu

różnych dziedzin nauki, obejmujący analizę i wspomaganie procesu podejmowania decyzji

� Korzystają z niej i rozwijają ją: kognitywistyka, matematyka, statystyka, psychologia, socjologia, ekonomia, zarządzanie, filozofia, informatyka, medycyna

Przykłady decyzji do podjęcia i problemów, jakie rodzą

� Shall I bring the umbrella today? – The decision depends on something which I do not know, namely whether it will rain or not.

� I am looking for a house to buy. Shall I buy this one? – This house looks fine, but perhaps I will find a still better house for the same price if I go on searching. When shall I stop the search procedure?

� Am I going to smoke the next cigarette? –One single cigarette is no problem, but if I make the same decision sufficiently many times it may kill me.

Przykłady decyzji do podjęcia i problemów, jakie rodzą

� The court has to decide whether the defendent is guilty or not. –There are two mistakes that the court can make, namely to convict an innocent person and to acquit a guilty person. What principles should the court apply if it considers the first of this mistakes to be more serious than the second?

� A committee has to make a decision, but its members have different opinions. –What rules should they use to ensure that they can reach a conclusion even if they are in disagreement?

W ten sposób możemy wyróżnić:

� klasyczną inżynieryjną teorię decyzji –szuka rozwiązań optymalnych / najlepszych w dziedzinie dobrze sformalizowanej, tzw. well definedproblems

� kognitywistyczne teorie decyzji – szukają rozwiązań wystarczających/ skutecznych dla tzw. real world problems , oraz illdefined problems

Klasyczna teoria decyzji zajmuje się:

� analizą decyzji – rozpatruje się konkretny przypadek decyzji podjętej przez osobę lub grupę osób; analiza polega na wyznaczeniu decyzji optymalnej oraz, jeśli podjęta decyzja nie była optymalna, znalezieniu przyczyn pomyłki;

� wspomaganiem decyzji – próbą wyznaczenia rozwiązania najlepszego przy danym zasobie wiedzy i informacji o możliwych konsekwencjach (dotyczy to również podejmowania decyzji grupowych)

Jakie decyzje potrzebują teorii?

Metody teorii decyzji wykorzystuje się wszędzie tam, gdzie podjęcie decyzji jest z pewnych powodów trudne. Przykładowo przyczynami mogą być:

� duża liczba możliwych wariantów – np. wybór najlepszego kandydata na dane stanowisko,

� skomplikowana sytuacja decyzyjna – np. opracowanie takich tras i rozkładów jazdy autobusów, aby zapewnić wysoki poziom obsługi przy jak najniższym koszcie,

Jakie decyzje potrzebują teorii? – c.d.

� możliwość wysokich korzyści lub dużych strat –np. wybór sposobu ulokowania oszczędności,

� skomplikowany proces decyzyjny – np. podejmowanie grupowych decyzji w dużych organizacjach,

� waga problemu decyzyjnego – np. ustalenie okręgów wyborczych w wyborach prezydenckich.Z powyższych przykładów wynika, że metody teorii decyzji stosujemy wszędzie tam, gdzie koszt ich zastosowania może przynieść wymierne korzyści.

Kilka słów na temat historii

� Wybór w przypadku niepewności: słynny zakład Pascala opublikowany w Pensées, w 1670 – pierwsze zastosowanie wartości oczekiwanej

� W 1738 Daniel Bernoulli publikuje Exposition of a New Theory on the Measurement of Risk – pierwsze użycie funkcji użyteczności i oczekiwanej użyteczności (paradoks petersburski)

� W 1939 Abraham Wald wskazuje, że testowanie hipotez statystycznych i teoria estymacji (klasyka w owym czasie) stanowią szczególny przypadek bardziej ogólnego problemu decyzyjnego

� Nazwę „teoria decyzji” wprowadza E. L. Lehmann (rok 1950)

Zakład Pascala

� Pascal's wager is a classic example of a choice under uncertainty.

� The uncertainty, according to Pascal, is whether or not God exists. And the personal belief or non-belief in God is the choice to be made. However, the reward for belief in God if God actually does exist is infinite, therefore however small the probability of God's existence the expected value of belief exceeds that of non-belief, so it is better to believe in God.

St. Petersburg paradox

� In a game of chance, you pay a fixed fee to enter, and then a fair coin will be tossedrepeatedly until a tail first appears, ending the game

� The pot starts at 1 dollar and is doubled everytime a head appears. You win whatever is in the pot after the game ends.

� In short, you win 2k−1 dollars if the coin istossed k times until the first tail appears.

St. Petersburg paradox� With probability 1/2, you win 1 dollar;

with probability 1/4 you win 2 dollars; with probability 1/8 you win 4 dollars etc. The expected value is thus:

Paradoks Petersburski� Bernoulli zaproponował zastąpić EX

funkcją oczekiwanej użyteczności� Zauważył: „The determination of the value

of an item must not be based on the price, but rather on the utility it yields…. There is no doubt that a gain of one thousand ducats is more significant to the pauper than to a rich man though both gain the same amount.”

Paradoks Petersburski� Funkcja oczekiwanej użyteczności

� Stąd otrzymujemy: milioner płaci do $10.94, posiadacz $1000 do $5.94, posiadacz $2 wszystko, co ma, a posiadacz $0.60 powinien pożyczyć jeszcze $0.87 i zapłacić do $1.47 ☺

Paradoks Petersburski� Oczekiwana użyteczność wymaga

zdefiniowania funkcji użyteczności� Można też inaczej, wprowadzając

współczynnik zysku w czasie (znów uśrednianie)

� Wtedy należy zapłacić nie więcej niż w+D1

Paradoks Petersburski� Ale zasoby kasyna też są ograniczone…

(może opłacić L gier z W zasobów)

Podejście normatywne i deskryptywne

� Większość metod klasycznej teorii decyzji ma charakter normatywny, tzn. zajmuje się wyznaczeniem optymalnego rozwiązania przez idealnego decydenta, który całkowicie wykorzystuje dostępne mu informacje, wyznacza korzyści z perfekcyjną dokładnością i działa w pełni racjonalnie

� Takie metody mają najczęściej ścisły związek z matematyką, statystyką, czy ekonomią – celem jest wyznaczenie decyzji optymalnej, to znaczy przynoszącej największe korzyści lub minimalizującej stratę


� Ponieważ wiadomo, że ludzie zwykle nie postępują w optymalny sposób, istnieje również podejście deskryptywne tzn. opisowe, opisujące typowe zachowania człowieka w danej sytuacji decyzyjnej.

� Takim podejściem zajmują się głównie psychologia, kognitywistyka i socjologia.


� Psychologia zwraca szczególną uwagę na przebieg procesów decyzyjnych w umyśle człowieka, badając wpływ cech osobowościowych na podejmowane decyzje, np. dobór subiektywnych kryteriów oceny poszczególnych wariantów, skłonność do ryzyka

� Socjologia natomiast bada uwarunkowania społeczne: miejsce decydenta w organizacji, wpływ stylu kierowania organizacji, podejmowanie decyzji grupowych i związane z tym konflikty

Systematyka pojęć teorii decyzji� Teoria decyzji zajmuje się sytuacją problemową

(problem decyzyjny), w której podmiot (decydent), staje przed koniecznością wyboru jednego z przynajmniej dwóch wariantów działania (decyzji)

� W pierwszym kroku należy ustalić cel i warunki ograniczające decyzję, w rezultacie buduje się zbiór decyzji dopuszczalnych. Wyodrębniamy wszystkie istotne kryteria oceny decyzji i dokonujemy oceny każdej decyzji na podstawie kryteriów.

� Następnie budujemy model decyzyjny, czyli sposób wybrania decyzji optymalnej lub wystarczającej

Problemy decyzyjneZe względu na posiadane informacje, możemy podzielić problemy decyzyjne na trzy grupy:

� decyzja podejmowana w warunkach pewności – każda decyzja pociąga za sobą określone, znane konsekwencje;

� decyzja podejmowana w warunkach ryzyka – każda decyzja pociąga za sobą więcej niż jedną konsekwencję, znamy zbiór możliwych konsekwencji i prawdopodobieństwa ich wystąpienia;

� decyzja podejmowana w warunkach niepewności – nie znamy prawdopodobieństw wystąpienia konsekwencji danej decyzji.

Podejście normatywne� W podejściu normatywnym dążymy do wyznaczenia

optymalnej decyzji dla danego problemu decyzyjnego

� Jeśli decyzja jest podejmowana w warunkach pewności, mówimy o deterministycznych metodach teorii decyzji, natomiast niepewnością i ryzykiem zajmują się metody niedeterministyczne

� Większość metod zakłada, że idealny decydent działa w środowisku, w którym nie ma konkurentów, którzy mogliby wpłynąć na wynik decyzji lub stany natury (takie rozważania są przedmiotem teorii gier)

Podejście normatywne - pewność� W przypadku, gdy znamy wszystkie możliwe

konsekwencje wariantów decyzyjnych, wybór wariantu optymalnego sprowadza się do wyboru decyzji przynoszącej największe korzyści;

� W prostych przypadkach wybór wariantu jest trywialny, jeśli problem decyzyjny przyjmuje bardziej skomplikowaną postać, wykorzystuje się dział matematyki zwany badaniami operacyjnymi

� Metody: programowanie matematyczne, programowanie liniowe, całkowitoliczbowe, zero-jedynkowe, algorytmy sieciowe, zarządzanie projektem, analiza szeregów czasowych, metody gradientowe, etc….

Analiza wielokryterialnaPrzypadkiem więcej niż jednego kryterium oceny decyzji zajmuje się dział teorii decyzji zwany wielokryterialną analizą decyzyjną. Istnieją dwie główne definicje problemu wielokryterialnego w ramach wielokryterialnej analizy decyzyjnej:

� Wielokryterialne podejmowanie decyzji (multiplecriteria decision making, MCDM) – używane w amerykańskiej szkole naukowej;

� Wspomaganie decyzji wielokryterialnych (multiple criterial decision aid, MCDA) –najczęściej używane w Europie.

Podejście normatywne - ryzyko� W warunkach ryzyka konsekwencje każdej

decyzji są określone przez rozkłady prawdopodobieństwa, dlatego do przypadków niedeterministycznych wykorzystujemy głównie metody teorii prawdopodobieństwa oraz statystyki

� Metody: kryteria podejmowania decyzji, kryterium Hurwicza (maksymaksowe), Walda(maksyminowe), Savage'a (minimaksowe), Laplace'a, drzewa decyzyjne, wnioskowanie statystyczne, etc.

Podejście normatywne -niepewność

� W przypadku niepewności klasyczne metody statystyczne zawodzą, gdyż nie jesteśmy w stanie określić rozkładów prawdopodobieństwa konsekwencji decyzji

� Podejmowaniem decyzji w takich warunkach zajmuje się zwykle statystyka bayesowska

� Ogólnie przypadkami niedeterministycznymi (ryzyka i niepewności) zajmuje się statystyczna analiza decyzyjna i kognitywistyka symboliczna

Podejście deskryptywne

� Podejście deskryptywne zajmuje się opisem typowych zachowań ludzi w procesie decyzyjnym i wskazuje na czynniki mające wpływ na podjęcie ostatecznej decyzji

� Wyróżnić można: podejmowanie decyzji w psychologii, socjologii i podejście kognitywistyczne

Podejście deskryptywne� Podejście psychologiczne to próba wyjaśnienia

nieracjonalności zachowań decydentów, wynikającej z pewnych cech osobowościowych lub sytuacji, w której znajduje się decydent

� Rozpatruje się takie czynniki jak: asymetria pomiędzy zyskiem i stratą, poprzednie porażki, selektywna uwaga, podejmowanie decyzji w warunkach zewnętrznego obciążenia

� Szczególnie silnie koncentruje się na zagadnieniach związanych ze skłonnością do podejmowania ryzyka

Psychologiczna teoria decyzji � Szczególnie przydatna w obszarze, gdzie podejście

normatywne zawodzi: przy decyzjach podejmowanych w warunkach niepewności, rozwinięto na ten temat teorię subiektywnej oczekiwanej użyteczności (SEU);

� Teoria SEU zakłada, że podejmujący decyzje człowiek dąży do maksymalizacji użyteczności wyniku. Użyteczność rozumiana jest jako maksymalizacja szansy osiągnięcia celu.

� Zatem - decyzje podejmowane są ze względu na pewien zamierzony stan przyszłości, a wybór optymalnego wariantu opiera się na porównaniu przewidywanego skutku działania do tego stanu

Psychologiczna teoria decyzji

� Alternatywne podejście proponują Kahneman i Tversky w wyróżnionej nagrodą Nobla teorii perspektywy

� Kryterium oceny wariantów nie jest porównanie z zakładanym stanem, do którego człowiek dąży, ale porównanie ze stanem obecnym

� W takim ujęciu skutki decyzji mogą mieć charakter zysku lub straty – w zależności od tego, czy dany skutek jest zyskiem, wybory podejmowane są w różny sposób

Podejście kognitywistyczne

� Koncentruje się na myślowym modelu podejmowania decyzji i meta-decyzji (ang. cognitive decision-making), i dotyczy zarówno człowieka jak i robota

� Podejście kognitywistyczne, ze względu na potrzeby komputerowych systemów wsparcia decyzyjnego zostało rozszerzone do tzw. inżynierii socjo-kognitywistycznej

Podejmowanie decyzji w socjologii � Podejście socjologiczne, podobnie jak

psychologiczne, zajmuje się nie racjonalnością zachowań decydentów, ale zachowańwynikających z działania w ramach określonej grupy społecznej

� Analizuje się, na przykład, różnice w procesie podejmowania decyzji w małych i dużych przedsiębiorstwach, administracji rządowej, organizacjach formalnych i nieformalnych

� Rozpatruje się także podejmowanie decyzji kolektywnych i czynniki warunkujące powstawanie takich decyzji (np. inicjatywy na rzecz ochrony środowiska)

Komputerowe wspomaganie decyzji W licznych obszarach działalności różne kategorie systemów pełnią różne role (np. systemy BI):

� systemy transakcyjne – zadaniem tych systemów jest dostarczanie aktualnych informacji, potrzebnych do podejmowania decyzji na poziomie operacyjnym; systemy transakcyjne mogą również zasilać danymi systemy wyższego poziomu;

� hurtownie danych – dostarczają zagregowanych informacji potrzebnych do podejmowania decyzji taktycznych i strategicznych;

� systemy informowania kierownictwa – dostarczają z niższych systemów informacje przygotowane w sposób ułatwiający podejmowanie decyzji na najwyższych szczeblach kierowniczych (systemy raportujące, wizualizacyjne);

Komputerowe wspomaganie decyzji� systemy wspomagania decyzji – kategoria ta obejmuje

dwa typy systemów:

� systemy klasy business intelligence – systemy analityczno-decyzyjne w dużych organizacjach, zasilane z hurtowni danych lub bezpośrednio z systemów transakcyjnych, ekstrahują z dostarczonych informacji wiedzę wykorzystując bazę zaawansowanych modeli statystycznych, optymalizacyjnych czy algorytmy sztucznej inteligencji;

� specjalistyczne systemy decyzyjne – ich zadaniem jest ułatwienie korzystania z jednego lub kilku modeli, wykorzystywane najczęściej przez analityków lub do automatyzacji procesu decyzyjnego (np. w medycynie).

Komputerowe wspomaganie decyzji

� inteligentne systemy wsparcia decyzyjnego (IDSS –Intelligent Decision Support Systems), od lat 90., w stanie ciągłego rozwoju,

� szczególnie w dziedzinach tzw. wysokiego ryzyka i wielkich infrastruktur krytycznych np. dla operatorów sieci systemów energetycznych, oraz dla zarządzania zagrożeniami (emergency) przemysłowymi i kataklizmami naturalnymi dużej skali.

� systemy te wymagają współpracy zespołów interdyscyplinarnych, wielu organizacji i zaawansowanych technologii systemowych, informatycznych, sztucznej inteligencji i modeli socjo-kognitywistycznych.

Algorytmy wspomagania decyzjiProgramowanie wielokryterialne

Multi-Criteria Decision Analysis(MCDA)

� Multi Criteria Decision Making - a procedureaimed at supporting decision maker(s) whoseproblem involves numerous and conflictingevaluations

� MCDA aims at highlighting these conflicts and deriving a way to come to a compromise in a transparent process

Multi-objective optimizationOBJECTIVE (CRITERIA)

� Objective - something that a decision maker seeks to accomplish or to obtain by means of his decision

� A decision maker may have more than one objective (the MULTIPLE-OBJECTIVES case)

� An objective may be specified in a more or less generalfashion, may be quantified or not quantified, and isusually part of a hierarchy

� Goal - is sometimes used to denote a very generalobjective ( at the top of the hierarchy)

� Target - is used to mean a very definite objective

Competitive objectives

� Multiple objectives of a single decisionmaker are usually COMPETITIVE

� Improvement in one of them isassociated with a deterioration in another (usually because of limitedresources or because of other constraints)

� Competitive objectives are sometimesreferred to as conflicting objectives.

Conflicting objectives

� One should speak about a conflict and about conflicting objectivesonly if there are two or more decisionmakers (decision agents) who havedifferent objectives and who act on the same system or share the same resources.

Objectives� When the extent to which an objective is attained is

measurable on some appropriate scale, one can speakabout the degree of attainment of the objective.

� In systems analysis, one often usesproxy objectives:objectives other the original ones, but such that aremeasurable and can be quantitatively discussed.

� A proxy objective should at least point in the same direction as the original one

� For example, "reduction of mean travel time" in urbantransportation is a proxy for "improved services."

Mathematical description

In a mathematical description, the measuresof the multiple objectives Q1, Q2, ...Qn

are considered to be coordinates of a point in the n-dimensional objective space.

Then, the target values Tl, T2,...Tn prescribedfor the n objectives are considered

to be coordinates of the target point in thisspace.

Mathematical description

� When the target value requirements are set forth as some intervals rather than single numbers, they define a region in the objectivespace that is referred to as a target set.

� Thus, a target can be a constraint (x=t ort1<= x <= t2)

or a GOAL (CRITERION) minimize (x-t)^2.

Constraint

� Something to which an effort is directed, the goal, purpose or criterion a decisionmaker uses to evaluate alternative coursesof actions.

� The choice of objectives constrainspossible behaviour of the system.

CONSTRAINT

CONSTRAINT -- "The cybernetician looks at whatdoes not happen.„ (W. Ross Ashby, 1956)

� The constraints, operating over a set of variables, determine what does not happen.

� Constraints are limitations imposed by nature orby man that do not permit certain actions to be taken.

Constraints

� Constraints may mean that certain objectivescannot be achieved.

� The actions, alternatives, consequences, and objectives that are not precluded by the constraints are referred to as feasible.

� Some constraints may have to be consideredstiff or unquestionable, others--from amongthose imposed by prior decisions--may be elastic or removable if the analysis proves a good case for it.

Constraints� For example, the natural water supply in a

region is a stiff constraint, while the money ormanpower allocated to fulfill a certain task maybe an elastic constraint.

� It is useful to distinguish [short-run] and [long-run] constraints: for example, existing legislationis a constraint in the short run, but not necessarily in the long run.

� If the notions of action (decision) space, CONSEQUENCE space, and objective space areintroduced, the constraints determine a feasible set in each of those spaces.

Pareto efficiency

� Pareto efficiency, or Pareto optimality, is a central theory in economics with broadapplications in game theory, engineering and the social sciences

� Given a set of alternative allocations and a set of individuals, a movement from one alternativeallocation to another that can make at least one individual better off, without making any otherindividual worse off is called a Paretoimprovement or Pareto optimization.

Pareto optimality

� An allocation of resources is Pareto efficient orPareto optimal when no further Paretoimprovements can be made

� A strongly Pareto optimal (SPO) allocation isone such that the allocation is strictly preferredby one person, and no other allocation would be as good for everyone

Pareto optimality

� The term is named after Vilfredo Pareto, anItalian economist who used the concept in hisstudies of economic efficiency, and incomedistribution.

� If an economic system is Pareto efficient, then itis the case that no individual can be made betteroff without another being made worse off.

� It is commonly accepted that outcomes that arenot Pareto efficient are to be avoided, and therefore Pareto efficiency is an importantcriterion for evaluating economic systems and political policies.

Pareto optimality

� In 1906, Vilfredo Federico Damaso Pareto made the famousobservation that 20% of the population owned 80% of the propertyin Italy, later generalised into the so-called Pareto principle (alsotermed as the 80-20 rule) and generalised further to the concept of a Pareto distribution.

An example:

A bicriteria linear programming problem simultaneouslyoptimizes two linear objectives subject to given linearconstraints.

The problem is to find an „effcient'' solution, i.e., to find a feasible solution such that in order to improve the valueof one objective function for that solution, it is necessaryto reduce the value of the other objective function.

Pareto optimality

This problem is formulated as:maximize (or minimize) z1(x) = c x,maximize (or minimize) z2(x) = d xsubject Ax = b, x>= 0.where x is an n-dimensional vector of decision variables,

z1(x) and z2(x) aretwo distinct linear objective functions of the decision vector

x, c and dare n-dimensional cost vectors, A is an m x n constraint

matrix,and b is an m-dimensional constant vector.

Pareto optimality

An optimal solution to this problem is calleda Pareto optimal, and is also known as aneffcient solution.

This is defined precisely as follows: x is saidto be an effcient solution of (BLP)

if for all y (Ay=b, y>= 0), satisfyingz1(y)>= z1(x) and z2(y)>= z2(x), yields z1(y) = z1(x) and z2(y)= z2(x).

Multicriterial optimization

In general


� If any of the components of F(x) arecompeting, there is no unique solution to this problem.

� Instead, the concept of Paretooptimality (also callednoninferiority) must be used to characterize the objectives.


� A Pareto optimal solution is one in whichan improvement in one objectiverequires a degradation of another.

� To define this concept more precisely, consider a feasible region W, in the parameter space that satisfies all the constraints, i.e.,

This allows us to define the correspondingfeasible region for the objective functionspace Lambda

Pareto optymality for minimization:

A

Pareto optymality for minimization

� Since any point in W that is not a noninferiorpoint represents a point in which improvementcan be attained in all the objectives, it is clearthat such a point is of no value.

� Multiobjective optimization is, therefore, concerned with the generation and selection of Pareto optimal solution points.

Weighted Sum Strategy

The weighted sum strategy converts the multiobjective problem of minimizingthe vector F(x) into a scalar problem by constructing a weighted sum of all theobjectives:

e-Constraint Method

� a procedure that overcomes some of the convexity problems of the weightedsum technique

� involves minimizing a primary objective, Fp, and expressing the other objectives in the form of inequality constraints:

e-Constraint Method

� This approach is able to identify a number of noninferior solutions on a nonconvex boundarythat are not obtainable using the weighted sum technique,

� For example, at the solution point F1 = F1s and F2 = e2. A problem with this method is, however, a suitable selection of e to ensure a feasible solution.

� A further disadvantage of this approach is thatthe use of hard constraints is rarely adequate for expressing true design objectives.

Goal programming

� Goal programming is a branch of multipleobjective programming, which in turn is a branch of multi-criteria decision analysis(MCDA).

� It can be thought of as an extension orgeneralisation of programming (linear ornonlinear programming) to handle multiple, normally conflicting objective measures.

Goal programming� Each of these measures is given a goal or target value to

be achieved. � Unwanted deviations from this set of target values are

then minimised in an achievement function. This can be a vector or a weighted sum dependent on the goalprogramming variant used.

� As satisfaction of the target is deemed to satisfy the decision maker(s), an underlying satisficing philosophy isassumed.

� The first engineering application of goal programming(Ignizio) in 1962, was that of the design and placementof the antennas employed on the second stage of the Saturn V --- the vehicle used to launch the Apollo spacecapsule which landed the first men on the moon.

Lexicographic goal programming

� The original goal programming formulationsordered the unwanted deviations into a numberof priority levels, with the minimisation of a deviation in a higher priority level being of infinitely more importance than any deviations in lower priority levels.

� Lexicographic goal programming should be used when there exists a clear priority orderingamongst the goals to be achieved.

Weighted goal programming

� Should be used if the decision maker ismore interested in direct comparisons of the objectives

� In this case all the unwanted deviationsare multiplied by weights, reflecting theirrelative importance, and added togetheras a single sum to form the achievementfunction.

Weighted goal programming

Minimize L(F(x),T) , x feasible. For example:

It is important to recognise that deviations measured in different units cannot be summed directly due to the phenomenon of incommensurability.

Hence each unwanted deviation is multiplied by a normalisation constant to allow direct comparison.

Chebyshev goal programming

� For decision makers more interested in obtaining a balance between the competing objectives, Chebyshev goalprogramming should be used.

� CGP seeks to minimise the maximum unwanted deviation, rather than the sum of deviations.

Strengths and weaknesses

� A major strength of goal programming is its simplicityand ease of use.

� As weighted and Chebyshev goal programmes (linear) can be solved by widely available linear programmingcomputer packages, finding a solution tool is not difficultin most cases.

� Lexicographic goal programmes (linear) can be solvedas a series of linear programming models.

� Goal programming can hence handle relatively largenumbers of variables, constraints and objectives.

Strengths and weaknesses

� A debated weakness is the ability of goal programmingto produce solutions that are not Pareto efficient.

� This violates a fundamental concept of decision theory, that is no rational decision maker will knowingly choosea solution that is not Pareto efficient.

� However, techniques are available to detect when thisoccurs and project the solution onto the Pareto efficientsolution in an appropriate manner.

� The setting of appropriate weights in the goalprogramming model is another area that has causeddebate.

Goal Attainment Method

This involves expressing a set of design goals,

F* ={F1*=T1 ,F2*=T2 ,... ,Fm*=Tm},

which is associated with a set of objectives,

F(x) ={F1(x) ,F2(x),… ,Fm(x) }.

The problem formulation allows the objectives to be under- or over-achieved enabling the designer to be relatively imprecise about initialdesign goals.

Goal Attainment MethodThe relative degree of under- or over-achievement of the goals is controlled by a vector of weighting coefficients, w={w1,w2,… ,wm}, and is expressed as astandard optimization problem using the following formulation:


� The term wi*gamma introduces an element of slackness into the problem, which otherwiseimposes that the goals be rigidly met.

� The weighting vector w enables the designer to express a measure of the relative trade-offsbetween the objectives.

� For instance, setting the weighting vector wequal to the initial goals indicates that the same percentage under- or over-attainment of the goals, is achieved.


� Hard constraints can be incorporated intothe design by setting a particular eightingfactor to zero (i.e., wi = 0).

� The Goal Attainment method provides a convenient intuitive interpretation of the design problem, which is solvable usingstandard optimization procedures.

Algorithm Improvements for Goal Attainment Method

� The Goal Attainment method has the advantage that itcan be posed as a nonlinear programming problem.

� Characteristics of the problem can also be exploited in a nonlinear programming algorithm.

� In Sequential Quadratic Programming (SQP) the choice of merit function for the line search is not easy because, in many cases, it is difficult to “define” the relativeimportance between improving the objectivefunction and reducing constraint violations.

� This has resulted in a number of different schemes for constructing the merit function .


In Goal Attainment programming there maybe a more appropriate merit function, which can be achieved by posing it as the minimax problem:


which is equivalent to minimize:

Sequential QuadraticProgramming (SQP)

� The method allows you to closely mimicNewton’s method for constrained optimizationjust as is done for unconstrained optimization.

� At each major iteration an approximation ismade of the Hessian of the Lagrangian functionusing a quasi-Newton updating method.

� This is then used to generate a QP sub-problem whose solution is used to form a search directionfor a line search procedure.


Given the problem description


The principal idea is the formulation of a QP sub-problem based on a quadraticapproximation of the Lagrangian function.

The QP sub-problem is obtained by linearizing the nonlinear constraints.

Why Multi-objectiveOptimisation?

� Practical industrial problems might be not “mathematically” understood when the design is started

� The objectives of the design are many� The problem might be not well-posed or

have non-unique solution.


Model, statystyka

MODEL� Najprościej: zbiór pewnych reguł i/lub równań

opisujących niektóre aspekty eksperymentu, zjawiska

� Obiekt lub proces posiadający częściowo te same własności co oryginalny, modelowany obiekt, lecz prostszy w opisie, działaniu, etc.

� Model do symulacji komputerowych: program umożliwiający śledzenie zmian pewnych parametrów modelowanego obiektu w czasie

Model� Wieś w województwie mazowieckim, w powiecie

gostynińskim, w gminie Pacyna ☺

� Schemat, procedura lub urządzenie używane w analizie systemowej do przewidywania konsekwencji wydarzeń i decyzji („zwrotów akcji”)

� Zazwyczaj ma na celu reprezentację rzeczywistego zjawiska w sposób ułatwiający jego analizę

� Model może być formalny (np. wyrażenie matematyczne, diagram, tabela, etc.) lub opisowy

� Niektóre modele bazują na przypadkach: opisują relację przypadek – skutki jego wystąpienia

Model korelacyjny

� Modele tego typu skupiają się na korelacji, a nie związkach przyczynowych

� Przykład: prognozowanie pogody – część modeli bierze pod uwagę nie tylko znane skutki zjawisk, ale i ich współwystępowanie, związki pomiędzy nimi, etc.

Model deterministyczny -stochastyczny

� Model deterministyczny: generuje odpowiedź dla zadanego wyjścia na podstawie pewnej stałej reguły

� Model stochastyczny (losowy): generuje odpowiedź, spośród pewnego zbioru możliwości, na podstawie ustalonych rozkładów prawdopodobieństwa (symulacja zachowańrzeczywistych systemów w warunkach losowych)

Model dynamiczny - statyczny

� Model dynamiczny opisuje zmienny w czasie (dynamiczny) proces systemu

� Model statyczny zakłada, że system znajduje się w stanie równowagi

Modele:

� Model analityczny – model matematyczny dany w postaci analitycznej, można znaleźć rozwiązanie (numerycznie bądź analitycznie)

� Model symulacyjny – model, w którym rozwiązanie odczytuje się na podstawie jego symulacji, np. przeprowadzamy wielokrotne symulacje modelu, aby opisać własności statystyczne modelowanego systemu

Modele:

� Model optymalizacyjny: przewidując zachowanie systemu bierzemy pod uwagę również zachowania innych decydentów mające wpływ na odpowiedź systemu, zakładając, że każdy z nich optymalizuje pewną funkcję kryterialną

Jak tworzy się model?

� Identyfikacja: ustalenie struktury oraz parametrów modelu

� Estymacja: znalezienie wartości parametrów na podstawie badań eksperymentalnych

� Walidacja: sprawdzanie poprawności modelu dla danych eksperymentalnych innych, niż użyte przy estymacji

Przykład: cząstka w polu potencjałuModel of a particle in a potential field. In

this model we consider a particle as beinga point of mass m that describes a trajectory modelled by a function x: R -> R3 given its coordinates in space as a function of time. The potential field isgiven by a function V: R3 -> R and the trajectory is a solution of the differentialequation

Przykład: racjonalne zachowanie konsumenta

Model of rational behavior for a consumer. In this model we assume a consumer faces a choice of n commoditieslabelled 1,2,...,n each with a market price p1, p2,..., pn. The consumer is assumed to have a cardinal utilityfunction U (cardinal in the sense that it assignsnumerical values to utilities), depending on the amountsof commodities x1, x2,..., xn consumed. The model further assumes that the consumer has a budget M which she uses to purchase a vector x1, x2,..., xn in such a way as to maximize U(x1, x2,..., xn). The problem of rational behavior in this model then becomesone of constrained maximization.

Przykład: racjonalne zachowanie konsumenta

Maximize:U(x1, x2,..., xn)subject top1x1+ p2x2+...+ pn xn <= M,

x1, x2,..., xn nonnegative.

Analiza scenariuszy (metoda scenariuszowa)

� Proces analizy możliwych przyszłych wydarzeń poprzez rozważanie alternatywnych możliwych wersji

� Ma na celu polepszenie procesu podejmowania decyzji dzięki rozpatrywaniu wszystkich ewentualnych możliwości i związanych z nimi zysków lub strat

� Przykład (ekonomia i finanse): instytucja finansowa może rozpatrywać kilka możliwych scenariuszy rozwoju gospodarki (wzrost szybki, średni, mały, recesja) i potencjalnych odpowiedzi rynków finansowych (giełda, obligacje, waluty, etc.) na każdy z nich

Analiza scenariuszy (metoda scenariuszowa)

� W analizie takiej można następnie ustalić korelacje i przypisać prawdopodobieństwa rozważanym scenariuszom (ewentualnie ich podzbiorom)

� Na tej podstawie instytucja może rozważyć, w jaki sposób dalej inwestować i jak procentowo ulokować środki

� Oczywista trudność: jak przewidzieć przyszłość, w jaki sposób przypisać rozkłady prawdopodobieństwa?

� Można jedynie modelować matematycznie (statystycznie) możliwe warianty przyszłych wydarzeń, biorąc pod uwagę zróżnicowanie zarówno w ramach jednego scenariusza, jak i możliwe relacje pomiędzy nimi

Modelowanie predyktywne

� Wybranie modelu, który najlepiej opisze prawdopodobieństwa przyszłych zdarzeń

� Często opiera się na teorii detekcji, gdzie dany obraz przypisywany jest z zadanym prawdopodobieństwem do danej klasy

� Np. określamy z jakim prawdopodobieństwem dany email to spam

Prawdopodobieństwo (wg Kołmogorowa)

A probability space is a triple (W, F, P), where� W is a non-empty set, sometimes called the "sample space",

each of whose members is thought of as a potential outcomeof a random experiment. For example, if 100 voters are to be drawn randomly from among all voters in California and askedwhom they will vote for governor, then the set of allsequences of 100 Californian voters would be the samplespace W.

� F is a sigma-algebra of subsets of W whose members arecalled "events". To say that F is a sigma-algebra implies per definition that it contains W, that the complement of anyevent is an event, and that the union of any (finite orcountably infinite) sequence of events is an event.

� P is a probability measure on F, i.e., a measure such that P

(W) = 1, .

Teoria prawdopodobieństwa� Probabilities P(A) are assigned to events A according to

the probability axioms. The probability that an event A occurs given the known occurrence of an event B is the conditional probability of A given B;

� its numerical value is P(AnB)/P(B) (as long as P(B) isnonzero).

� If the conditional probability of A given B is the same as the ("unconditional") probability of A, then A and B aresaid to be independent events.

� Two crucial concepts in the theory of probability arethose of a random variable and of the probabilitydistribution of a random variable.

Trochę filozofii� Niektórzy statystycy przypisują prawdopodobieństwa

jedynie zdarzeniom losowym (zmiennym losowym), będącym wynikami praktycznych lub teoretycznych eksperymentów. Takie prawdopodobieństwa są więc w pewien sposób częstościami.

� Inni przypisują prawdopodobieństwa propozycjom niepewnym ze względu na subiektywny stopień wiary w to, czy są prawdziwe, czy nie. To podejście Bayesowskie.

� Statystyk Bayes’owski może przypisać prawdopodobieństwo stwierdzeniu: „przed miliardem lat na Marsie istniało życie”, podczas, gdy zgodnie z klasycznym podejściem przypisanie prawdopodobieństwa jest tu niemożliwe.

Statystyka

� Gałąź matematyki zajmująca się zbieraniem, analizą, interpretacją i prezentacją danych numerycznych

� Związana z i oparta na teorii prawdopodobieństwa

� Kluczowe pojęcia: populacja, próba, cecha, prawdopodobieństwo, etc.

� Statystyka wnioskuje od próby do populacji

Statystyka - zastosowania

� Testowanie hipotez� Estymacja charakterystyk numerycznych

(parametrów)� Predykcja przyszłych obserwacji� Opis powiązań (korelacji)� Modelowanie relacji (regresja)

Eksperyment i obserwacja

� Zwykle chcemy wyłapać i opisać związki pomiędzy zmiennymi niezależnymi a zależnymi

� Studium eksperymentalne: pomiary systemu, zmiana parametrów, kolejne pomiary

� Studium obserwacyjne: zbieranie danych bez manipulowania opisywanym systemem

� Przykłady?

Statystyka a komputery

� Rozwój statystyki stosowanej w wielu przypadkach zależny jest od dostępnej mocy obliczeniowej

� Dziś możliwe jest szybkie obliczanie estymatorów i statystyk, które do niedawne były uznawane za całkowicie nieefektywne

� Dawne podejście: papier, ołówek, dużo liczenia ☺ - dziś dane do komputera…

Software (przykłady):

� Mathematica

� MATLAB

� Minitab

� MS Excel, and various add-ins

� Statgraphics Centurion XV

� S programming language

� SAS programming language

� SPSS

� Stata

� StatSoft STATISTICA

Testowanie hipotez

� Algorytm minimalizujący założone ryzyko, który określić ma, czy hipoteza może być prawdziwa

� Hipoteza musi być określona w języku statystyki, aby dało się obliczyć odpowiednie prawdopodobieństwa

� Przykład:The mean response to treatment beingtested is equal to the mean response to the placebo in the control group. Both responseshave the normal distribution with this unknownmean and the same known standard deviation...

Test statystyczny

� Dla zebranych danych obliczmy statystykę testową i sprawdzamy, czy jej wartość należy do obszaru krytycznego

� Jeśli tak odrzucamy hipotezę zerową

� Mogło się też pojawić zdarzenie z prawdopodobieństwem mniejszym niż alpha…

� W innym przypadku nie ma powodów do odrzucenia hipotezy

Teoria estymacji� Szuka wartości parametrów na podstawie danych

empirycznych

� Przykład: it is desired to estimate the proportion of a population of voters who will vote for a particularcandidate. That proportion is the unobservableparameter; the estimate is based on a small randomsample of voters .

� Przykład: in radar the goal is to estimate the location of objects (airplanes, boats, etc.) by analyzing the receivedecho and a possible questionto be posed is "where arethe airplanes?„

� Często zakłada się istnienie szumu lub zakłóceń

Teoria estymacjiZastosowania:� Medicine: Clinical trials, Imaging: CAT, EEG, EKG/ECG, MRI, Medical

ultrasonography� Opinion polls� Quality control� Radar, sonar: Localization of objects� Telecommunications: Channel parameters, Noise variance, DC gain� Seismology: Localization of underground oil deposits� Control theory: Actuator changes with time� Digital image processing: Position of objects in images (see computer

vision)� Digital signal processing� Parametric (e.g., periodogram, correlogram) spectral analysis� nonparametric (e.g., MUSIC, Root-MUSIC, ESPRIT) spectral analysis� Kalman filter� Wiener filter� Particle filter

Proces estymacji� Zbudowanie modelu opisywanego systemu� Zbadanie ograniczeń estymatora (np.

nierówność Cramér’a-Rao)

Proces estymacji

� Sprawdzenie, czy estymator jest optymalny (jeśli znamy inne)

� Przeprowadzenie eksperymentów sprawdzających estymator

� Czasem może się okazać, że estymator zbudowany został w oparciu o błędne dane

Funkcja strat

� Przekształca zdarzenie w liczbę rzeczywistą opisującą jego koszt lub stratę z niego wynikającą

� Koszt może być natury finansowej, jak i innej, np. śmiertelność, zachorowalność, etc.

� Zwykle funkcja strat związana jest z funkcją użyteczności U i jest równa k-U

Oczekiwana strata - ryzykoFor a continuous random variable X with

probability density function f and loss function L, the expected loss (sometimes known as risk) is:

Minimum expected loss (or minimum risk) is widelyused as a criterion for choosing betweenprospects. It is closely related to the criterion of maximum expected utility.

Projektowanie eksperymentu

� Sir Ronald A. Fisher jako pierwszy statystyk rozważał metodologię projektowania eksperymentu

� Zaproponował eksperyment pozwalający stwierdzić, czy pewna pani rzeczywiście jest w stanie powiedzieć, czy do filiżanki najpierw wlano mleko, czy herbatę…

� Teorię projektowania eksperymentu oparł na analizie wariancji

Sir Ronald Aylmer Fisher(17 February 1890 – 29 July 1962)

W dziedzinie statystyki jego pomysły to:� Jedno- i wieloczynnikowa analiza wariancji� Metoda największej wiarygodności� Statystyka F� Informacja Fishera� i wiele innych…

Genichi Taguchi

� Gen'ichi Taguchi, inżynier i statystyk (ur. 1924 w Takamachi, Japonia) zaproponował wykorzystanie metod statystycznych do polepszania jakości produkcji

� Jego poglądy wzbudziły wiele kontrowersji w świecie zachodnim

Loss functions

� Taguchi's reaction to the classical design of experimentsmethodology of R. A. Fisher was that it was perfectlyadapted in seeking to improve the mean outcome of a process

� Taguchi realised that in much industrial production, there is a need to produce an outcome on target, for example, to machine a hole to a specified diameter or to manufacture a cell to produce a given voltage

� He also realised, that excessive variation lay at the rootof poor manufactured quality and that reacting to individual items inside and outside specification was counter-productive

� He argued that quality engineering should start with anunderstanding of the cost of poor quality in varioussituations

Straty� Taguchi twierdził, że producenci powinni poszerzyć

swoje horyzonty i rozważać koszt dla społeczności� Mimo, iż koszty krótkofalowe mogą być pomijalnie małe,

każdy produkt odbiegający od zadanego celu skutkować może pewną stratą dla klienta, szybszym zużyciem, gorszą współpracą z innymi elementami urządzenia, koniecznością szerszej normy

� Taguchi argumentował, że tego typu straty będę miały wpływ na producenta, więc ich minimalizowanie może poprawić reputację marki, czy wygenerować inne korzyści

� Rozpatrywane przez niego straty są z natury rzeczy bardzo małe, gdy produkt jest bliski parametrów nominalnych

Taguchi specified three situations:

1. Larger the better (for example, agricultural yield);2. Smaller the better (for example, carbon dioxide emissions); and3. On-target, minimum-variation (for example, a mating part in an

assembly).

� The first two cases are represented by simple monotonic loss-functions.

� In the third case, Taguchi adopted a squared-error loss function on the grounds:

- It is the first symmetric term in the Taylor series expansion of anyreasonable, real-life loss function, and so is a "first-order" approximation;

- Total loss is measured by the variance. As variance is additive it is anattractive model of cost;

- There was an established body of statistical theory around the use of the least-squares principle.

Off-line quality control

� Reguła Taguchiego: zróżnicowanie produktów najlepiej minimalizować podczas etapu projektowania i procesu wytwarzania

� Trzystopniowa strategia:1. Projektowanie systemu2. Projektowanie parametrów3. Projektowanie tolerancji


� System design - This is design at the conceptual levelinvolving creativity and innovation.

� Parameter design - Once the concept is established, the nominal values of the various dimensions and design parameters need to be set, the detail design phase of conventional engineering.

� Taguchi's radical insight was that the exact choice of values required is under-specified by the performance requirements of the system.

� In many circumstances, this allows the parameters to be chosen so as to minimise the effects on performance arising from variation in manufacture, environment and cumulative damage.


� Tolerance design - With a successfully completedparameter design, and an understanding of the effect that the various parameters have on performance, resources can be focused on reducingand controlling variation in the critical fewdimensions

� Design of experiments - Unlike the design of experiments work of R. A. Fisher, Taguchi sought to understand the influence that parameters had on variation, not just on the mean. He contended, thatconventional sampling is inadequate here as there isno way of obtaining a random sample of futureconditions.

Podsumowanie

� Metoda Taguchiego pozwoliła wielu japońskim markom stać się synonimami jakości

� Wykorzystał on metody statystyczne w nieortodoksyjny sposób, aby umożliwić najlepsze, z punktu widzenia firmy, podejmowanie decyzji związanej z wprowadzaniem produktu


Teoria gier

Teoria gier� dział matematyki zajmujący się badaniem

optymalnego zachowania w przypadku konfliktu interesów

� wywodzi się z badania gier hazardowych, jednak zastosowanie znajduje głównie w ekonomii, biologii (szczególnie w socjobiologii), socjologii oraz informatyce

� zastosowanie teorii gier w biologii (Johna Maynarda Smitha) - pojawienie się ewolucyjnej teorii gier i memetyki

Teoria gier - NobliściBadania w zakresie teorii gier i jej zastosowań wielokrotnie zostały uznane przez komitet nagrody Nobla:

� Herbert Simon otrzymał tę nagrodę w 1978 roku za wkład w rozwój ewolucyjnej teorii gier, w szczególności za koncepcję ograniczonej racjonalności.

� W 1994 roku tę nagrodę otrzymali John Nash, Reinhard Selten i John Harsanyi za rozwój teorii gier i jej zastosowania w ekonomii.

� William Vickrey i James Mirrlees w 1996 zostali uhonorowani za stworzenie modeli przetargów i badanie konfliktów z niesymetryczną informacją uczestników.

� W 2005 Thomas C. Schelling i Robert J. Aumann otrzymali nagrodę Nobla w dziedzinie ekonomii za zastosowanie teorii gier w naukach społecznych i mikroekonomii (dot. zachowania jednostek i rozwiązywania konfliktów).

� W roku 2007 nagrodę Nobla z ekonomii za kolejne zastosowania teorii gier w tej dziedzinie dostali Leonid Hurwicz, Eric S. Maskin, Roger B. Myerson.

Teoria gier a teoria decyzji

� Obie analizują sposoby podejmowania decyzji optymalnych

� W klasycznej teorii decyzji rozpatrujemy sytuacje deterministyczne, oraz warunki ryzyka i niepewności

� Teoria gier zajmuje się sytuacją, w której decyzje wszystkich graczy (decydentów) mają wpływ na pozostałych uczestników

Co to jest gra?

� Gra – dowolna sytuacja konfliktowa

� Gracz – uczestnik gry, mogący podejmować decyzje (człowiek, instytucja, zwierzę, etc.)

� Uczestnik gry może w niej coś zyskać (jednostki użyteczności, np. pieniądze, punkty, satysfakcję) lub stracić

� Uczestnik postępuje według pewnej strategii – teoria gier bada sposoby tworzenia najlepszej strategii dla danej gry

� Dla zbioru graczy istnieje pewien określony zbiór możliwych ruchów

Gra

� Zbiór graczy� Zbiór możliwych ruchów (strategii) dla

każdego gracz� Specyfikacja wypłat ( w jednostkach

użyteczności) dla każdej kombinacji strategii

Sposoby reprezentacji gier

� Forma normalna� Forma rozszerzona� Sposób z funkcją charakterystyczną� Sposób z funkcją podziału

Forma normalna� Reprezentacja gry za pomocą macierzy

przedstawiającej graczy, strategie i związane z nimi zyski (wypłaty)

� Zakładamy, że gracze wykonują ruch jednocześnie (nie wiedząc o decyzji innego)

Forma rozszerzona

� Formalizuje gry o ustalonym porządku ruchów

� Często reprezentowana w postaci drzewa

Forma rozszerzona

� Umożliwia reprezentację gier z niedokładną informacją (poprzez zmodyfikowane drzewa)

� Pozwala na analizowanie sytuacji decyzji podejmowanych przez graczy sekwencyjnie

Reprezentacja z funkcją charakterystyczną

� Dotyczy gier kooperatywnych, gdzie nie ma danych indywidualnych wypłat zysków

� Funkcja charakterystyczna opisuje zysk dla każdej z możliwych koalicji (koalicja pusta, zysk=0)

� W przypadku utworzenia się koalicji, możemy rozpatrywać z jej punktu widzenia grę jako dwuosobową

� Funkcję charakterystyczną można często utworzyć na podstawie formy normalnej

Reprezentacja z funkcją podziału

� Umożliwia wzięcie pod uwagę nie tylko jednej koalicji (z punktu widzenia gracza)

� Dopuszcza możliwość uzależniania wyniku od sposobu podziału pozostałych graczy na koalicje

Podział gier:

� Ze współpracą (kooperatywne) – bez współpracy

� Symetryczne – niesymetryczne

� O sumie zerowej – niezerowej

� Równoczesne – sekwencyjne

� Z informacją doskonałą – niedoskonałą

� Skończone – nieskończone

� Dyskretne – ciągłe

� Z różną ilością graczy

Gry kooperatywne – bez współpracy

� Gracze mogą formować koalicje lub nie� Dysponują możliwością komunikowania się

lub też nie� Czasem spotyka się sytuacje, gdy gracze

mogą formować koalicje, ale grają bez porozumiewania się lub też tak, jakby o koalicji nie wiedzieli

Gry symetryczne - asymetryczne

� Gra symetryczna –wygrana zależy jedynie od strategii, a nie od gracza, który ją wybierze

� Zwykle symetryczne są gry reprezentowane tablicą 2x2 (np. dylemat więźnia)

E F

E1, 2 0, 0

F0, 0 1, 2

Gra o sumie zerowej

� Szczególny przypadek gry o sumie stałej (stałe zasoby, stała suma wygranych)

� Jeśli ktoś zyskał, ktoś inny musiał stracić

� Np.: poker, go, szachy� Każdą grę można spróbować

przekształcić w grę o sumie zerowej dodając dodatkowego gracza

Gra jednoczesna i sekwencyjna

� Jednoczesna – gracze wykonują ruch w tym samym momencie lub nie wiedzą o posunięciach innych graczy

� W grach sekwencyjnych gracze dysponują jakąś wiedzą na temat wcześniejszych ruchów innych graczy

Gry o doskonałej i niepełnej informacji

� Informacja pełna – gracz zna wszystkie poprzednie posunięcia innych graczy

� Informacja pełna – tylko w grach sekwencyjnych

� Informacja kompletna – gracz zna strategie i macierze wygranych innych graczy, niekoniecznie ich ruchy

Gry nieskończenie długie

� W rzeczywistości - gry kończące się w skończonej liczbie ruchów

� Teoretycznie – gry o nieskończonej liczbie ruchów, wygrana dopiero po ich zakończeniu

� Dla takich gier wykazuje się istnienie (lub nie) wygrywających strategii

Gry Bayesowskie

� W grach takich nie znamy charakterystyk graczy

� Modeluje się je wprowadzając Naturę jako dodatkowego gracza – przypisuje ona rozkłady prawdopodobieństwa wystąpienia odpowiednich cech u graczy

� Gracze mają początkowe przekonania dotyczące innych graczy i modyfikują je w trakcie gry, na podstawie nowych informacji, za pomocą reguły Bayes’a

Zastosowania teorii gier

� Rozwinięta na polu ekonomii� Stosowana również w naukach

biologicznych, społecznych, informatyce, robotyce

� Argumentowanie oparte na wnioskowaniu podobnym do elementów teorii gier spotykamy już u Platona

Nauki polityczne

� Ekonomia polityczna, pozytywny wybór polityczny, społeczna teoria decyzji

� Modele, gdzie graczami są wyborcy, państwa, grupy nacisku, politycy

� Demokracja – pokój dzięki dostępności informacji, jawna debata

Ekonomia i finanse

� Często analizuje się strategie doprowadzające do stanu równowagi

� Równowaga Nasha: żaden z graczy nie może zwiększyć wygranej bez zmiany strategii przez innego gracza – jeśli wszyscy postępują optymalnie, jesteśmy w stanie równowagi

Równowaga Nasha

� Autor: John Forbes Nash, Jr. (born June13, 1928)

� Grupa graczy jest w stanie równowagi Nasha, jeśli każdy z nich podejmuje najlepszą dla siebie decyzję, biorąc pod uwagę decyzje pozostałych graczy

� Równowaga Nasha nie oznacza znalezienia rozwiązań optymalnych w sensie Pareto

Podejście deskryptywne

� Opisuje się zachowania systemów społecznych i ekonomicznych na podstawie analogii z elementami teorii gier

� Ma to pomóc w przewidywaniu zachować rzeczywistych graczy

� Wada: zwykle nie są spełnione założenia, choćby dotyczące optymalności strategii wybieranych przez graczy

Analiza normatywna

� Na podstawie teorii gier próbuje się ustalić, w jaki sposób ludzie powinni się zachowywać

� Wady: np. dylemat więźnia

Dylemat więźnia� Klasyczny przykład dwuosobowej gry o

sumie niezerowej� Zaproponowany w 1950r. przez M.

Dreshera, M. Food� Nazwa po raz pierwszy użyta przez A.

Tuckera w 1992r.� Strategia gry: zawsze oszukuj� Brak pareto-optymalności� Istnieje też wersja iterowana

Iterowany dylemat więźnia

� R. Aumann, 1959 – równowaga może być osiągnięta przez współpracę

� Dotyczy tylko nieznanej ilości iteracji� 1984: zawody programów – okazuje się,

że lepsze efekty osiągają strategie ze współpracą

� Selekcja naturalna może prowadzić do wykształcenia się zachowańaltruistycznych

Najlepsze strategie:

� Przyjazne (nie oszukujemy, jeśli przeciwnik nie oszukuje)

� Mściwe (jeśli przeciwnik nas oszukał, to my go też)

� Wybaczające (po jakimś czasie możemy wybaczyć przeciwnikowi i znów współpracować)

� Bez zazdrości (interesuje nas tylko nasz wynik)

Strategie� Zwyciężyła strategia „wet za wet” –

współpracuj w pierwszej rundzie, potem powtórz ruch przeciwnika

� Strategię optymalną można znaleźć analitycznie (znamy rozkłady strategii) lub symulacyjnie -> stosowanie algorytmu genetycznego

� Dwadzieścia lat później wygrała strategia Univ. Southampton (60 programów)

Zastosowania w biologii

� Wygrana zwykle opisuje stopień dopasowania się gatunku lub osobnika do warunków

� Teoria gier stosowana jest do wyjaśniania wielu zjawisk biologicznych, np. proporcje płci

� Ewolucyjna teoria gier (np. strategie stabilne ewolucyjnie)

� Wyjaśnianie biologicznego altruizmu

Strategia stabilna ewolucyjnie

� Jeśli stosują ją prawie wszyscy gracze, to nikomu nie opłaca się jej zmienić

� Zmiana strategii na inną nie zwiększa przystosowania osobnika

� Osobnik używający innej strategii nie ma szans na dokonanie inwazji na populację

Przykład – 3 typy osobników

� Legaliści (dzielą zasoby na pół)� Agresorzy (chcą zawsze 2/3 zasobów)� Skromni (biorą 1/3 zasobów)Strategie stabilne ewolucyjnie:� Agresorzy – skromni, 1:1, średnia wypłata

1/3� Sami legaliści, średnia wypłata 1/2

Informatyka i logika

� Teoria systemów wieloagentowych� Problemy przydzielania zasobów� Znajdowanie stanu równowagi gier on-

line, systemów aukcyjnych, systemów peer-to-peer, etc.

Zastosowania w filozofii

� Wprowadzenie idei zachowania wg konwencji

� Teoria gier pomogła filozofom w rozpatrywaniu pojęcia „powszechnego przekonania”, archetypu, etc.

� Podejmowane są próby tłumaczenia moralności na podstawie teorii gier

Strategia min-max

� Strategia polegająca na minimalizacji maksymalnej możliwej straty gracza

Algorytm min-max

� Rekurencyjny algorytm pozwalający na wybór optymalnego ruchu gracza w dwuosobowej grze o sumie zerowej

� Przyporządkowuje każdemu ruchowi liczbę opisującą jego wartość dla gracza

� Gracz wykonuje ruch maksymalizujący minimalną wartość kolejnej pozycji przy założeniu kolejnych ruchów przeciwnika

Podsumowanie� Teoria gier – zazębia się z teorią decyzji,

będąc, w pewnym sensie, jej rozszerzeniem (interaktywna teoria decyzji)

� Dostarcza matematycznych modeli opisujących sytuacje konfliktu i współpracy decydentów

� Znajduje wiele konkretnych zastosowań (opisy systemów ekonomicznych, ewolucji biologicznej, tworzenie algorytmów przydziału zleceń, etc.)


Sztuczne sieci neuronowe

Sztuczne sieci neuronowe

� Struktury i algorytmy mające początkowo modelować działanie biologicznych układów neuronowych, w tym, docelowo również mózgu ludzkiego

� Dziś: struktury, metody, modele programowe i sprzętowe, przetwarzające, najczęściej równolegle, sygnał wejściowy za pomocą elementów zwanych neuronami

Historia

� 1943 r.: McCulloch i Pitts – pierwszy matematyczny opis komórki nerwowej

� 1949 r.: D. Hebb – reguła Hebba, struktura sieci jako pamięć

� 1957, 1968 r.: Rosenblatt – perceptron (do rozpoznawania znaków, Cornell AeronauticalLaboratory )

� 1960 r.: Widrow – Adaline i Madaline (Stanford), pierwszy komercyjny neurokomputer

Historia – c.d.� 1969 r.: Minsky i Papert – pokazanie ograniczeń

sieci jednowarstwowych� Lata 70.: „Wielka Smuta” �� 1974 r.: Werbos – schemat uczenia sieci

wielowarstwowej, niezauważony� 1982 r.: Kohonen – samoorganizujące się sieci

Kohonena� 1982 r.: Hopfield – ponowne odkrycie wstecznej

propagacji� 1986 r.: McClellanda i Rumelhart – popularyzują

ideę sieci wielowarstwowych� a potem… gwałtowny rozwój SSN aż do dziś

Podstawy biologiczne� Inspiracja: układ nerwowy, począwszy od

robaków, stawonogów, mięczaków, na ssakach skończywszy

� Cel: zbadanie (a potem skopiowanie) mózgu ludzkiego

� Fakty: mózg człowieka – 1400 ccm, powierzchnia 2000cm2, (dla kuli 600 cm2), waga 1.5 kg

Podstawy biologiczne – budowa mózgu

� Kora mózgowa: grubość 3mm, 10^30 komórek nerwowych, 10^12 glejowych, 10^15 połączeń o długości od 0.01mm do 1m

� Komórki nerwowe wysyłają i przyjmują impulsy o częstotliwości 1-100 Hz, czasie trwania 1-2 ms, napięciu 100 mV i szybkości propagacji 1-100 m/s

Podstawy biologiczne - mózg

� Szybkość pracy: 1018 operacji/s � Do typowej reakcji mózgu potrzeba ok.

100 kroków: czas reakcji nie mniejszy niż 300ms, czas refrakcji neuronu 3ms

� Pojemności kanałów zmysłów : wzrok 100 Mb/s, dotyk 1 Mb/s, słuch 15 Kb/s, węch 1 Kb/s, smak 100 b/s

Zastosowania:

� Rozpoznawanie, klasyfikacja� Klasteryzacja� Analiza i przetwarzania obrazów� Przetwarzanie sygnałów (aproksymacja, filtracja)� Predykcja szeregów czasowych� Optymalizacja� Pamięci autoasocjacyjne� Kompresja� i wiele innych…

Rodzaje SSN

� Sieci jednowarstwowe – wejścia, jedna warstwa neuronów

� Sieci wielowarstwowe jednokierunkowe –propagacja sygnałów od wejść do wyjść, brak sprzężeń

� Sieci rekurencyjne – sprzężenie zwrotne między wejściem a wyjściem, mogą być jedno- lub wielowarstwowe

Sieć jednowarstwowa

� Składa się z węzłów wejściowych, oraz warstwy neuronów

� W zależności od metody uczenia, oraz funkcji aktywacji może to być: perceptron prosty, sieć jednokierunkowa (sigmoidalnalub radialna), czy też sieć samoorganizująca typu Kohonena

Sieć wielowarstwowa

� Składa się z węzłów wejściowych, jednej lub kilku warstw ukrytych, oraz warstwy wyjściowej

� Sieci te to sieci jednokierunkowe sigmoidalne

� Mogą być traktowane jako uniwersalne aproksymatory

Sieci rekurencyjne

� Posiadają sprzężenie pomiędzy sygnałami wyjść, a wejściami sieci

� Opis – dynamika nieliniowa: dynamiczne ustalanie się sygnałów (operatory opóźnień) i nieliniowe funkcje aktywacji

Metody uczenia sieci – klasyfikacja

� Uczenie nadzorowane, z nauczycielem (supervised learning)

� Uczenia z krytykiem (reinforcementlearning)

� Uczenia bez nauczyciela, samoorganizujące (unsupervised learning)

Metody uczenia – inny podział

� Uczenie typu on-line, reguła delta: aktualizacja wag następuje po prezentacji każdego obrazu uczącego

� Uczenie typu skumulowanego, batch-learning: adaptacja wag po prezentacji wszystkich elementów ciągu uczącego

� Możliwe strategie mieszane

Uczenie sieci neuronowych

� Wagi modyfikowane są w kolejnych iteracjach zwanych epokami

� Zmiana wag zapisana być może jako:

przy czym

Reguła perceptronu

Reguła Widrowa-Hoffa

� Uogólnienie reguły perceptronu� Możliwość stosowania przy różnych

funkcjach aktywacji neuronu� Zmiana wag postaci:

Uczenie sieci jednokierunkowych

� Najpopularniejszy rodzaj sieci (jednokierunkowe, wielowarstwowe, o sigmoidalnych funkcjach aktywacji)

� Uczenie opiera się na wstecznej propagacji błędu (backpropagation)

� Uczenie polega na minimalizacji zadanej funkcji błędu (najczęściej metody gradientowe)

Metoda wstecznej propagacji błędu

W metodzie wstecznej propagacji błędu przyjęto następujące założenia dotyczące zadania uczenia:

� sieć jest ściśle wielowarstwowa (istnieją jedynie połączenia pomiędzy neuronami kolejnych warstw),

� funkcje aktywacji sieci, oraz funkcja celu są ciągłe i różniczkowalne,

� dane uczące składają się z wartości podawanych nawejście sieci i odpowiadających im pożądanych wartości wyjść.

Minimalizowana funkcja kryterialna (funkcja błędu)

� Najczęściej używa się funkcji kwadratowej:

� Ogólnie można użyć funkcji:

a więc w szczególności

Algorytmy gradientowe

� Rozwinięcie funkcji w szereg Taylora:

gradient:

n – ilość wag sieci.


� Hesjan:


� Najczęściej ograniczamy się do rozwinięcia:

i otrzymujemy krok uczenia:

Algorytmy gradientowe:

� Największego spadku:� Levenberga – Marquardta� Gradientów sprzężonych� BPQ� Quickprop� RBPROP� i wiele innych…

Algorytm największego spadku� Otrzymujemy więc zmiany wag:

gdzie

Współczynnik uczenia

W najprostszej wersji współczynnik uczenia jest stały:

więc zmiana wag odbywa się zawsze proporcjonalnie do niego.

Stały współczynnik uczenia

Oczywiste wady stałego współczynnika uczenia:

� Łatwo utknąć w minimum lokalnym

� Przy zbyt małej wartości proces uczenia przebiega bardzo powoli

� Przy wartości zbyt dużej można przeoczyć ekstremum

� Nie ma prostej metody doboru właściwej wartości, np. oszacowanie:

Zmienny współczynnik uczenia

Różne strategie doboru współczynnika:� Metody adaptacyjne� Minimalizacja funkcji celu w zadanym

kierunku po wartościach współczynnika uczenia (m. bisekcji, Fibbonaciego, aproksymacji wielomianami, etc.)

� Metoda delta-delta, delta-bar-delta i podobne

Metody adaptacyjne

� Jeśli błąd popełniany przez sieć maleje, zwiększenie współczynnika o zadaną wartość

� W przeciwnym przypadku zmniejszenie go (geometrycznie, podział przez stałą wartość)

� Inny sposób: uzależnienie współczynnika od szybkości i etapu uczenia

Metoda delta-delta

Współczynnik uczenia obliczany metodą największego spadku:

Metoda delta-delta

Na podstawie:

Otrzymujemy:

Reguła delta-bar-delta

� Udoskonalenie metody delta-delta� Uwzględnia się uśredniony gradient, a nie

jego chwilowe zmiany� Unika się niepotrzebnych oscylacji po

powierzchni funkcji celu� Najczęściej stosowany przy uczeniu

skumulowanym

Reguła delta-bar-delta

� Zmienia się tempo uczenia w zależności od relacji znaków gradientu aktualnego i uśrednionego

� Współczynnik rośnie addytywnie, maleje wykładniczo

� Algorytm przyspiesza proces uczenia

Algorytm Resilient Backpropagation

� Uwzględnianie jedynie znaku składowych gradientu w procesie uczenia

� Przyspieszenie minimalizacji na stosunkowo płaskich obszarach

� Może być prostszy obliczeniowo

Algorytmy z czynnikiem „momentu”

� Metoda uczenia MomentumBackpropagation polega na dodaniu czynnika „obciążenia”, czy „bezwładności”, który zwiększa wielkość wahań koniecznych do zmiany kierunku uczenia

� W algorytmie tym pod uwagę brana jest ogólniejsza tendencja, a nie gwałtowne zmiany wartości gradientu

Algorytmy z czynnikiem „momentu”

Najprostszy sposób wprowadzenia bezwładności:

Warto zauważyć, że dla płaskiej powierzchni funkcji:

Algorytm Levenberga-Marquardt’a

� Jeden z najbardziej efektywnych i najczęściej stosowanych

� Szybko zbieżny, o niewielkiej złożoności obliczeniowej i prostej implementacji

� Oparty na rozwiązaniu nieliniowego problemu najmniejszych kwadratów


� Zastąpienie hesjanu w optymalizacji newtonowskiej jego przybliżeniem

� Dodanie czynnika regularyzacyjnego� Założenie kwadratowej funkcji błędu:

Algorytm Levenberga-Marquardt’aPrzyjmuje się przybliżenie hesjanuzależnością:

gdzie u jest czynnikiem regularyzacyjnym. Otrzymujemy przyrost wag:


� Czynnik regularyzacyjny u jest funkcją postępu procesu uczenia

� Początkowo jest dużo większy od wartości własnych macierzy by ze zmniejszaniem się błędów dążyć do zera

� Początkowo alg. największego spadku, później alg. Gaussa-Newtona o kwadratowej zbieżności

Algorytm gradientów sprzężonych

� Algorytm gradientów sprzężonych (conjugated gradients) rezygnuje z informacji o hesjanie

� Jeden z najszybszych i najbardziej efektywnych algorytmów drugiego rzędu

� Zbieżność zbliżona do liniowej, niewielkie wymagania co do pamięci


Metody doboru współczynnika sprzężenia najczęściej wykorzystują gradient, bądź poprzednie kierunki poszukiwań. Jedną z najpopularniejszych jest metoda Polaka-Ribiere’a:


� Metoda ta wymaga ponownego startu po pewnej liczbie epok ze względu na błędy zaokrągleń

� W związku z nimi zatracić się mogą właściwości ortogonalności między wektorami

Algorytmy gradientowe -podsumowanie

� Metody gradientowe stanowią podstawowe narzędzie przy tworzeniu algorytmów uczenia sieci jednokierunkowych

� Opierają się na strategii wstecznej propagacji błędu

� Dzielą się na metody pierwszego i drugiego rzędu


� Algorytmy pierwszego rzędu stosowane są praktycznie jedynie przy uczeniu „on-line”

� Dużo efektywniejsze są algorytmy drugiego rzędu

� Algorytmy ze stałym współczynnikiem uczenia mają obecnie znaczenie historyczne


� Spośród wielkiej różnorodności metod uczenia wśród najpopularniejszych wymienić można algorytmy Levenberga-Marquardt’a i gradientów sprzężonych

� Są one szybkimi algorytmami drugiego rzędu nie wymagającymi obliczania macierzy hesjanu

� Większość z metod jest bardzo czuła na dobór stałych


� Prócz algorytmów czysto gradientowych, istnieją również metody łączące sporą dozę wiedzy heurystycznej z analizą funkcji

� Sieci jednokierunkowe uczyć można także metodami czysto heurystycznymi lub „inteligentnymi” (np. alg. genetyczne, symulowane wyżarzanie, etc.)

Sieci o bazach radialnych

� Inaczej sieci radialne, RBF (radial basisfunction networks)

� Zamiast sigmoidalnej, bądź skokowej funkcji przejścia (f. bazowej) neuronu, funkcja radialna, np. gaussowska

� Zamiast aproksymacji globalnej – lokalna

Sieci o bazach radialnych

Wykorzystanie w praktyce idei twierdzenia Covera:

� problem separowalności wzorców zrzutowany nieliniowo w przestrzeń o większej liczbie wymiarów może być rozwiązany (liniowo separowalny) z większym prawdopodobieństwem, niż przy rzutowaniu w przestrzeń mniej wymiarową

Struktura sieci RBF

� Ustalona architektura: warstwa neuronów radialnych i sumujący neuron liniowy na wyjściu

� Funkcje bazowe różne dla poszczególnych neuronów

� Funkcje bazowe działają na odległościach wejść od centrów bazowych

Sieci RBF

Wyjście sieci może zostać zapisane jako:

gdzie - pewna norma, np. euklidesowa

Aproksymacja siecią RBF� Dla zbioru danych uczących szukamy

funkcji:

Możemy zapisać aproksymację za pomocą radialnych funkcji bazowych:

Działanie: sieci sigmoidalne contra RBF

� Neuron sigmoidalny dzieli przestrzeń hiperpłaszczyzną na dwie części

� Neuron radialny rozciąga hiperpłaszczyznę wokół pewnego centrum (np. punktu danych)

� Aproksymacja sieciami sigmoidalnymi – globalna

� Aproksymacja sieciami RBF – lokalna, wokół centrów (np. superpozycja hiperpłaszczyzn związanych ze wszystkimi danymi uczącymi)

Sieci RBF – funkcje radialne

Uwagi:� W typowym przypadku funkcje radialne

charakteryzują się kołową symetrią wokół centrum

� Od doboru parametru dyspersji σ zależy „zasięg oddziaływania” neuronu

Sieci RBF

� Rozwiązanie równania daje nam parametry sieciWady:

� Ilość neuronów jest nadmiarowa, równa ilości próbek

� Sieć ma słabą zdolność generalizacji (dopasowana do danych uczących)

� Sieć jest bardzo podatna na błędy w danych

Sieci RBF - uczenie

� Oczywiście można stosować sieci o mniejszej liczbie neuronów

� Aproksymacja przy użyciu k funkcji:

� Należy dobrać centra i wagi

Sieci RBF - uczenie

� Uczenie znów polegać będzie na minimalizacji funkcji celu

� Dla normy euklidesowej otrzymujemy kwadratową funkcję błędu:

Sieci RBF – dobór parametrów funkcji radialnych

� Losowy – przyjęcie wartości z zakresu obrazów uczących lub wylosowanie centrów spośród nich

� Dyspersja – przyjmowana apriorycznie w zależności od ilości neuronów

� Własności: rozwiązanie najprostsze, dla nieskomplikowanych problemów stosunkowo efektywne

Sieci RBF – dobór parametrów funkcji radialnych

� Użycie technik samoorganizacji sieci� Podział danych na klastry różnymi

metodami (np. k-średnich)� Dyspersje ustalane w zależności od

odległości od najbliższego sąsiada� Różne modyfikacje i wariacje na temat

metody� Bardziej złożony, ale efektywniejszy

sposób od doboru losowego

Sieci RBF - podsumowanie

� Druga z najczęściej stosowanych grupa sieci

� Sieci jednokierunkowe o ustalonej architekturze (jedna warstwa ukryta)

� Zamiast skokowych funkcji aktywacji neuronów, funkcje radialne

� Funkcje bazowe o symetrii kołowej zmieniające się wokół pewnego centrum

Sieci RBF - podsumowanie

� Mogą być stosowane w zadaniach aproksymacji i klasyfikacji nieliniowej (tw. Covera)

� Aproksymacja jest w praktyce oparta na lokalnej interpolacji

� Wymagają często mniejszej liczby neuronów niż sieci o sigmoidalnychfunkcjach aktywacji

Sieci RBF - podsumowanie� Uczenie sieci RBF polega na wyznaczeniu funkcji

bazowych (centrów, dyspersji), a następnie na obliczeniu wag warstwy ukrytej

� Najprymitywniejsze podejście zakłada budowę sieci dokładnie odwzorowującą dane uczące

� Bardziej efektywne są metody, które pozwalają na stopniowe dodawanie neuronów, aż do osiągnięcia założonego błędu, lub dążące do stworzenia sieci o zadanym rozmiarze

Podsumowanie

� SSN znajdują zastosowanie w bardzo wielu dziedzinach, ze względu na prostotę użycia, możliwość równoległego przetwarzania, czy odporność na uszkodzenia

� SSN często stosowane są niepotrzebnie tam, gdzie istnieją skuteczniejsze i dokładniejsze metody

� Teoria SSN jest nadal rozwijana i nie wszystkie związane z nimi fenomeny znalazły wyjaśnienie


Podejście Bayesowskie

Podejście Bayesowskie

� Dotyczy metod probabilistycznych, oraz statystycznych

� Kojarzone jest z Thomasem Bayesem (ok. 1702-1761)

� Różni się od klasycznego prawdopodobieństwa: tam częstości, tu stopnie wiarygodności

� W klasycznej statystyce – wzór Bayesa

Thomas Bayes (1701(2)-1761)

� Angielski matematyk i prezbiteriański duchowny, członek Towarzystwa Królewskiego w Londynie

� Znany głównie z twierdzenia Bayesa opublikowanego dopiero po jego śmierci

� Ponadto autor dwóch dzieł: teologicznego, oraz z zakresu matematyki

Bayesjanizm – prawdopodobieństwo subiektywne

� Postulat filozoficzny mówiący, że matematyczna teoria prawdopodobieństwa stosowana być może do działania na zdaniach mających pewien określony stopień prawdziwości

� Podejście to umożliwia przypisanie prawdopodobieństw zarówno zdarzeniom losowym, jak i każdemu innemu typowi zdarzeń

� Według klasycznego podejścia prawdopodobieństwa przypisać można jedynie zdarzeniom losowym

Prawdopodobieństwo Bayesowskie- subiektywne

� Można je rozpatrywać jako prawdopodobieństwo oparte na względnych częstościach

� Różni obserwatorzy mogą przypisać różne prawdopodobieństwa tym samym stwierdzeniom (w szczególności: zdarzeniom)

Ciekawsze argumenty przeciw podejściu Bayesowskiemu

� Założenie, że możliwe jest skonstruowanie technik pozwalających różnym obserwatorom przypisanie zdarzeniom tych samych prawdopodobieństw, gdy dysponują tą samą informacją

� Postulowanie pewnego początkowego prawdopodobieństwa, które muszą założyć wszyscy obserwatorzy

Testowanie hipotez

� Podejście klasyczne – należy przyjąć, bądź odrzucić hipotezę zerową na założonym poziomie istotności

� Podejście Bayesowskie – należy przypisać mniejsze lub większe prawdopodobieństwo testowanej hipotezie

Twierdzenie Bayesa

� Funkcjonuje również w klasycznej statystyce

� Można je traktować, jako narzędzie modyfikowania twierdzeń (prawdopodobieństwa ich prawdziwości) w świetle nowych informacji

� Twierdzenie określa związek pomiędzy prawdopodobieństwami warunkowymi dwóch zdarzeń A i B (A pod warunkiem B oraz B pod warunkiem A)

Twierdzenie Bayesa

Dla dwóch zdarzeń losowych A i B:

Twierdzenie Bayesa - nomenklatura

� P(A) – prawdopodobieństwo a priori, oznacza prawdopodobieństwo przed pojawieniem się informacji o B

� P(A|B) – prawdopodobieństwo a posteriori, prawdopodobieństwo A pod warunkiem B, a więc zmodyfikowane po uzyskaniu informacji o B

� P(B|A) – prawdopodobieństwo warunkowe B pod warunkiem A

� P(B) – aprioryczne prawdopodobieństwo B, stała normalizująca

Twierdzenie Bayesa dla zmiennych losowych ciągłych

Przykład 2:

Test medyczny:� Pacjent chory – test pozytywny z prawd.

0.99 (P(T|D)=0.99)� Pacjent zdrowy – test negatywny z prawd.

0.95� Choroba jedynie u 0.1% populacji

(P(D)=0.001)

Przykład 2 – cd.:

Otrzymujemy więc:

Czyli prawdopodobieństwo tego, że pacjent jest zdrowy pomimo pozytywnego wyniku wynosi:

1 – 0.019 = 0.98…

Wnioski:

� Pomimo dużej dokładności, pozytywny test dla większości badanych nie oznacza choroby

� Test nie jest bezużyteczny – jego powtórzenie znacznie zwiększa prawdopodobieństwo prawdziwego wyniku

� Twierdzenie Bayesa pokazuje, że dokładność testów dla rzadkich schorzeń musi być bardzo wysoka

Prawdopodobieństwo hipotezy w świetle nowego dowodu:

� P(Hi|E) – prawdopodobieństwo, że Hi prawdziwa, gdy wiemy, że E

� P(Hi) – prawdopodobieństwo, że Hi w ogóle może być prawdziwa

� P(E|Hi) – prawdopodobieństwo, że pojawi się dowód (informacja) E, jeśli Hi prawdziwa

Wnioskowanie Bayesowskie

� Wnioskowanie statystyczne, w którym prawdopodobieństwa interpretuje się jako stopnie prawdziwości, a nie częstości lub proporcje

� Formalizacja metod polegających na modyfikacji stwierdzeń w związku z nowymi informacjami (dowodami)

Wnioskowanie Bayesowskie

� W miarę zbierania informacji hipotezy stają się coraz bardziej (prawie 1) lub coraz mniej (blisko 0) prawdopodobne

� Przykład: Słońce wschodzi i zachodzi od miliardów lat. Słońce dziś zaszło. Z bardzo dużym prawdopodobieństwem słońce wzejdzie również jutro.

� Uwaga: jutro prawdopodobieństwo zwiększy się!

Twierdzenie Bayesa raz jeszcze

Modyfikujemy stopień prawdziwości hipotezy w świetle nowej informacji:

Aby przeprowadzić takie wnioskowanie należy założyć jakieś początkowe prawdopodobieństwo naszej hipotezy.

Przykład:

W maju 1968 roku zaginęła atomowa łódź podwodna USS Scorpion. Władzom US Navyprzekonanym, że okręt zaginął u Wschodnich Wybrzeży USA nie udało się go odnaleźć.

Osobne poszukiwania zorganizował ekspert Marynarki John Craven angażując do przeprowadzenia obliczeń grupę matematyków. Zaproponowali oni Bayesowską metodę poszukiwań.

Przykład – cd.

� Sporządzono hipotezy dotyczące przyczyn zatonięcia okrętu

� Obszar poszukiwań pokryto siatką, każdemu obszarowi przyporządkowano prawdopodobieństwo w związku z przyczynami zaginięcia

� Skonstruowano drugą siatkę opisującą prawdopodobieństwa tego, że okręt zostanie odnaleziony, jeśli znajduje się w danym obszarze (funkcja głębokości wody)

Przykład – cd.� Otrzymano siatkę prawdopodobieństw

odnalezienia wraku w poszczególnych obszarach� Rozpoczęto poszukiwania od obszarów o

największym prawdopodobieństwie do tych o najmniejszym

� Po przeszukaniu obszaru, prawdopodobieństwa były modyfikowane zgodnie ze wzorem Bayesa: p – prawd., że wrak jest w kwadracie, q –prawd., że jeśli jest, zostanie znaleziony

� W październiku 1968 odnaleziono wrak!

Prosty klasyfikator Bayesowski

� Założenie niezależności zmiennych (zwykle niespełnione)

� Klasyfikator uczy się przy pomocy metod uczenia nadzorowanego (z nauczycielem)

� Pomimo swej prostoty i mocnych założeń, klasyfikator taki działa dobrze w wielu rzeczywistych zastosowaniach

Naiwny model Bayesowski

Klasyfikator Bayesowski

Dla k klas, jeśli model p(ai) może być wyrażony za pomocą r parametrów, odpowiedni klasyfikator Bayesowski posiada (k-1) + nrk parametrów.

Przykład

� Zadanie polega na klasyfikacji dokumentów

� Klasa dokumentu może być opisana zestawem słów i prawdopodobieństwami ich pojawienia się w dokumencie określonej klasy

� Prawdopodobieństwo, że i-te słowo dokumentu pojawia się w dokumencie klasy C jest równe P(wi|C)

Przykład – cd.

Otrzymujemy:

Przykład – cd.Załóżmy, że rozpatrujemy tylko dwie klasy: S i nie S

Przykład – cd.Dzieląc przez siebie te równania otrzymujemy wzór na

Prawdopodobieństwo P(S|D) możemy obliczyć pamiętając, że

Logarytmując otrzymamy więc:

Sieć Bayesowska

� Służy do graficznej prezentacji modelu statystycznego

� Budowana za pomocą skierowanego grafu acyklicznego

� Wierzchołki grafu to zdarzenia, łuki to probabilistyczne związki przyczynowe

� Sieć taka użyta może być do obliczania zadanych prawdopodobieństw (na podstawie wiedzy o wystąpieniu pewnych zdarzeń)

Podsumowanie

� Podejście Bayesowskie stosować można bez wyznawania „idei” bayesjanizmu

� Jest szczególnie przydatne w testowaniu hipotez, nadaje się do minimalizacji błędów pierwszego rodzaju

� Klasyfikatory Bayesowskie z powodzeniem rywalizować mogą w niektórych zastosowaniach z bardziej zaawansowanymi metodami (np. sieciami neuronowymi)

� Wnioskowanie bayesowskie stanowi podstawę wielu metod rozpoznawania wzorców


Systemy ekspertowe (i nie tylko)

System ekspertowy

� Gałąź sztucznej inteligencji rozwijana od lat 70. XX wieku

� Program komputerowy (system) wspomagający podejmowanie decyzji na podstawie wnioskowania opartego o bazę wiedzy

� System ekspertowy – zastąpienie wiedzy eksperta

Zastosowania:

� Medycyna – diagnoza, leczenie� Prognozowanie pogody� Analiza zachowań rynków finansowych� Wykrywanie uszkodzeń� Systemy sterowania� Doradztwo podatkowe

Przykłady systemów ekspertowych

� Dendral (ustalanie struktur molekularnych)� Prospector (złoża geologiczne)� Mycin (diagnozowanie zakażeń)� XCon� Macsyma (problemy matematyczne,

całkowanie)� Systemy szkieletowe: CLIPS, MANDARAX,

DROOLS, JESS, SPHINX� Język programowania: Prolog, Lisp

System ekspertowy vs. wizard

� Czasem SE równoważny z tzw. „kreatorem”

� Podobny sposób zdobywania informacji poprzez, np. poprzez wypytywanie użytkownika

� Różnice na etapie wnioskowania (sztywne reguły, baza wiedzy lub inne sposoby)

Powody stosowania

� Wiedza eksperta – trudna do przekazania, szczegółowa, często trudna do sformalizowania

� Wiedza eksperta – dotyczy wąskiej dziedziny

� Rozwiązania – zastąpienie eksperta programem komputerowym

Wydobywanie wiedzy od ekspertów

� Gdy nie istnieje prosty algorytm postępowania –wypytywanie ekspertów o stosowane przez nich sposoby wnioskowania

� W trudniejszych przypadkach – badanie wiedzy eksperta na przykładach, podawanie do rozwiązania przypadków testowych

� Ekstrakcją i kodowaniem wiedzy eksperckiej zajmują się tzw. inżynierowie wiedzy

System ekspertowy a tradycyjny system wnioskujący

� Główna różnica: sposób zakodowania problemu

� System tradycyjny: wiedza zakodowana w programie (regułach) i strukturach danych

� System ekspertowy: wiedza zakodowana jedynie w strukturach danych (baza wiedzy), reguły wnioskowania niezależne od dziedziny problemu

Budowa systemu ekspertowego

� Interfejs użytkownika� Baza wiedzy � Mechanizm wnioskowania� Pamięć podręczna� Mechanizm wyjaśniający (opcjonalnie)� Edytor bazy wiedzy (opcjonalnie)

Przykład dialogu z SEP: Czy wiesz, do której restauracji chcesz się udać?O: Nie.P: Czy jest jakiś rodzaj jedzenia, które szczególnie

lubisz?O: Nie wiem.P: Czy lubisz pikantne potrawy?O: Nie.P: Czy lubisz pić wino do posiłków?O: Tak.P: Czy jeśli pijesz wino, jest to wino francuskie?O: A dlaczego pytasz?

Dialog z SE

� Pojawia się pytanie, czy znamy odpowiedź…

� System prowadzi użytkownika przez zestaw pytań

� Użytkownik nie musi odpowiadać na wszystkie

� Kolejne pytania konstruowane są na podstawie dotychczas zdobytych informacji i odniesieniu ich do bazy wiedzy (nie są predefiniowane)

� Użytkownik może zadać pytanie: „dlaczego?”

Przykład dialogu – c.d.

P: Dlaczego pytasz?O: Próbuję ustalić typ restauracji, do której

możesz się udać. Do tej pory chińska nie wydaje się prawidłowym wyborem. Być może będzie to restauracja francuska. Jeśli lubisz pić wino i lubisz wino francuskie, to jest to mocna przesłanka, aby uwzględnić restaurację francuską.

System wyjaśniający

� Trudny lub niemożliwy do zrealizowania w klasycznym systemie wnioskującym

� W systemie ekspertowym jest on implementowany jako wskazanie struktur z bazy wiedzy użytych do wnioskowania

� W bazie wiedzy zawarte są stwierdzenia typu: „jeśli…., to….”

Technika wnioskowania

� Niezależna od dziedziny problemu� Ewentualnie może być dostosowana do

klasy problemów (diagnozowanie, prognozowanie)

� Zawsze wymaga takiej samej postaci struktur danych

� Najprostsze przykłady: wnioskowanie w przód, wnioskowanie w tył

Reguła wnioskowania

� Element bazy wiedzy� Składa się z dwóch części: warunku i zdania

wynikowego� Przykład: Jeśli okazja nie jest uroczysta i

dopuszczamy możliwość wyboru kuchni polskiej, to najlepiej zjedz obiad w domu.

� Prześledzenie reguł wnioskowania pozwala przygotować wyjaśnienie

� Sposób zapisu reguł jest intuicyjny – ułatwia zakodowanie rzeczywistej wiedzy eksperta

Wnioskowanie w przód (modus ponendo ponens)

� Rozpoczyna proces wnioskowania od znanych danych, przeprowadzając go, aż osiągnięty zostanie cel

� Program wnioskujący przeszukuje bazę wiedzy, aż znajdzie zdanie warunkowe, o którym wiadomo, że jest prawdziwe

� Na jego podstawie dodaje do zdań prawdziwych zdanie wynikowe i poszukuje warunku na nim opartego

� Jest to sposób wnioskowania oparty na danych (data driven)

Wnioskowanie w tył (modus tollendo tollens)

� Rozpoczynamy wnioskowanie od tego, co chcemy wykazać, idąc w kierunku aksjomatów lub założeń

� Program wnioskujący przeszukuje bazę wiedzy, aż znajdzie zdanie wynikowe zgodne z celem

� Jeśli okaże się, że nie wiemy, czy zdanie warunkowe jest prawdą, dodajemy je do listy celów

Przykład

Wiemy, że temperatura pacjenta to 38 st., chcemy dowieść, że jest chory.

Baza wiedzy:1. Jeśli pacjent ma powyżej 37.5 st., to ma

gorączkę.2. Jeśli pacjent ma gorączkę, to jest chory.

Przykład

� Szukamy zdania, które kończy się stwierdzeniem „pacjent jest chory” (element nr 2).

� Dodajemy do celów zdanie warunkowe: „ma gorączkę” i poszukujemy takiego wynikowego

� Gdy znaleźliśmy, dochodzimy do zdania, o którym wiemy, że jest prawdziwe

Stopnie prawdziwości

� Systemy ekspertowe pozwalają na wprowadzenie stopni prawdziwości danych stwierdzeń

� Jeśli reguły wnioskowania (elementy bazy wiedzy) mają różne stopnie prawdziwości, również konkluzja końcowa jest podana z pewnym stopniem prawdziwości

Interfejs użytkownika

� Ma na celu prezentowanie pytań i informacji użytkownikowi, oraz przekazywanie jego odpowiedzi do mechanizmu wnioskującego

� Przy przyjmowaniu odpowiedzi sprawdza, ich poprawność

� Ewentualnie informuje o dozwolonych typach odpowiedzi

Komunikacja ze światem zewnętrznym

� System ekspertowy oprócz informacji od użytkownika może wywoływać pewne procedury (np. diagnostyczne), w celu uzyskania danych

� System może mieć dostęp np. do czujników, albo do programów raportujących

Elementy bazy wiedzy

� Klasy – pytania zadawane użytkownikowi� Parametry – konkretne słowa wstawiane

do klas/pytań� Procedury – odwołania do zewnętrznych

procedur� Węzły reguł – zdania wynikowe ułożone w

formie drzewa

Baza reguł jako zbiór drzew

� Baza może być traktowana jako las

� Każde drzewo ma jeden korzeń – cel

� Liśćmi drzew mogą być węzły dowodowe (pytanie do operatora), węzły zewnętrzne (odwołania do procedur) lub węzły odnośnikowe (odnośniki do innych drzew)

� Węzły pośrednie opisują operacje AND i OR

� Wnioskowanie – przepatrywanie drzewa od korzenia

Baza wiedzy

� Baza wiedzy może przypominać system ekspertowy –również zawiera specyficzną wiedzę

� Najczęściej jej zadaniem jest przechowywanie i przetwarzanie informacje gromadzonych w instytucji

� Zawierać może: artykuły, instrukcje, podręczniki użytkownika, etc.

� Dodatkowo zawierać może zbiór reguł i inteligentny system przeszukiwania

� Niektóre rodzaje baz mają zdolność uczenia się na podstawie działań użytkowników, najczęściej zadawanych pytań, zgłaszanych uwag

Eksploracja danych – data mining

� Proces wydobywania wiedzy z baz danych� Jej zadaniem jest znalezienie pewnych,

niewidocznych na pierwszy rzut oka, prawidłowości w dużych zbiorach danych

� Eksploracja danych opiera się najczęściej na metodach statystycznych, uczeniu maszynowym, sieciach neuronowych, etc.

Eksploracja danych

� Najczęściej kojarzona z zastosowaniami biznesowymi: prognozowanie sprzedaży, ocena ryzyka, ustalanie preferencji klientów

� Używana również w: rozpoznawaniu sygnałów, analizie ruchu w sieciach komputerowych, badaniach genetycznych, etc.

� Przykład: powiązanie klienta z produktem, marketing celowy, analiza koszyka zakupów

„Drążenie” danych (data dredging, data fishing)

� Poszukiwanie prawidłowości i wzorców w danych „na siłę”, wyciąganie wniosków fałszywych, bądź trywialnych

� Problem zbyt dużego dopasowania modelu do danych (overfitting)

� Znajdowanie korelacji, tam, gdzie nie mogą wystąpić (gry losowe, etc.)

� Zawsze konieczność przeprowadzenia odpowiednich testów statystycznych i wyjaśnienia znalezionych prawidłowości, bądź korelacji

Wnioskowanie� Proces dochodzenia do konkluzji na podstawie

danych przesłanek oparty na pewnej metodologii

� Podstawowe typy wnioskowania: dedukcyjne i indukcyjne

� Dedukcyjnie: wszyscy ludzie są śmiertelni, Sokrates jest człowiekiem, więc Sokrates jest śmiertelny

� Indukcyjnie: słońce wschodziło co rano aż do dziś, więc najprawdopodobniej wzejdzie i dzisiaj

� Dodatkowe typy rozumowania: abdukcja i analogia

Wnioskowanie oparte na przypadku

� Wnioskowanie opiera się na wcześniejszym doświadczeniu

� Np. lekarz, mechanik widział podobne symptomy, więc postępuje w podobny sposób

� Tak też uczą się zwierzęta – powtarzają swoje zachowania, które odniosły żądany skutek w przeszłości

Formalizacja toku rozumowania

1. Etap przetwarzania – zrozumienie problemu, poszukiwanie w pamięci podobnych przypadków

2. Etap dostosowania – zmapowanie znalezionego rozwiązania do podobnego przypadku

3. Etap rewizji – testowanie i ewentualne zmodyfikowanie schematu działania

4. Etap zachowania – zapamiętanie metody dla nowych okoliczności

Drzewa decyzyjne

� Graf opisujący możliwe decyzje i ich konsekwencje, mający za zadanie umożliwienie doprowadzenia do osiągnięcia celu

� Typy: drzewa regresji (aproksymują funkcję o wartościach rzeczywistych), drzewa klasyfikacji (zmienna o dyskretnych wartościach)

Korzyści stosowania

� Proste do zrozumienia i interpretacji� Praktycznie nie wymagają przetwarzania

danych� Mogą działać na różnych typach danych� Umożliwiają szybką analizę dużych

zbiorów danych


Logika rozmyta

Logika rozmyta

� Rozszerzenie klasycznej logiki dwu- lub więcej-wartościowej do logiki o ciągłym zbiorze wartości

� Opracowana przez profesora Lotfi Zadeha w latach 60.

� Powiązana z teorią zbiorów rozmytych

� Stosowana w systemach sterowania, automatyki, do detekcji elementów obrazu, etc.

Zbiory rozmyte

� Rozszerzenie klasycznej teorii zbiorów uwzględniające możliwość częściowej przynależności do zbioru

� Funkcja przynależności przyjmować może wartości z ciągłego zbioru [0,1], a nie jedynie wartości 0 lub 1

� Wartości funkcji traktować można jako opis stopnia prawdziwości stwierdzenia, że element należy do zbioru

Zbiór rozmyty - definicjaZbiorem rozmytym na przestrzeni X(będącej klasycznym zbiorem) nazywamy zbiór uporządkowanych par:

gdzie jest funkcją przynależności do zbioru.

Funkcja przynależności

Dla funkcji przynależności zachodzi:

Zbiór rozmyty - definicje

Nośnik zbioru (support)

Rdzeń zbioru (core)

Wysokość zbioru (height)

Zbiór rozmyty - definicje

Wypukły zbiór rozmyty

Alfa-cięcie zbioru rozmytego

Logika rozmyta (fuzzy logic)

� Jest pewnym rozszerzeniem, choć nie uogólnieniem logiki wielowartościowej

� Dopuszcza ciągły zbiór wartości � Może być traktowana jako zastosowanie

teorii zbiorów rozmytych� Różni się znacząco od teorii

prawdopodobieństwa, nie jest jej uogólnieniem

Logika rozmyta

� Umożliwia opisywanie świata ze stopniowaniem, np. bardzo, trochę, wcale, etc.

� Pozwala na formalny zapis „niepewności” rozumianej jako niepełny opis sytuacji

� Rozmywaniu mogą uleć nie tylko funkcje przynależności określone na predykatach logicznych, ale i cały sposób wnioskowania

Logika rozmyta – formalnie

Funkcja przynależności przekształcająca predykaty logiczne w uporządkowany zbiór par rozmytych:

Liczba rozmyta - definicja

� Liczbą rozmytą nazwiemy wypukły i normalny zbiór rozmyty, którego rdzeń składa się dokładnie z jednego elementu (inaczej, którego funkcja przynależności przyjmuje wartość 1 dla dokładnie jednego elementu).

Przedział rozmyty

Przedziałem rozmytym nazwiemy wypukły i normalny zbiór rozmyty, którego rdzeń składa się z więcej niż jednego elementu.

Zastosowania logiki rozmytej

� ABS, kontrola trakcji� Program Massive (Lord of the Rings)� Sprzęt AGD: pralki, zmywarki, suszarki,

kuchenki� Cyfrowe przetwarzanie obrazów� Sprzęt fotograficzny� Gry komputerowe

Sposób stosowania logiki rozmytej

Zapisuje się zdania warunkowe i wynikowe, lub tworzy tablice asocjacyjne dla zdań typu:

Przykład prymitywnego wentylatora:

Operatory logiczne

� W logice rozmytej operatory logiczne AND, OR i NOT definiowane są zwykle jako minimum, maksimum i dopełnienie, a więc:

Wyostrzanie

� Proces przedstawienia wyników działania logiki rozmytej w sposób możliwy do późniejszego wykorzystania

� Zwykle wynik działania systemu rozmytego opisany jest jako przynależność do zbiorów rozmytych możliwych działań

� Rolą wyostrzania jest przetłumaczenie tego na konkretne działanie

Wyostrzanie – podstawowe metody

� Metoda maksimum:

� Metoda środka ciężkości:

� Metoda średnich wartości centrów:

Neuro – fuzzy systems

� Systemy łączące cechy wnioskowania w oparciu o logikę rozmytą z teorią sieci neuronowych

� Dwa sprzeczne postulaty: możliwość interpretacji kontra dokładność sieci

� Możliwość wykorzystania modyfikacji znanych algorytmów uczenia sieci do wygenerowania systemu rozmytego

Sieć neuronowa rozmyta

� Gaussowska funkcja przynależności:

� Funkcja wyostrzająca uśredniająca centra:

� Można uczyć alg. gradientowymi

Logika rozmyta - podsumowanie

� Pozwala zapisać problem w sposób intuicyjny, wyróżniający „odcienie szarości” między prawdą a fałszem

� Pozwala na prosty zapis (kodowanie) stopniowania obecnego w języku naturalnym

� Umożliwia tworzenie systemów hybrydowych (numeryczno –lingwistycznych)


Zbiory przybliżone

Zbiory przybliżone (rough sets)

� Formalne uogólnienie klasycznej teorii zbiorów

� Opracowane przez prof. Zdzisława Pawlaka w latach 80.

� Stanowią podstawę aproksymacji zbiorów klasycznych za pomocą przybliżenia dolnego i górnego zbioru

Zbiory przybliżone

� Znajdują zastosowanie w analizie i klasyfikacji danych (w obrębie metod eksploracji danych)

� Są rezultatem badań dotyczących reprezentacji i analizy danych

� Umożliwiają modelowanie niepewności

Zbiory przybliżone - zastosowania

� Bioinformatyka

� Ekonomia i finanse

� Medycyna i farmakologia

� Multimedia

� Web- i text- mining

� Przetwarzanie sygnałów

� Przetwarzanie obrazów

� Robotyka

� Systemy automatyki

� Systemy baz danych

System informacyjny

Systemem informacyjnym nazwiemy gdzie U jest niepustym zbiorem obiektów (uniwersum), natomiast A skończonym zbiorem atrybutów, takich, że istnieje funkcja przekształcająca uniwersum w zbiór wartości atrybutów V dla każdego elementu A.

Nierozróżnialność

Dla każdego podzbioru P należącego do Aokreślić można relację równoważności:

Obiekty x i y są nierozróżnialne ze względu na P, jeśli:

Relacja nierozróżnialności

� Obiekty rozróżnialne: obiekty są rozróżnialne ze względu na zbiór atrybutów P, wtedy i tylko wtedy, gdy nie istnieją dwa obiekty o jednakowych wartościach atrybutów

� Obiekty nierozróżnialne: obiekty są nierozróżnialne ze względu na P, wtedy i tylko wtedy, gdy istnieją co najmniej dwa obiekty o równych wartościach atrybutów

Klasy abstrakcji

� Klasy abstrakcji – rozłączne podzbiory uniwersum, wyznaczone przez relację równoważności

� Podzbiory te można odróżnić ze względu na określone atrybuty

� Obiekty nierozróżnialne należą do tej samej klasy abstrakcji

� Oznaczenie podziału na klasy abstrakcji na zbiorze atrybutów P: [x]p

Aproksymacja zbioru

� Aby opisać zbiór przybliżony należy podać jego aproksymację dolną i górną:

Aproksymacja zbioru

� Aproksymacja dolna: klasy abstrakcji, które dokładnie określają zbiór opisywanych obiektów

� Aproksymacja górna: klasy abstrakcji, które przynajmniej częściowo określają zbiór opisywanych obiektów

Brzeg zbioru

� Brzegiem zbioru nazywamy obiekty, które nie mogą być zaklasyfikowane jako należące, ani jako nienależące do zbioru. Brzeg zbioru określa się jako różnicę przybliżenia górnego i dolnego:

Aproksymacja zbioru -podsumowanie

� Aproksymacji dokonujemy podając dolne i górne oszacowanie

� Aproksymacja górna zawiera obiekty, które mogą być elementami zbioru (ale nie muszą!)

� Aproksymacja dolna zawiera obiekty, które na pewno należą do zbioru

� Aproksymacja górna może modelować niepewność

Zbiór przybliżony

Zbiorem przybliżonym nazwiemy krotkę

Zbiór przybliżony składa się z dwóch dokładnych zbiorów określających górne i dolne przybliżenie opisywanego zbioru.

Dokładność przybliżenia

� Można określić dokładność aproksymacji zbioru:

Mówi ona o ilości obiektów, które na pewno należą do X w stosunku do ilości obiektów, które mogą do niego należeć.

Definiowalność zbiorów

� Zbiór wewnętrznie definiowalny:

� Zbiór zewnętrznie definiowalny:

� Zbiór całkowicie niedefiniowalny:

Redukt zbioru

Redukt zbioru to podzbiór atrybutów taki, że:

� klasy równoważności wynikające z tego zbioru są takie same jak dla całego zbioru atrybutów

� jest minimalny w tym sensie, że usunięcie z niego jakiegokolwiek elementu skutkowałoby zmianą klas abstrakcji

Zależność atrybutówWybierzmy dwa rozłączne zbiory atrybutów

P i Q, oraz odpowiadające im klasy abstrakcji. Niech oznacza strukturę klas abstrakcji wynikającą z Q. Wtedy zależność zbioru atrybutów Q od zbioru atrybutów Pdefiniujemy jako:

Rdzeń zbioru

� Rdzeń to zestaw atrybutów wspólny dla wszystkich reduktów systemu (redukt nie musi być jeden!)

� Usunięcie rdzenia skutkuje zmianą struktury klas abstrakcji zbioru

� Czasem rdzeń jest zbiorem pustym – nie istnieje wtedy zbiór atrybutów konieczny do opisania danego systemu

� W naszym przykładzie rdzeń to zbiór {P5}

Systemy oparte na teorii zbiorów przybliżonych

� LERS, RSES� ROSETTA� PRIMEROSE

Podsumowanie – powody stosowania

� Baza dla efektywnych i wydajnych algorytmów do poszukiwania ukrytych cech charakterystycznych dla danych

� Możliwość określania minimalnych zbiorów danych (minimalizacja danych)

� Możliwość analizy znaczenia danych

� Możliwość tworzenia zbioru decyzji na podstawie wprowadzonych danych

� Proste do zrozumienia i stosowania

� Możliwość bezpośredniej interpretacji otrzymanych wyników


Kognitywistyka

Kognitywistyka (cognitive science)

� Dział nauki zajmujący się badaniem, opisywaniem i modelowaniem zjawisk dotyczących działania umysłu

� Bada naturę ludzkiej inteligencji� Łączy różne dyscypliny: psychologię,

filozofię, neurologię, lingwistykę, informatykę, socjologię, biologię, etc.

Kognitywistyka – trochę historii

� Można wywodzić ją ze starożytności – Platon i Arystoteles też zastanawiali się nad działaniem umysłu

� W latach 50. XX wieku pojawiają się pierwsze pomysły modelowania działania ludzkiego umysłu (Miller, Minsky, Simon, Papert, McCarthy)

� W połowie lat 70. wyodrębnia się nowa dziedzina wiedzy, rozpoczyna się wydawanie Cognitive Science, odbywają się konferencje, pojawiają się kierunki studiów

Główne założenie

� Do wyjaśnienia działania umysłu konieczne jest zrozumienie mechanizmów zachodzących w nim na różnych poziomach, np. poziomie najwyższym (psychologia) i najniższym (neurobiologia, biochemia), jak również powiązanie ich ze sobą (matematyka)

Klasyczne poziomy analizy

1. Teoria obliczeniowa: przygotowanie ogólnej teorii, zdefiniowanie celów

2. Reprezentacja danych i algorytm: opracowanie algorytmu umożliwiającego dla danej reprezentacji transformację wejść systemu w wyjścia

3. Fizyczna implementacja: jak może się to odbywać na poziomie najniższym

Kognitywistyka – główne obszary zainteresowań

� Sztuczna inteligencja (modelowanie inteligencji, konstruowanie nowej)

� Utrzymanie uwagi

� Przetwarzanie mowy, lingwistyka, rozwój języka

� Uczenie i rozwój, proces przyswajania wiedzy

� Pamięć – jak działa, jak ją modelować

� Percepcja i działanie – postrzeganie świata, reakcja na bodźce

Sztuczna inteligencja (AI)

� Gałąź informatyki (a może innej dyscypliny) mająca na celu stworzenie inteligentnej maszyny

� Badanie i projektowanie „inteligentnych agentów” (systemów postrzegających swoje środowisko i na tej podstawie podejmujących działania maksymalizujące ich sukces)

� John McCarthy: "the science and engineering of making intelligent machines"

Sztuczna inteligencja� Dziś dyscyplina „pokawałkowana” na wiele subdyscyplin

rozwijających się oddzielnie

� Główne problemy AI: rozumowanie (wnioskowanie), wiedza, planowanie, uczenie się, komunikowanie, percepcja, zdolność ruchu i manipulowania obiektami

� Kiedyś stworzenie sztucznego rozumu wydawało się proste:

1965, H. A. Simon: "[M]achines will be capable, withintwenty years, of doing any work a man can do"

1967, Marvin Minsky: "Within a generation ... the problem of creating 'artificial intelligence' willsubstantially be solved."

Filozofia AI� Turing’s „polite convention”: „If a machine acts as

intelligently as a human being, then it is as intelligent as a human being.”

� The Dartmouth proposal: „Every aspect of learning orany other feature of intelligence can be so preciselydescribed that a machine can be made to simulate it."

� Newell and Simon's physical symbol system hypothesis: „A physical symbol system has the necessary and sufficient means of general intelligent action."

� Gödel's incompleteness theorem: „A formal system (suchas a computer program) can not prove all truestatements. „

� Searle's strong AI hypothesis: „The appropriatelyprogrammed computer with the right inputs and outputswould thereby have a mind in exactly the same sensehuman beings have minds."

� The artificial brain argument:The brain can be simulated.

Uwaga, skupienie

� Uwaga rozumiana być może jako umiejętność odfiltrowywania zbędnych informacji i zarazem zdolność skupienia się na rozwiązywaniu jednego problemu w danej chwili

� Skupienie uwagi porównywane jest często z punktowym reflektorem

� Typowy przykład: eksperyment z wybiórczym słuchem

Lingwistyka� Umiejętność nauki, rozumienia, używania

języka jako skomplikowany proces� Główne problemy:1. Na ile wiedza językowa jest wrodzona,

na ile wyuczona?2. Dlaczego trudniej nauczyć się drugiego

języka?3. Dlaczego potrafimy zrozumieć zdanie,

którego nigdy wcześniej nie słyszeliśmy?

Lingwistyka

� Bierze pod uwagę różne poziomy: od brzmienia pojedynczych dźwięków, przez ich intonację, na znaczeniu słów i całych zdań skończywszy

� Najbardziej sensowne wydaje się znów badanie różnych poziomów i związków pomiędzy nimi

� Historycznie lingwistyka zajmowała się badaniami nad historią i rozwojem sztuki, a literatury w szczególności

� W ostatnim półwieczu badania kierują się raczej ku podejściu kognitywistycznemu: zrozumieniu mechanizmów tworzenia i używania języka

Lingwistyka - ciekawostki� Zaobserwowano, że mimo, iż posługiwanie

się językiem wymaga używania skomplikowanych reguł, użytkownicy języka często nie uświadamiają sobie ich istnienia

� Reprezentacjazdania za

pomocą drzewa

Uczenie się i rozwój

� Proces przyswajania informacji i wiedzy w miarę zdobywania doświadczenia

� Założenie, że niemowlę nie posiada wiedzy (możliwej do zdobycia) i w miarę upływu czasu uczy się i rozwija (zaczyna się poruszać, mówić, chodzić, jeść samodzielnie, etc)

� Ta część kognitywistyki zajmuje się badaniem tego, w jaki sposób odbywają się procesy uczenia się i rozwoju

Uczenie się i rozwój

� Główny problem: różnica pomiędzy rodzajami wiedzy i umiejętności nabytych i wrodzonych, udział tych rodzajów w umiejętnościach człowieka

� Innymi słowy: na ile warunkują nas geny, a na ile środowisko i wychowanie

� Problem: ile z natury języka mamy wrodzone, ile uczymy się (czy geny zawierają jakieś struktury gramatyczne, czy jedynie mechanizmy nauki)

Pamięć

� Pamięć pozwala nam przechowywać zdobyte informacje do późniejszego przetworzenia

� Najczęściej wyróżnia się pamięć długo- i krótkotrwałą

� Pamięć długotrwała pozwala zachowywać informacje na dłuższy czas (miesiące, lata), gdy krótkotrwała dotyczy najbliższej przeszłości (ostatnich sekund, minut, ewentualnie godzin)

Pamięć

� Pamięć deklaratywna: pogrupowana w podzbiory semantyczne, albo zdarzeniowe zawierające wiedzę dotyczącą faktów, zdarzeń, specyficznej wiedzy i znaczeń

� Pamięć proceduralna: dotyczy podejmowanego działania, albo sekwencji ruchów, często powiązana z wiedzą teoretyczną

Pamięć – podejście kognitywistyczne

� Rola pamięci w procesie poznawczym� Jak łączy się z innymi elementami rozumu

(inteligencji)� Np. jak wygląda proces przypominania

sobie czegoś, czym różni się rozpoznanie (w kontekście) od przypominania sobie (świadomego przywołania wspomnień), etc.

Percepcja i działanie

� Percepcja: proces pozyskiwania poprzez zmysły informacji o świecie i przetwarzania jej

� Badania dotyczą postrzegania świata za pomocą wzroku i słuchu, a także dotyku, węchu i smaku

� Działanie traktowane jest jako wyjście systemu –akcje podejmowane na podstawie postrzegania zmysłowego

� Akcja: działania motoryczne (reakcje), mowa, planowanie przestrzenne, etc.

Percepcja wzrokowa� Niektóre pytania percepcji wzrokowej:

W jaki sposób rozpoznajemy obiekty? Dlaczego postrzegamy jako ciągłe środowisko, którego tylko fragment możemy naraz oglądać?

� Kognitywistyka częstobada proces postrzeganiailuzji optycznych, np.sześcian Neckera

Metody badawcze

W kognitywistyce wykorzystuje się metody pochodzące z wielu dziedzin, w tym:

� Eksperymenty behawioralne� Obrazowanie mózgu (neuroimaging)� Modelowanie obliczeniowe� Metody neurobiologii

Eksperymenty behawioralne

� Mierzenie czasu reakcji � Mierzenie odpowiedzi psychofizycznej, np.

ocenianie podobieństwa kolorów, dźwięków, tekstury, ocenianie progów odróżniania kolorów, dźwięków, etc.

� Śledzenie ruchów gałki ocznej: na ich podstawie wyciągane są wnioski dotyczące sposobu przetwarzania informacji

Obrazowanie mózgu (mapy przestrzenno –czasowe aktywności różnych obszarów

mózgu)

� SPECT i PET – wstrzykiwanie radioaktywnych izotopów do krwi

� EEG (elektroencefalografia) – pomiary pola elektrycznego, mała dokładność przestrzenna

� fMRI – wykrywanie rezonansem magnetycznym utlenowanej krwi (średnia dokładność)

� Obrazowanie optyczne w podczerwieni – mało dokładne, lecz bezpieczne

� MEG (magnetoencefalografia) – pomiary pola magnetycznego, dokładniejsze od EEG

Modelowanie obliczeniowe

� Tworzenie modeli komputerowych pozwalających symulować różne poziomy i zjawiska procesu poznawczego

� Modelowanie symboliczne – starsze podejście, zapisanie reguł, wiedzy, różne struktury

� Modelowanie podsymboliczne – sieci neuronowe i metody pokrewne

Metody neurobiologiczne

Wykorzystanie klasycznych metod neurobiologicznych do zdobycia wiedzy dotyczącej fizycznych podstaw procesu poznawczego:

� Badanie aktywności pojedynczych neuronów

� Bezpośrednia stymulacja mózgu� Badania na zwierzętach� Badania post mortem

Osiągnięcia kognitywistyki

� Modele obciążenia poznawczego i percepcji ryzyka

� Metody ekonomii behawioralnej� Podwalimy nowoczesnej lingwistyki� Wiele metod sztucznej inteligencji (sieci

neuronowe)� Opisanie funkcji poszczególnych części mózgu� Opisanie typowych możliwości mózgu i jego

braków� Opisanie przyczyn niektórych dysfunkcji mózgu

Odporność na błędy, odporne techniki uczenia SSN

Problem – błędy w danych

• związane z procesem akwizycji, przetwarzania, wstępnej analizy

• mogą być wynikiem różnego rodzaju szumów, błędów urządzeń, błędów człowieka

• typowa zawartość grubych błędów w rzeczywistych przypadkach – kilka procent;

• zawartość w naukach opisowych (medycyna) –do 20%

• mogą być systematyczne (proste do identyfikacji), lub trudne do wykrycia i zidentyfikowania

Błędy grube:

• różnią się znacznie od większości danych• nieprawdziwe staję się założenie o

normalności rozkładu błędów• nieskuteczne stają się również tradycyjne

metody statystyczne

Dane odstające:

• dane różniące się znacznie od ogółu danych (nieścisła definicja)

• mogą być błędami grubymi lub nieść informacje na temat zjawiska

• istnieją statystyczne metody pomagające je wykrywać

Odporna statystyka (robuststatistics)

� zajmuje się sytuacjami, w których założenia tradycyjnej statystyki nie są spełnione

� bada skuteczność istniejących metod przy różnych założeniach

� proponuje nowe, lepsze (odporniejsze) metody statystyczne oraz ich aplikacje

• Pierwsze prace z dziedziny odpornej statystki datują się na połowę lat 60. ubiegłego stulecia

• Skuteczne algorytmy obliczeniowe odpornych estymatorów powstawać zaczęły w latach 80.

• Pierwsze próby zastosowania osiągnięć tej dziedziny do praktyki uczenia sieci neuronowych miały miejsce pod koniec lat 90. XX wieku

• Rozwój zarówno odpornej statystyki, jak i metod uczenia z nią związanych trwa do dziś

Odporna statystyka

Główne postulaty odpornej statystyki

• odporność metod statystycznych na dane słabej jakości, niepełne, zawierające błędy grube, etc.

• prawidłowe działanie odpornych metod dla czystych danych

Signal Plus Error Model

yi∈ R oznacza odpowiedź układu na wejście

xi∈ Rp,

g - jest pewną określoną funkcją,

θ - wektorem parametrów rozkładu,

σ - parametrem dyspersji,

ε - oznacza szum lub losowe zakłócenia.

Klasyczne podejście do modelowania danych z zakłóceniamiprzedstawia się następująco:

W dziedzinie odpornej statystyki proponuje się tzw. Gross Error Model

F = (1-εεεε) ΦΦΦΦ + εεεεG,

gdzie 0 < ε < ½, natomiast G jest nieznane. Otrzymujemy więc następującą

rodzinę funkcji:

Wybrane odporne estymatory

� RM (Siegel, 1982)� LMS, LTS (Rosseeuw, 1984)� S (Rousseuw i Yohai 1984)� MAD (Martin, Yohai, Zamar 1989)� τ-estymatory (Yohai i Zamar 1998)� W, L, R, i inne

Uczenie sieci neuronowych a błędy grube:

� metody uczenia sieci dedykowane są dla danych o gaussowskim rozkładzie błędów

� sieć ucząc się na błędnych danych modeluje nieprawidłową relację

� model tworzony przez sieć może być daleki od żądanego

� działanie tak nauczonej sieci jest nieprzewidywalne, bez względu na rodzaj danych, na których pracuje

Uczenie sieci neuronowych

� Wagi modyfikowane są w kolejnych iteracjach zwanych epokami

� Zmiana wag zapisana być może jako:

przy czym

Minimalizowana funkcja kryterialna (funkcja błędu)

� Najczęściej używa się funkcji kwadratowej:

� Ogólnie można użyć funkcji:

a więc w szczególności


� Rozwinięcie funkcji w szereg Taylora:

gradient:

n – ilość wag sieci.


� Hesjan:


� Najczęściej ograniczamy się do rozwinięcia:

i otrzymujemy krok uczenia:

Współczynnik uczenia

W najprostszej wersji współczynnik uczenia jest stały:

więc zmiana wag odbywa się zawsze proporcjonalnie do niego.

Odporne algorytmy uczenia sieci (oparte na M-estymatorach):

� RBP w zadaniu aproksymacji funkcji (Chen i Jain, 1994)

� Próby uodpornienie algorytmu uczenia dla RBF (Sanchez, 1995)

� Algorytm z kryterium Lmls (Liano, 1996)� ARBP (Chuang, 2000)� TAO (Pernia-Espinoza et al., 2005)

Odporne algorytmy uczenia sieci

� przeznaczone są do uczenia sieci jednokierunkowych (najczęściej sigmoidalnych)

� opierają się wyłącznie na modyfikacji funkcji kryterialnej minimalizowanej przez algorytm

� działają przy stosunkowo ostrych ograniczeniach i biorą pod uwagę jedynie najprostszy rodzaj zakłóceń

Odporne algorytmy uczenia sieci –postulaty:

� algorytmy powinny uczyć sieć prawidłowo dla danych czystych

� powinny uczyć sieć możliwie dobrze również w przypadku obecności w danych różnych typów dużych zakłóceń

� mechanizmy uodporniające proces uczenia powinny być wkomponowane w sam algorytm uczenia

Modele błędów w danych

� Typ 1: Zakłócenia modelowane są jako suma dwóch rozkładów normalnych o różnych wariancjach i zerowej wartości oczekiwanej (Gross Error Model).

� Typ 2: Zakłócenia modelowane są jako suma kilku rozkładów o różnych wariancjach i wartościach oczekiwanych (zakłócenia niesymetryczne).

� Typ 3: Zakłócenia symulowane są zastąpieniem połowy danych jednorodnym szumem tła.

� Typ 4: Zakłócenia typu 1 wprowadzane są do wektora wejściowego.

Błędy typu 1: Gross Error Model

Rozkład zakłóceń ma następującą postać:

Błędy typu 2: o rozkładzie niesymetrycznym

Rozkład zakłóceń jest postaci:

Błędy typu 3: brak części danych

• błędy w wektorze wejściowym generowane podobnie jak dla typu 1

Błędy typu 4: błędy w wektorze wejściowym

• połowa danych zastąpiona zostaje jednorodnym szumem tła

Celem klasycznego algorytmu uczenia jest minimalizacja funkcji kosztu (cost

function) postaci:

gdzie

ρ – funkcja błędu ciągła i symetryczna,

ri= t

i– y

i,( błąd dla obrazu uczącego i),

N – ilość obrazów uczących.

Gdy w jest modyfikowanym wektorem parametrów (wag sieci) można obliczyć

pochodną:

Wtedy funkcję definiowaną jako:

Nazywamy influence function.

W najogólniejszej postaci odpornego algorytmu uczenia funkcję kosztu definiuje

się następująco:

gdzie:

σ ( ) – funkcja strat, symetryczna, posiadająca swe jedyne minimum w zerze;

β – estymator skali, punkt odcięcia;

ei

– szacowany błąd dla i-tego obrazu uczącego;

N – ilość danych uczących.

Przy zastosowaniu algorytmu uczenia opierającego się na minimalizacji w kierunku

malejącego gradientu, aktualizacja wag odbywa się w następujący sposób:

przy czym:

η - stały współczynnik uczenia;

oraz:

Cechy tej metody uczenia

� mniejszy, niż w przypadku algorytmu klasycznego wpływ błędów grubych na rezultaty uczenia sieci

� problemy, m.in. z wyborem wag początkowych, czy też funkcji σ

� sugeruje się zastosowanie wersji klasycznej w kilku pierwszych epokach

Algorytm LTS

� Wykorzystuje funkcję kryterialną opartą na odpornym estymatorze LTS (least trimmedsquares)

� Dwa warianty algorytmu� Przeznaczony jest do stosowania przy

uczeniu skumulowanym, metodami pierwszego lub drugiego rzędu

Kryterium LTS

Nowa funkcja kryterialna przyjmuje postać:

Problem: dobór stałej trymowania h

• h dobierane na podstawie wiedzy a priori• h dobierane na podstawie aktualnych

błędów jako:

Algorytm Ltls (Least Trimmed Log Squares)

• nowa funkcja kryterialna• połączenie idei trymowania błędów z

funkcją kary• zasada działania analogiczna do Lts

Kryterium Ltls

Otrzymuje się analogiczne do Ltsfunkcję kryterialną i przyrosty wag:

Algorytm ze zmiennym współczynnikiem uczenia VLR

(variable learning rate)

• algorytm dla metod uczenia typu „on-line”

• niwelowanie wpływu błędów grubych przez zmiany współczynnika uczenia

• współczynnik uczenia modyfikowany w zależności od aktualnego błędu

Modyfikacja współczynnika dla każdego obrazu uczącego:

Odporny algorytm z adaptacyjnym doborem współczynnika uczenia

ALR (adaptive learning rate)

• algorytm dedykowany do uczenia typu skumulowanego (batch learning)

• możliwość użycia z metodami uczącymi drugiego rzędu

• współczynnik uczenia odpowiada za zmniejszanie wpływu błędów grubych

W każdym kroku algorytmu dobiera się współczynnik uczenia za pomocą minimalizacji funkcji celu po wartościach zależnego od błędu współczynnika uczenia:

Algorytm ze zmienną funkcją aktywacji neuronów ATF (adaptive

transfer function)

• kształt funkcji aktywacji neuronów jest zmienny w czasie

• jego zmiany odpowiadają za zmniejszanie wpływu błędów grubych na proces uczenia

• przeznaczony do uczenia skumulowanego również z algorytmami drugiego rzędu

Parametr funkcji aktywacji neuronów zmienia się w zależności od postępów procesu uczenia

Algorytm z ważoną funkcją celu Wlmls

• informacja o danych uczących odbiegających od większości przekazywana jest do algorytmu uczenia poprzez wprowadzenie ważonej funkcji celu

• wagi zmniejszają wpływ danych uznanych za błędy grube

• stosowanie z algorytmami typu „batch”

Nowe rozwiązania

� Least Median of Squares (El-Melegy, M.T., Essai, M.H., Ali, A.A.) 2009

� RANSAC (El-Melegy) in press

� LTA

Podejście ewolucyjne – algorytmy genetyczne

Podejście ewolucyjne

� Podejście obliczeniowe oparte na przeglądaniu populacji rozwiązań

� Inspirowane regułami ewolucji biologicznej (doboru naturalnego)

� Wykorzystuje znane z biologii mechanizmy: rozmnażanie, rekombinacje, mutacje, dobór osobników najlepiej przystosowanych

Podejście ewolucyjne

� Spojrzenie na problem: potencjalne rozwiązania jako osobniki w populacji, funkcja dopasowania jako opis warunków środowiskowych, funkcja celu (czasem tożsama) jako opis celu nadrzędnego procesu ewolucji

� Osobnik dobrze dopasowany do warunków – dobre rozwiązanie

Techniki ewolucyjne

� Programowanie genetyczne – poszukiwania programów komputerowych, które w najlepszy sposób nadają się do rozwiązania konkretnych problemów

� Programowanie ewolucyjne – poszukiwania odpowiednich parametrów w algorytmach (programach)

� Neuroewolucja – poszukiwania właściwej do danych zastosowań struktury sztucznej sieci neuronowej

� Strategie ewolucyjne – strategie ze zmiennoprzecinkową reprezentacją danych, zwykle z adaptacyjnym doborem czynnika mutacji

� Algorytmy genetyczne – o tym będzie więcej

Algorytmy genetyczne

� Rodzina algorytmów przeszukiwania przestrzeni rozwiązań w problemie optymalizacyjnym oparta na mechanizmie ewolucyjnym

� Globalne algorytmy heurystyczne umożliwiające przybliżanie się do optimum globalnego (znalezienie rozwiązania przybliżonego lub dokładnego)

Historia� 1954 – N. Barricelli przeprowadza pierwsze

symulacje komputerowe procesu ewolucyjnego� 1957 – A. Fraser (genetyk): sztuczna selekcja

organizmów� Lata 60. – publikacje łączące problemy

optymalizacyjne z mechanizmami ewolucyjnymi� Lata 70. – J. Holland: podstawy algorytmów

genetycznych w Adaptation in Natural and Artificial Systems

� Lata 80. – coraz więcej technik symulacji� Lata 90. – komercyjnie dostępne

oprogramowanie, etc. i tak aż do dziś…

Algorytmy genetyczne - podstawy

� Populacja reprezentowana w dziedzinie poszukiwań za pomocą abstrakcyjnych tworów (zestaw chromosomów, genotyp, genom) określających niezbędny zestaw informacji

� Rozwiązania reprezentowane jako osobniki (fenotypy) w populacji

� Fenotyp osobnika (a więc również dopasowanie do środowiska) zależy od zestawu genów

Zarys algorytmu

� Wylosowanie populacji początkowej o zadanym rozmiarze

� Ocena przystosowania każdego z osobników

� Wybór osobników najlepiej przystosowanych

� Rozmnażanie wybranych osobników (rekombinacje, mutacje, etc.)

� Wygenerowanie kolejnego pokolenia – nowej populacji

� Jeśli nie jest to dobre rozwiązania, ponowne wykonanie kolejnych kroków algorytmu

Algorytm wymaga więc:

� Zdeterminowania sposobu kodowania genotypu jako reprezentacji wyniku (zwykle kodowanie binarne, możliwe też inne)

� Doboru odpowiedniego sposobu obliczania funkcji dopasowania, a więc obliczania wartości rozwiązania (funkcja ta wskazywać ma na jakość rozwiązania)

Kodowanie informacji genetycznej

� Od jego postaci zależy nie tylko szybkość osiągania rozwiązania, ale i to, które obszary przestrzeni rozwiązań zostaną przeszukane

� Zwykle kodowanie genomu w postaci ciągu bitów, możliwe też wersje z danym zmiennoprzecinkowymi (trudniejsze w implementacji)

� Możliwe również kodowanie za pomocą struktur drzewiastych i grafów

Funkcja przystosowania (dostosowania, fitness function)

� Określa jakość uzyskanego rozwiązania (inaczej przystosowania osobnika do warunków środowiska)

� Zwykle zależy od funkcji celu w problemie optymalizacyjnym

� Może być budowana na podstawie odległości od pożądanego (zadanego) celu

Metody selekcji – wyboru osobników najlepiej przystosowanych

� Chcemy, aby generowane w następnym kroku algorytmu (następnej populacji) rozwiązania miały cechy najlepszych rozwiązań z kroku aktualnego

� Problem sprowadza się więc do wyboru osobników, które będą miały możliwość przekazania swoich genów dalej

Metody selekcji

� Najprostszy sposób – obliczenie funkcji przystosowania dla wszystkich osobników w populacji i następnie wybór grupy o najlepszych (najmniejszych lub największych) wartościach

� W praktyce często ocena przystosowania wszystkich osobników jest technicznie niewykonalna (rozwiązanie: losowanie)

Metody selekcji

� Zwykle oprócz pozostawienia grupy osobników najlepiej przystosowanych pozwala się przetrwać pewnej ilości osobników słabszych

� Zapobiega to szybkiej zbieżności do optimów lokalnych – zwiększa różnorodność populacji pozwalając na przeszukiwania większych obszarów

Metody selekcji

� Często stosowana jest tzw. metoda ruletki (roulette-wheel selection)

� Osobniki najlepiej przystosowane dysponują największym wycinkiem koła

� Potem „kręci się” kołem i wybiera tego, który zostanie wylosowany

� Procedura powtarzana jest zadaną ilość razy (tyle, ile osobników potrzebujemy)

Metoda ruletki – algorytm

� Policz wartości funkcji przystosowania dla każdego osobnika i znormalizuj je (aby sumowały się do 1)

� Posortuj populację wg otrzymanych wartości

� Policz wartości skumulowane dla każdego osobnika

� Wylosuj osobnika do wyboru (pierwszy, którego wartość skumulowana przekroczy losową liczbę z przedziału [0,1])

Metody selekcji – inne rozwiązania

� Uniwersalne próbkowanie – za każdym razem losujemy więcej niż jednego osobnika

� Turniej – za każdym razem wybieramy najlepszego osobnika z losowej próby

� Można również zawężać wybór do pewnej liczby lub procentu najlepszych

� Czasem pozwala się grupie najlepiej przystosowanych osobników powielić się bez zmian w następnym pokoleniu

Metody selekcji

� Można również stosować wybór wielokryterialny – oceniać przystosowanie osobników za pomocą różnych funkcji

� Podsumowując: osobniki lepiej przystosowane mają większe szanse na rozmnażanie – przekazanie genów dalej

� Zbieżność jest tu równoznaczna z praktycznym brakiem różnić pomiędzy pokoleniami

Przeszukiwanie przestrzeni cech -rozmnażanie

� W tworzeniu nowego pokolenia uczestniczą osobniki wybrane odpowiednią metodą selekcji

� Genotypy potomków uzyskiwane są zwykle na podstawie odpowiedniego przetworzenia genotypów rodziców

� W procesie powstawania nowego zestawu genów uczestniczyć może 2 lub więcej rodziców

Rozmnażanie – typowe operacje

� Krzyżowanie – utworzenie nowego genomu na podstawie np. dwóch innych przez wymianę fragmentów genomu (crossover), stosowanie sumy i przekroju bitowego, uśrednianie

� Mutacja – wprowadzenie pewnych losowych zmian w chromosomach, np. zamiana miejscami, wygenerowanie nowych wartości z zadanego rozkładu (mutacja zachodzi z niewielkim prawdopodobieństwem)

Kryteria stopu algorytmu

� Algorytm kończyć można podobnie jak inne algorytmy optymalizacyjne, a więc wtedy, gdy:

- znajdujemy wystarczająco dobre rozwiązanie,

- przekroczymy zadaną maksymalną liczbę pokoleń,

- zatrzymał się postęp procesu optymalizacji (nowe rozwiązania niewiele poprawiają),

- przekroczone zostały dopuszczalne zasoby

Zastosowania algorytmów genetycznych

� Informatyka� Inżynieria (projektowanie)� Chemia � Ekonomia� Bioinformatyka� Filogenetyka� Fizyka

Zastosowania – konkretniej

� Rozwiązywanie problemów NP-trudnych, np. problem komiwojażera, problem plecakowy

� Projektowanie anten, ich ułożenia� Projektowanie obwodów elektrycznych� Projektowanie układów scalonych

Neuroewolucja• Za pomocą algorytmów ewolucyjnych

dobiera się parametry sieci neuronowych• Dobierać można wagi sieci (typowe

parametry) lub całą topologię (architekturę) sieci

• W najprostszym przypadku topologię dobiera się na podstawie zmniejszania lub zwiększania liczby neuronów

Neuroewolucja• Schemat postępowania – genotyp musi

zawierać informacje o strukturze (lub jedynie wagach sieci)

• Fenotyp to sieć neuronowa mająca wykonywać określone zadanie

• Genotyp może zostać zakodowany bezpośrednio lub w postaci reguł umożliwiających wygenerowanie sieci

NEAT (Neuroevolution of augmenting

topologies, Stanley 2002)• Najpopularniejszy algorytm

neuroewolucyjny• Budowanie struktury i parametrów sieci

wielowarstwowej jednokierunkowej• Sieć początkowa posiada jedynie wejścia i

wyjścia• Kolejne pokolenia są coraz bardziej

rozwinięte• Dopuszcza się krzyżowanie topologii, oraz

ewolucję gatunków

Podsumowanie – podejścia ewolucyjne

� Proste w implementacji i stosowaniu� Zaskakująco skuteczne w szybkim

generowaniu dobrych rozwiązań� Gorsze w szczegółowym „dostrajaniu”

rozwiązania� Wymagają ustalenia wielu wstępnych

parametrów� „Ciężkie” obliczeniowo