Концепция скрытых (латентных) переменных в химическом...

Preview:

DESCRIPTION

Концепция скрытых (латентных) переменных в химическом анализе. Часть 2. Количественный анализ. Родионова Оксана Евгеньевна rcs@chph.ras.ru Институт химической физики РАН, Российское хемометрическое общество. ?. Модель Y(X). Модель Y(X). +. Качественный анализ Задачи - PowerPoint PPT Presentation

Citation preview

1

Концепция скрытых (латентных) Концепция скрытых (латентных) переменных в химическом переменных в химическом

анализе.анализе.

Часть 2. Количественный анализ Часть 2. Количественный анализРодионова Оксана Евгеньевна

rcs@chph.ras.ru

Институт химической физики РАН,Российское хемометрическое общество

2

Два класса решаемых задачДва класса решаемых задачX11 X12 … X1p X21 X22 … . . .

. . .

X

. . .

. . .

… … … Xn1 Xnp

Качественный анализ

Задачи

1. Анализ структуры, поиск латентных переменных

2. Классификация и дискриминация

МодельY(X)

??Y11 … Y1k

Y21 …

Y. . .. . .. . .

… …Yn1 Ynk

XN1 XN2 ... XNpМодель

Y(X)+

Y = XA + Eлинейная регрессионная модель

3

Y11 … Y1k

Y21 …

Y. . .. . .. . .

… …Yn1 Ynk

X11 X12 … X1p X21 X22 … . . .

. . .

X

. . .

. . .

… … … Xn1 Xnp

Экспериментальные данныеЭкспериментальные данные

предикторы

( независимые переменные )

отклики

( зависимые переменные )

p -количество переменных (факторов)

n –количество образцов (наблюдений)

4

Y11 … Y1k

Y21 …

Y. . .. . .. . .

… …Yn1 Ynk

X11 X12 … X1p X21 X22 … . . .

. . .

X

. . .

. . .

… … … Xn1 Xnp

Экспериментальные данныеЭкспериментальные данные

Обучающий набор

Проверочный набор

5

Модельный примерМодельный пример

A 0.9 0.8 0.7 0.6 0.5 0.4 0.2 0.3 0.1B 0.9 0.4 0.3 1 0.5 0.2 0.6 0.7 0.8

Обучающий набор

AB

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

Чистые спектры при CA=CB=1

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

3

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

3

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

3

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

9

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

9

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

9

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

6

Модельный примерМодельный пример

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

A 0.6 0.8 0.3 0.4 1.5B 0.7 0.5 0.3 0.8 0.2

Проверочный набор

A 0.9 0.8 0.7 0.6 0.5 0.4 0.2 0.3 0.1B 0.9 0.4 0.3 1 0.5 0.2 0.6 0.7 0.8

Обучающий набор

AB

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

yiA xi

i=1,..,9??

7

Метод наименьших квадратовМетод наименьших квадратов(простейший случай)

X

Y

X

Y

X

Y

Карл Ф. Гаусс - 1795

8

Одномерная градуировкаОдномерная градуировка

y=xa+

R2C=0.796 R2

C=0.469

A

0.0

0.3

0.6

0.9

1.2

1.5

0.0 0.4 0.8 1.2 1.6интенсивность

конц

ентр

ация

R2P=0.778

A

0.0

0.3

0.6

0.9

1.2

1.5

0.0 0.4 0.8 1.2 1.6интенсивность

конц

ентр

ация

B

0.0

0.3

0.6

0.9

0.0 0.4 0.8 1.2 1.6интенсивность

конц

ентр

ация

R2P=0.012

B

0.0

0.3

0.6

0.9

0.0 0.4 0.8 1.2 1.6интенсивность

конц

ентр

ация

9

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

Одномерная регрессия

n=9, p=1

Множественная регрессия

n=9, p=8

11

Оценка качества моделиОценка качества модели

Среднеквадратичный остаток градуировки

Среднеквадратичный остаток проверки

12

Множественная регрессияМножественная регрессия

0.0

0.3

0.6

0.9

1.2

1.5

0.0 0.3 0.6 0.9 1.2 1.5измерено

пред

сказ

ано

A

RMSEC=0 RMSEC=0

RMSEP=0.35

0.0

0.3

0.6

0.9

1.2

1.5

0.0 0.3 0.6 0.9 1.2 1.5измерено

пред

сказ

ано

A

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0измерено

пред

сказ

ано

B

RMSEP=0.23

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0измерено

пред

сказ

ано

B

13

Представление данных в Представление данных в подпространствеподпространстве

14

Модельный пример (РГК шаг 1)Модельный пример (РГК шаг 1)

0.0

0.4

0.8

1.2

1.6

0 25 50 75 100канал

инте

нсив

ност

ь

A

B

ГК1 ГК2

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

0 25 50 75 100

канал

инте

нсив

ност

ь

X=TPt + E nPC=2

15

Модельный пример (РГК шаг 2)Модельный пример (РГК шаг 2)

0.0

0.3

0.6

0.9

1.2

1.5

0.0 0.3 0.6 0.9 1.2 1.5измерено

пред

сказ

ано

A

RMSEC=0.077 (0) RMSEC=0.051 (0)

RMSEP=0.054 (0.35)

0.0

0.3

0.6

0.9

1.2

1.5

0.0 0.3 0.6 0.9 1.2 1.5измерено

пред

сказ

ано

A

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0измерено

пред

сказ

ано

B

RMSEP=0.036 (0.23)

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0измерено

пред

сказ

ано

B

16

Три регрессионных методаТри регрессионных метода

X1

X2

X3

X4

Y

Множественная регрессия

X1

X2

X3

X4

Yt1

t2

Регрессия на главные компоненты (РГК)

X1

X2

X3

X4

Yt1

t2

ПЛС - регрессия

17

Проекция на латентные структуры Проекция на латентные структуры (ПЛС)(ПЛС)

( Herman Wold, 1973 & Agnar Höskuldsson, 1988 )

X=TPt + E Y=UQt + F

t=Xw max|YtXw|2 при условии |w|=1 XtYYtXw = w

X YT

W

P

Q

U

18

Модельный пример (ПЛС)Модельный пример (ПЛС)

A

B

ГК1 ГК2

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

0 25 50 75 100

канал

инте

нсив

ност

ь

РГК A

B

ГК1

ГК2-0.2

0.0

0.2

0.4

0.6

0.8

1.0

0 25 50 75 100

канал

инте

нсив

ност

ь

ПЛС 2

19

Определение качества бензина по ИК-Определение качества бензина по ИК-спектру в ближней областиспектру в ближней области

Исходные данные

Обучающий набор = 26 образца

Проверочный набор = 13 образцов

Количество переменных (длин волн) = 226 (1100 – 1550 nm)

20

RMSEC

RMSEPRMSECV

0.000

0.200

0.400

0.600

0.800

1 2 3 4 5

Выбор числа главных компонентВыбор числа главных компонент

Xcal YcalXcal YcalXcal Ycal ……Xcal Ycal«Тесто-

вый набор»

ГК RMSEC RMSECV RMSEP1 0.810 0.885 0.9392 0.280 0.326 0.2433 0.205 0.292 0.2554 0.169 0.261 0.2815 0.162 0.261 0.288

21

Предварительная обработка данныхПредварительная обработка данных

22

СвалкаСвалка

Глубина (Depth)

Зольность (Ash)

Влажность (Humidity)

Об. вес (Weight)

to летом (Summer T)

to зимой (Winter T)

Измеряемые

ОцениваемыеЛинза (Lens = ± 1 )

Основа (Base = ± 1)

Отклик

Стабильность Mi=1–exp(-mTi)

23

Обработка экспериментальных данныхОбработка экспериментальных данных

-4

4

-4 4

ГК1

ГК2

1

35

9

11

13

0

0.4

0.8

1.2

0 0.4 0.8 1.2

Measured MaturityP

redi

cted

Mat

urity

линзы основа

График счетов Качество градуировки

24

25

FSFS

FS

FS

FS

FSFS

FS

FN

FN

FN

FN

FN

FN

FN

FN

MS

MS

MS

MS

MSMS

MSMS

MN

MNMN

MN

MN

MN

MNMN

-200

-150

-100

-50

0

50

100

150

200

-20000 -10000 0 10000 20000

ГК1

ГК2

РостВес ВолосыОбувь

ВозрастДоход

Пиво

Вино

ПолСилаРегион

IQ

-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2

ГК1

ГК2 a)

FSFS

FS

FS

FS

FS

FS

FS

FN

FN

FNFN

FN

FN

FN

FN

MS

MSMS

MS

MSMS

MSMS

MNMN

MNMN

MN

MN

MNMN

-2

0

2

4

-4 -2 0 2 4 6

ГК1

ГК2

IQ

Регион

Сила

Пол

Вино

ПивоДоход

Возраст

Обувь

Волосы

Вес

Рост

-0.4

-0.3

-0.2

-0.1

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

-0.4 -0.2 0.0 0.2 0.4 0.6

ГК1

ГК2 a)График счетов График нагрузок

26

Определение следовых Определение следовых концентраций нефти в водеконцентраций нефти в воде

Общее число образцов N =80 Число переменных P =1024

X (801024)

Y : 0, 2.5, 5, 10, 20, 50, 100, 300 ppm.

40 обучающих образцов

40 проверочных образцов

-110

-100

-90

-80

-70

-60

-50

-40

-30

-200 200 400 600 800 1000

Hz

dBVm

s

2.5 ppm 100 ppm

27

Нелинейность в ПЛС моделиНелинейность в ПЛС модели

-1

0

1

2

3

-40 10 60

T1

U1

-2

-1

0

1

2

-40 10 60

T1

U1

y = log (1+yraw)

X=TPt + E Y=UQt + F

T это X-счета U это Y-счета

Ti – Ui

показывают связь

X-Y

28

Моделирование и прогнозМоделирование и прогноз

0

0.5

1

1.5

2

2.5

3

0 0.5 1 1.5 2 2.5 3

Измерено, (log(1+конц.))

Пре

дска

зано

,(lo

g(1+

конц

.))

ГрадуировкаПрогноз

y=0.995x+0.006

R2=0.996

29

0

0.5

1

1.5

2

2.5

T3 T5 T6 T7 T10 T11 T12 T26 T29 T35 T39 T40

ПЛС прогнозПЛС прогноз

Кол-в ГК RMSEC RMSEP

ПЛС 2 0.051 0.092РГК 4 0.061 0.091

В исходных единицахy : 0300 ppmRMSEC=0.12RMSEP=0.24

30

X

JI

2D

1

1

0D

x

I1

1D

x

3DJ

XI

K

Многомерные и многомодальные Многомерные и многомодальные данныеданные

31

N-wayN-way данные данныеВЭЖХ-ДДМ Люминесцентный анализ

... ...

Гиперспектральный анализ

32

ТНО

02

25 О

браз

цов

3 AO Концентрации 3 AO Концентрации

25 О

браз

цов ИП

02

25 О

браз

цов

3 AO Концентрации

Т О

3 AO Концентрации

25 О

браз

цов И ПНТНО

(X значения)25 О

браз

цов

3 AO Концентрации

5 Ск-й нагрева 5 Ск-й нагрева 5 Ск-й нагрева

3 AO Концентрации

25 О

браз

цов И П

Определение активности Определение активности антиоксидантовантиоксидантов

Метод развертки (unfolding)

33

N-way N-way методыметоды

Ea1

b1

c1

aR

bR

cR

= ++...+J

XI

K

P

= +

GBJ

Q

CK

R

I

A

J

XI

K

E

PARAFAC

Tucker3

34

SIMCA-PUmetrics

Программное обеспечениеПрограммное обеспечение

UscramblerCAMO

MVA for ExcelBristol University

PLS-ToolboxEigenvector

Matlabchemometrics.ru

35

Специальные журналы по Специальные журналы по хемометрикехемометрике

36

Winter Symposiums on ChemometricsWinter Symposiums on ChemometricsКострома 2002 Белокуриха 2003

Пуш. Горы 2004 Черноголовка 2005

Самара 2006

37

Шестой симпозиум по хемометрикеШестой симпозиум по хемометрике

Школа: 16-17 февраля 2008Конференция: 18-22 февраля 2008 Казань

38

www.chemometrics.ruwww.chemometrics.ru

Recommended