Что такое хемометрика и нужна ли она лично Вам?

Preview:

DESCRIPTION

Что такое хемометрика и нужна ли она лично Вам?. Родионова Оксана Евгеньевна, Институт химической физики РАН. Содержание. Введение БИК-спектроскопия и калибровка Сенсоры и хемометрика Формальные и содержательные модели Многомерный статистический контроль процессов Многие приложения - PowerPoint PPT Presentation

Citation preview

Что такое хемометрика и нужна ли Что такое хемометрика и нужна ли она лично Вам?она лично Вам?

Родионова Оксана Евгеньевна, Институт химической физики РАН.

СодержаниеСодержание

1. Введение

2. БИК-спектроскопия и калибровка

3. Сенсоры и хемометрика

4. Формальные и содержательные модели

5. Многомерный статистический контроль процессов

6. Многие приложения

7. Заключение

Хемометрика - это научная дисциплина, находящаяся на стыке химии и математики, предметом которой являются математические методы исследования химических данных

сайт Российского хемометрического общества

ХемометрикаХемометрика: : два определениядва определенияДедуктивное

Хемометрика – это то, что делают хемометрики. сайт Международного хемометрического общества

Хемометрики – это такие люди, которые все время пьют пиво и воруют идеи у математиков

Svante Wold

Индуктивное

Что делают хемометрики?Что делают хемометрики?

• исследуют причины разрушения документов, написанных старинными гальскими чернилами

• расшифровывают состав косметики Древнего Египта;

• определяют происхождение пигментов, использованных старыми живописцами.

• локализуют месторождение золота в Швеции;

• определяют состояние лесов в Канаде по снимкам из космоса;

• исследуют органические субстанции в кометном веществе

• проводят допинг контроль спортсменов;• проводят диагностику артрита и рака на ранних стадиях;

• контролируют производство аспирина, полупроводников, пива, водки, бумаги полиэтилена, бензина, булочек …

• находят следы кокаина на банкнотах, собранных в Британском парламенте;

• выявляют фальшивые лекарства;

Так что же делает хемометрика? Так что же делает хемометрика?

• Хемометрика имеет дело с даннымиданными (зачас-тую с очень большими), поэтому хемометрика - это подраздел информатики (Data mining)

• Данные, которые исследует хемометрика по большей части происходят из химиихимии, поэтому хемометрика - это подраздел химии (Analytical chemistry)

• Методы, которые использует хемометрика ориентированы на формальноеформальное моделирование (Soft modeling)

Почему «хемо-» ?Почему «хемо-» ?

• Хемометрика родилась из задачи анализа хими-

ческих спектровспектров

• Спектроскопия – один из наилучший метод

получения информации по ходу процесса (on-on-

lineline) в режиме реального времени: быстро и без

влияния на процесс

• «Хемо» подчеркивает практическуюпрактическую, а не ста-

тистическую значимость применяемых методов

Почему «-метрика» ?Почему «-метрика» ?

• Хемометрические методы легко и плодотворно

переносятсяпереносятся в другие области, например, в пси-

хологию, биологию, геологию, и т. д.

• Хемометрика активно эксплуатирует математикуматематику

статистику, линейную алгебру.

-------------------------------------------------------------------

‘It is easier to teach a chemist statistics that to teach

chemistry to a statistician.’ (Svante Wold)

Когда появилась? Когда появилась?

«Каждая попытка применить математические методы для исследования химических проблем должна рассматриваться как абсолютно абсурдная и противоречащая самому духу химии.

Если математический анализ, когда-либо займет сколько-нибудь значительное место в химии – извращение, которое по счастью почти невероятно – это повлечет за собой повсеместно быстрое вырождение этой науки». Огюст Конт, 1825

СШАСША,, Сиэтле, 1974 год Сиэтле, 1974 год

Брюс Ковальски Брюс Ковальски (B. Kowalski)(B. Kowalski)

Сванте Волд Сванте Волд (S. Wold)(S. Wold)

Почему появилась?Почему появилась?

Математические методы

Много переменных и много измеренийМного переменных и много измеренийОдно измерение – спектр (600 точек) Один цикл – 800 спектров (времен)

ю . . .

Один массив данных – 200 образцов (циклов)

Основные принципыОсновные принципы

1.1. Использование многомерного подхода при конструировании экспериментов и анализе их результатов.

2.2. Что считать шумом, а что – информацией, всегда решается с учетом поставленных целей и методов, используемых для ее достижения.

3.3. Понятие эффективного (химического) ранга и скрытых, латентных переменных, число которых равно этому рангу.

Основная задача хемометрикиОсновная задача хемометрикиЗаменить прямые измерения, которые либо –

невозможны

дороги

длительны

на косвенные измерения, которые –

доступны

дешевы

быстры

с последующей их обработкой (калибровкой).

Определение качества бензина Определение качества бензина по БИК-спектрупо БИК-спектру

0

0.2

0.4

0.6

1100 1200 1300 1400 1500 1600

86

88

90

92

86 87 88 89 90 91 92

S S

S

S

S

S

S

S

S

S

S

SS

Elements:Slope:Offset:Correlation:RMSEP:SEP:Bias:

131.010279

-0.9184750.9876800.2338970.2433050.008032

Measured Y

Predicted Y

-0.3

0

0.3

0.6

-0.2 0 0.2 0.4 0.6 0.8

MM

M

L

HH

L

LL

H

M

H

L

HH

LL

H

L

H

L

H

H

L

M HPC1

PC2 Scores

Определение качества зерна Определение качества зерна по по БИК-спектруБИК-спектру

NIR analyzers standardization

Pavel A. Luzanov,

Lumex ltd.,

St. Petersburg, Russia

Сенсоры и хемометрика.Сенсоры и хемометрика.Электронные язык и носЭлектронные язык и нос

по материалам Алисы Рудницкой, Россия

analysedsolution

multiplexor

computer

measuring device

referenceelectrode

sensor array

V

Схема электронного языкаСхема электронного языка

Реальный видРеальный вид

-6 -4 -2 0 2 4 6 8 10 12 14

-3

-2

-1

0

1

2

3

4

5bittersweetsalty

Roo

t2 (

8%)

Root1 (92%)

Корреляция «человек-сенсор»Корреляция «человек-сенсор»

Подробнее о языке Подробнее о языке

Analysis of port wines using the electronic tongue. Assessment of port wine age and comparison with chemical analysis data

Alisa Rudnitskaya

Sr. Petersburg University, Russia

И еще о сенсорахИ еще о сенсорах

The classification of aqueous solutions with the use of voltammetric system of divided cells and principal component analysis

Artem Sidelnikov, Bashkir State University, Ufa, Russia

Формальные и содержательные моделиФормальные и содержательные моделиСодержательные

“Hard” modelsФормальные“Soft” models

Откуда Физика, химия, …. Из данных

Формула y=f (x,a)+  y=Xa+

Параметры Имеют физ. смысл Физически бессмысленны

Проблемы Построить модель Обработать данные

Назначение Экстраполяция Интерполяция

Пример Хим. кинетика ANOVA

Оценка активностиОценка активностиантиоксидантов методом ДСКантиоксидантов методом ДСК

Hard and soft modeling. A case study

Alexey Pomerantsev

Institute of Chemical Physics,

Moscow, Russia

Многомерный статистический Многомерный статистический контрольконтроль процессов процессов (MSPC)(MSPC)

• Цель: Научиться у самих себя принимать оптимальные решения в различных ситуациях.

• Средства: Сбор истории работы процесса, а также анализ накопленных данных.

• Результат: Снижении затрат при стабилизации качества.

MSPC – это математический анализ реальных истори-ческих данных, характеризующих опыт работы

MSPC – это один из методов анализа процессов (PAT)

Одномерная область контроля

Контроль с помощью Контроль с помощью SPCSPC

X1

X2

t

t

t

t

t

t

t

t

t

t

t

t

t

t

X2X1

Многомерная область контроля

Контроль с помощью Контроль с помощью MSPCMSPC

Ошибка моделирования(расстояние до модели)

Мера Т2 Хотеллинга(расстояние внутри модели)

X2X1

X3

Зачем в Зачем в MSPC MSPC нужна хемометрика? нужна хемометрика?

Потому, что все больше данных о процессах

получают с помощью современных, эффективных

приборов Макропеременные (температура, pH, давление, ... )

Спектроскопия (УФ, ИК, БИК, ...)

Хроматография (ЖХ, ГХ, ...)

Гибридные методы (ЖХ/МС, ЖХ/ЯМР, ...)

Видео образы и гиперспектры (2D, 3D)

Диагностика отказовДиагностика отказов

Real time diagnostics of technological processes and field equipment

Rusinov L.A, St. Petersburg Technological University, Russia

PAT & FDAPAT & FDA

Process Analytical Technology (PAT) =Технология (методы) анализа процессов

PAT = Статистический контроль процессов (MSPC) +

Хемометрика (Chemometrics)

FDA = U.S. Department of Health and Human Services Food and Drug Administration

Guidance for Industry PAT — A Framework for Innovative Pharmaceutical Development, Manufacturing, and Quality Assurance

Pharmaceutical CGMPs, September 2004

Контроль и оптимизацияКонтроль и оптимизация

Analytical Process Control and Optimization

Oxana Rodionova Institute of Chemical Physics, Moscow, Russia

Периодические (Периодические (batch) batch) процессыпроцессыПериодические процессы применяются при производ-стве лекарств, полимеров, пищевых продуктов, и т. п. Они характеризуются –

Конечной продолжительностью Кинетикой протекания Изменчивостью, как внутри, так и между циклами Частой сменой производимых продуктов

В непрерывных процессах важны только взаимоотно-шения между переменными, тогда как в периодических важно знать как переменные меняются во временименяются во времени. Поэтому здесь особенно важен контроль в реальном времени.

Сравнение двух типов процессовСравнение двух типов процессов

Непрерывный процесс Периодический процесс

t

X

t

X

batch 1 batch 2 batch 3

$t1 $t2 $t3

Концентрации

B

CA

0

0.2

0.4

0.6

0.8

1

0 2 4 6 8 10time

con

cen

trat

ion

s

Контроль в фармацевтикеКонтроль в фармацевтике

Макропараметры: температура, давление

t

t

Модель

Реакция идет при T= – 50оС

MSPC MSPC в фармацевтикев фармацевтикеРеактор

Спектры

Обратная связь

t

t

t

t

Макро

История процесса

MSPC Контроль

Текущий циклt

Проекционная модель

Рентгеновская кристаллография Рентгеновская кристаллография белковбелков

Two examples of chemometrics application in protein crystallography

Andrey Bogomolov,

European Molecular Biology Laboratory (EMBL), Hamburg, Germany

Многомерный анализ изображений Многомерный анализ изображений ((MIA)MIA)

по материалам Paul Geladi, Sweeden

Разложение изображения по каналамРазложение изображения по каналам

Red channel Blue channel

Green channel

Оцифровка изображенияОцифровка изображения

Применение МГК для анализаПрименение МГК для анализа

X PCA

Образ ГК1

Образ ГК2

Он же в пространстве ГК1 Исходный аэроснимок

Исследование состояния лесов (Канада)Исследование состояния лесов (Канада)

Область с высоким коэффициентом отражения

Область в тениНовые посадкиСтарые деревья

Анализ изображений и медицинаАнализ изображений и медицина

Using black and white models for classification of medical images

Sergei Kucheryavski, Altai State University, Barnaul, Russia

Хемометрика и экспертизаХемометрика и экспертиза

по материалам Оксаны Родионовой, Россия и Lars P. Houmøller, Denmark

Фальшивые таблеткиФальшивые таблетки

ИК Спектры таблетокИК Спектры таблеток

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

3800 4800 5800 6800 7800 8800 9800

cm-1

N1 N1Cut

N2 N2Cut

N2

N1

Прибор Bomem MB160 в диапазоне 3800 – 10000 cm-1 (ближний ИК спектр); 1609 значений.

N1 - таблетки от производителя –10 штук; N1Cut – образец N1 разрезанный

N2 - таблетки фальсифицированные – 10 штук; N2Cut – образец N2 разрезанный

PCA PCA полного спектраполного спектра

-0.2

-0.1

0.0

0.1

0.2

0.3

-0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6

PC1

PC2N1 N1Cut

N2 N2Cut

True

Fake

Отдельные участки спектраОтдельные участки спектра

0

0.04

0.08

0.12

0.16

0.2

5800 6000 6200 6400 6600 6800

cm-1

N1 N1Cut

N2 N2Cut

-0.15

-0.13

-0.11

-0.09

-0.07

-0.05

-0.03

-0.01

7000 7100 7200 7300 7400cm-1

N1 N1Cut

N2 N2Cut

Анализ «наихудшего» участка спектраАнализ «наихудшего» участка спектра

-0.04

-0.02

0.00

0.02

0.04

0.06

0.08

-0.10 -0.05 0.00 0.05 0.10

PC1

PC2 N1 N1Cut

N2 N2Cut

0.40

0.45

0.50

0.55

0.60

0.65

0.70

3800 3900 4000 4100 4200 4300

cm-1

N2

N1True

Fake

SIMCA SIMCA

0.000

0.005

0.010

0.015

0.020

0 10 20 30 40 50 60 70

Leverage, h

Dis

tan

ce to

mo

de

l, s

i

N2

N1Cut

0.000

0.001

0.002

0.003

0.004

0.005

0 20 40 60 80 100

Leverage, h

Dis

tan

ce to

mo

de

l, s

i

N2

N1Cut

Полный спектр (1609 точек) Участок спектра (130 точек)

Гипреспектры таблетокГипреспектры таблеток

Spectral Dimensions

MatrixNIR Hyperspectral Imaging Camera

Wavelength: 900 – 1700nm @ 10 nm intervals

Image size: 256 x 320 pixels

Гиперспектральный анализГиперспектральный анализ

Is Hypserspectral Imaging an Analytical Instrument?

Paul Geladi, SLU, Umeå, Sweden

Хемометрика и экологияХемометрика и экология

по материалам Pentti Minkkinen, Finland

Влияние ванадиевой пыли на людейВлияние ванадиевой пыли на людей

Испытательная группа 18 человек подверженных пыли V2O5 на фабрике

Контрольная группа 17 человек

Измерялись 26 клинических показателей плазмы крови

-5 0 5-5

-4

-3

-2

-1

0

1

2

3

4

5

VV

V

V

V

VV

V

V

V

V

V

V

V

VV

V

VCC

C

C

C

CC

C

C

C

CCC

C

C

C

C

ГК1 (29.9 %)

ГК

2 (1

7.5

%)

График ГКГрафик ГК

x11 x12 … … x1k

x21 x22 … … x2k

… … … …

… … … …

xi1 xi2 … … xik

xi+1,1 xi+1,2 … … xi+1,k

… … …

… … …

xn1 xn2 xnk

1 0

1 0

1 0

1 0

1 0

0 1

0 1

0 1

0 1

0 1

Матрица дескрипторов X

CLASS C

CLASS V

PLS-D PLS-D ДискриминацияДискриминация

PLS2

Матрица индикаторов Y

-5 -4 -3 -2 -1 0 1 2 3 4-3

-2

-1

0

1

2

3

V

VV

V

V

VV

VV

V

V

V

V

V

V

VV

V

CC

C

C

C

C

CC

C

CC

C

C

C

C

C

C

ГК1

ГК2

График ГК в График ГК в PLS-DPLS-D

Анализ экологического состояния Анализ экологического состояния Волжского бассейнаВолжского бассейна

The principle of «ecological matreshka (a set of nesting doll)» in the system of the analysis of multivariate ecological data

G.S. Rozenberg, Institute of ecology of the Volga river basin of the RAS, Togliatti, Russia

Реки КаталонииРеки Каталонии

Investigation of main contamination sources of heavy metal ions in fish, sediments and waters from catalonia rivers using different multiway data analysis methods

Roma Tauler

IIQAB-CSIC, Barcelona, Spain

Озеро Саимаа в ФинляндииОзеро Саимаа в Финляндии

Environmental Monitoring of Lake Saimaa, Finland

Satu-Pia Reinikainen, Lappeenranta University of Technology, Lappeenranta, Finland

Мониторинг состояния Мониторинг состояния окружающей средыокружающей среды

Chemometric methods for environmental pollution monitoring D.E Bykov, Samara State Technical University, Samara, Russia

ПробоотборПробоотбор

по материалам Pentti Minkkinen, Finland

Теория пробоотбораТеория пробоотбораПробоотбор• Искусство отделения малой части из большой массы и подготовки этой пробы к анализу

Лозунг дня• Результат анализа всегда хуже, чем проба, по которой он сделан• Проба должна быть представительной

Теория, соединяющая техническую и статистическую стороны была разработана Pierre Gy: Sampling for Analytical Purposes, Wiley, 1998и теперь развивается в работах Kim Esbensen & Pentti Minkkinen

Введение в теорию пробоотбораВведение в теорию пробоотбора

Representative sampling in PAT and environmental/geological work: Theory of Sampling (TOS) — a missing link

Kim H. Esbensen, Aalborg University, Esbjerg Institute of Technology, Denmark

Подробнее об ошибках пробоотбораПодробнее об ошибках пробоотбора

Weighting Error — the Often Neglected Component of the Sampling Errors

Pentti Minkkinen, Lappeenranta University of Technology, Lappeenranta, Finland

Четвертая парадигмаЧетвертая парадигма

Парадигма – концептуальная схема, используемая для постановки проблем и их решения, господствующая в научном сообществе в течение длительного исторического периода.

Энциклопедический словарь

по материалам Алексея Померанцев

Познать, значит нарисоватьПознать, значит нарисоватьV-III вв до н.э.

Познать, значит посчитатьПознать, значит посчитатьX-XV н.э.

Познать, значит составить и решить Познать, значит составить и решить дифференциальное уравнениедифференциальное уравнение

XVII в. –н.в.

2H2H22+O+O22 2H 2H22OO

Познать, значит собрать и Познать, значит собрать и проанализировать данныепроанализировать данные

Recommended