Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
1
PROIECT BIG DATA PENTRU EXPLORAREA
POTENȚIALULUI DE UTILIZARE
A UNOR SURSE DE DATE ALTERNATIVE
ÎN DEZVOLTAREA DE STATISTICI EXPERIMENTALE
ABSTRACT
Explorarea și exploatarea potențialului unor noi surse de date este un obiectiv asumat în statistica oficială.
Proiectul își propune să investigheze potențialul World Wide Web-ului ca sursă de date în estimarea unor statistici
experimentale privind evoluția prețurilor online comparativ cu evoluția prețurilor colectate prin mijloace
consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici
specifice pentru tratarea tuturor etapelor componente unui astfel de proiect. Atenționăm cititorul că raportul
prezent reprezintă o lucrare în desfășurare (working paper), rezultatele și modul în care au fost acestea obținute
fiind expuse unui proces continuu de modificare, uneori fundamentală.
2
CUPRINS
I. CONTEXT. OBIECTIVE. ......................................................................................................................................3
II. DESCRIEREA DATELOR .....................................................................................................................................5
III. ORGANIZAREA CULEGERII DATELOR ...........................................................................................................6
IV. REZULTATE PRELIMINARII. ..........................................................................................................................9
V. LIMITĂRI .CONCLUZII PRELIMINARE. ........................................................................................................... 17
BIBLIOGRAFIE ........................................................................................................................................................ 18
3
I. CONTEXT. OBIECTIVE.
Obiectivele generale ale proiectului sunt preluate din cadrul general de modernizare a statisticii
oficiale din România, alături de îmbunătățirea continuă a procesului de producție statistică în acord cu
direcțiile de modernizare la nivel european exprimate în documentul ”Viziunea Sistemului Statistic
European până la orizontul anului 2020.” În cadrul ecosistemului statistic național și european au loc
transformări majore ca urmare a provocărilor impuse de către noile trenduri de generare masivă de
date aproape în timp real, așa numita revoluție Big Data, fie că ne referim la date generate de către
indivizi, procese sau mașini. Încorporarea Big Data în procesul de producție statistică nu este
caracterizată de proprietățile unei acțiuni liniare care își propune să suplinească în totalitate metodele
tradiționale de generare și prelucrare a datelor în vederea obținerii unor produse statistice de calitate
neîndoielnică. Mai degrabă, utilizarea Big Data presupune o abordare de tip incremental, iterativ, în
care anumite componente ale unui proces tradițional de producție statistică sunt augmentate de
aportul Big Data și al algoritmilor de prelucrare aferenți, condiționate de conservarea și/sau
îmbunătățirea calității produsului statistic. Cu alte cuvinte, încorporarea Big Data în statistica oficială
înseamnă păstrarea unui avantaj competitiv net și a relevanței produselor statisticii oficiale prin
comparație cu cele furnizate de către o mulțime de jucători comerciali, cu referire în particular la marile
corporații din domeniul tehnologiei informației.
Sub aceste auspicii, obiectivele generale sunt reprezentate de eficientizarea procesului de
producție statistică prin scăderea costurilor de producție și reducerea sarcinii de răspuns și a
termenului de diseminare. Proiectele pilot interne, prin încorporarea tehnologiilor de calcul moderne,
pot crea premisele dezvoltării unui cadru de testare/măsurare și pilotare de noi metodologii și
tehnologii într-un mod sistematic și riguros, contribuind semnificativ la atingerea obiectivelor generale.
Invariant, în discuție intră identificarea resurselor necesare derulării proiectelor. Conform
Memorandului Schevingen, caracteristicile noilor surse de date implică din punct de vedere tehnic o
abordare multi-disciplinară, cu precădere din sfera teoretică a statisticii matematice și a programării
calculatoarelor. Generarea de soluții robuste solicită din partea echipelor însărcinate cu derularea
proiectelor membrii specializați în cadrul celor două discipline amintite și excelente abilități de
comunicare.
În consecință, au fost formulate următoarele obiective specifice:
Obiectivul 1. Identificarea și selecția canalelor online cu ponderi semnificative în totalul volumului de
tranzacționare a mărfurilor și serviciilor destinate consumului gospodăriilor, astfel încât să fie acoperit
întregul nomenclator de bunuri și servicii destinate consumului final al gospodăriilor.
Obiectivul 2. Identificarea mijloacelor adecvate de implementare a procesului de colectare automată a
prețurilor afișate în cadrul canalelor online de tranzacționare a mărfurilor și serviciilor.
4
Obiectivul 3. Derularea procesului de colectare automată a prețurilor pe parcursul unei perioade
relevante: 2 ani.
Obiectivul 4. Dezvoltarea unui estimator în vederea obținerii unui indice experimental al prețurilor de consum
în baza datelor colectate din mediul online.
Obiectivul 5. Identificarea aspectelor sensibile din punct de vedere legal ale proiectului, având în
vedere reconcilierea dintre Legea 226/2009 din România, Codul de Practici al Statisticilor Europene,
alte reglementări privind statistica oficială și legislația privind accesul la date disponibile online.
Obiectivul 6. Diseminarea rezultatelor către diferite categorii de utilizatori interni și externi statisticii
oficiale prin intermediul rapoartelor intermediare de activitate și prezentării rezultatelor, limitărilor și
propunerilor aferente proiectului.
Concepte și definiții utilizate.
INTERNET - Rețea internațională de calculatoare, formată prin interconectarea rețelelor locale și
globale, destinată să faciliteze schimbul de date și informații în diverse domenii. Abreviat din
International Network.
WorldWideWeb sau WWW sau Web – Colecție de documente interconectate pe baza protocolului
HTTP (HyperText Transfer Protocol) sau HTTPS (HyperText Transfer Protocol Secure).
Site – Colecție de documente WWW structurate sub o adresă WWW comună.
Browser Web – aplicație software ce permite navigarea și accesarea conținutului Web.
Web scraping – set de tehnici ce permit colectarea automatizată a adreselor WWW ale site-urilor
precum și a documentelor regăsite la aceste adrese.
Robot/Crawler/Spider - tehnică implementată prin procesul de web scraping de indexare
automatizată a adreselor WWW.
Parser – aplicație software de parcugere și identificare automată a conținutului unui document.
Javascript – limbaj de programare destinat aplicațiilor Web.
node.js – mediu de execuție a codului Javascript în afara unui browser..
HTML sau HyperText Markup Language – limbaj standard de meta-marcare utilizat la crearea și
formatarea documentelor Web.
CSS sau Cascade Style Sheets – limbaj standard de stilizare a documentelor HTML.
5
XML sau eXtensible Markup Language – limbaj de meta-marcare utilizat la crearea altor limbaje de
marcare Web și pentru creare documentelor care pot fi interpretate atât de om, cât și de mașină. A fost
adoptat din necesitatea modificării dinamice a documentelor Web, prin adăugarea sau eliminarea unor
noi structuri sau conținut în document fără a fi necesară o re-evaluare totală a structurii acestuia.
CSV sau Comma Separated Values – fișier cu valori separate prin virgulă.
R – limbaj și mediu de programare destinat prelucrării statistice și grafice a datelor.
II. DESCRIEREA DATELOR
Sfera de cuprindere
Ipoteza abordării ”democratice” a indicelui prețurilor de consum, conform căreia nu există diferențe
statistic semnificative între volumul și structura cheltuielilor realizate de gospodării pentru
achiziționarea de mărfuri sau servicii, este extinsă asupra prețurilor observate pe site-urile Web.
Populația de referință, mediul de rezidență, perioada de observare acoperită în cadrul unei luni, alături
de mărfurile și serviciile incluse în nomenclatorul pe baza căruia se determină IPC sunt păstrate, cu
următoarele mențiuni:
• În cazul în care conținutul Web este indisponibil în intervalul menționat se va decala cu o zi
colectarea.
• Dintre mărfurile și serviciile incluse în nomenclatorul IPC, au fost țintite inițial grupa mărfurilor
alimentare și posturile care acoperă articolele de îmbrăcăminte și încălțăminte din grupa mărfurilor ne-
alimentare. Urmând ulterior, pe măsură ce înregistrăm rezultate preliminarii, să extindem asupra
întregului nomenclator de mărfuri și servicii.
Unitatea de observare este site-ul Web aparținând firmelor. În acest caz, ipoteza de la care pornim este
că prin intermediul site-ului firmele acoperă întreg teritoriul național. Alegerea site-urilor se bazează
pe stabilirea unei relații volum vânzări-cifra de afaceri, prin ordonarea descrescătoare a cifrelor de
afaceri raportate de către firmele care dețin site-urile respective. Momentan, există anumite bariere,
spre exemplu cel mai important jucător, din punctul de vedere al cifrei de afaceri, pe segmentul
hypermarketurilor prezente în România, nu are o secțiune dedicată tranzacțiilor online. Însă mutările
preconizate spre realizare la nivel European, de către firmele care dețin puncte de vânzare fizice pe
acest segment, sugerează că forțele de piață vor impune migrarea către online a celor mai importanți
actori din domeniu, cel puțin la nivel declarativ.
Variabile înregistrate
Variabilă înregistrată este prețul cu TVA. Metoda de colectare automată permite înregistrarea dublă a
prețurilor pentru mărfurile și serviciile afectate de reduceri, promoții, rabaturi sau alte forme de
6
atragere clienți prin intermediul prețurilor, astfel alături de prețul afișat putem înregistra prețul vechi
sau reducerea afișată sub formă de procent. Acest aspect înlesnește, spre exemplu, identificarea cu
ușurință a factorilor de sezonalitate ce afecteză variația prețurilor pentru anumite categorii de mărfuri
și servicii. Prețurile sunt înregistrate în fișiere de tip .csv care conțin în principiu următoarele variabile:
1. Denumire varietate – numele sub care varietatea este comercializată
2. Prețul curent cu amănuntul
3. Prețul vechi și/sau reducerea cu amănuntul în cazul în care este afișat
4. Compoziție în cazul posturilor îmbrăcăminte/încălțăminte din grupa mărfurilor ne-alimentare
5. Descrierea varietății: producător și specificații tehnice
6. Data colectării
7. Adresa website-ului
Selecția sortimentelor ale căror prețuri sunt ținute sub observație se face pe baza nomenclatorului de
mărfuri și servicii din Ancheta Indicelui Prețurilor de Consum. Probabil va fi necesară, pe măsură ce sunt
acumulate rezultate satisfăcătoare, alcătuirea unui nomenclator al unităților de observare online.
III. ORGANIZAREA CULEGERII DATELOR Metoda de înregistrare
Colectarea datelor are loc prin intermediul soluției software dezvoltate de către CBS Netherlands,
Robot Framework. Soluția este implementată în limbajul de programare Javascript, cu ajutorul mediului
de execuție node.js. Avantajul major al acestei implementări este dat de faptul că poate fi accesat în
mod automat conținut Web generat în mod asincron și dinamic, prin interacțiunea dintre un
utilizator/browser Web și un server Web. Automatizarea colectării de informații de pe site-urile cu
conținut generat dinamic presupune simularea interacțiunii dintre utilizator/browser Web și server prin
intermediul unei aplicații de tip headless browser, în acest caz phantom.js. Soluția permite configurarea
unor fișiere care conțin un script ce trimite cereri de tip asincron către serverul Web prin intermediul
browserului. Conținutul răspunsurilor trimise asincron de către server sunt stocate, parsate și copiate
în fișiere de tip .csv. În funcție de natura și cantitatea de elemente dinamice dintr-un site Web, o sesiune
de web scraping poate dura între câteva minute și o oră, un factor vital aici fiind prezența unei conexiuni
la rețeaua INTERNET de ordinul zecilor de Mbps.
Pe lângă soluția Robot Framework au fost explorate și alte tehnologii, expuse în Tabelul 1, unde au fost
sintetizate principalele avantaje și dezavantaje.
7
Tabelul 1. Soluții pentru colectarea automată a datelor de pe site-urile Web
Nr.
Crt.
Nume Avantaje Dezavantaje
1 Robot Framework FOSS – gratuitate/modificabilă.
Utilizată și dezvoltată de CBS
Netherlands.
Relativ ușor de utilizat.
Extensibilitate.
Nu este utilizabil în sensul ”out-of-the-
box” sau ”la cheie”.
FOSS - eventualele erori generate de
utilizarea produsului software nu atrag
răspunderea dezvoltatorilor pentru
rezultatele obținute.
Nu este o aplicație ”matură”, testată de
un număr mare de utilizatori.
2 Scrapy Framework FOSS – gratuitate/modificabilă.
Extensibilitate ridicată. Este un
framework matur cu o
multitudine de biblioteci
software pe post de plug-inuri.
Scalabilitate.
Necesită cunoștințe medii spre avansate
de programare în limbajul Python.
Scalabilitatea impune resurse hardware
adecvate.
Curbă de învățare abruptă.
3 Apache Nutch Framework matur.
Orientat Big Data.
Curbă de învățare abruptă.
Necesită încorporarea mai multor
tehnologii de prelucrare a Big Data
(Hadoop, MapReduce, Solr, Spark).
4 Rvest Bibliotecă R.
Ușor de utilizat.
Integrarea rezultatelor in R.
Scalabilitate redusă.
Destinat aplicatiilor de mici dimensiuni
și familiarizării cu tehnicile de
webscraping.
8
Lansarea unei sesiuni de Web scraping presupune, în general, următoarele etape:
1. Instalarea Robot Framework.
2. Instalarea node.js și a pachetelor dependente.
3. Crearea din linia de comandă a sistemului de operare a unui template pentru script, prin intermediul
unui fișier de tip batch disponibil în RobotFramework.
3. Utilizarea unui editor de text pentru editarea scriptului.
4. Rularea fișierului script din linia de comandă cu ajutorul unui fișier de tip batch.
5. Verificarea rezultatelor din directorul în care sunt stocate fișierele .csv.
Editarea unui fișier script presupune utilizarea informațiilor disponibile prin intermediul unei aplicații
de tip developer tools, comune distribuțiilor majore de browsere Web (Chrome, Firefox, Edge), pentru
identificarea adreselor elementelor de interes din structura unui document Web, precum și a
eventualelor scripturi care pot interacționa cu respectivul element. Adresa unui element din cadrul unui
document poate fi reprodusă în două moduri în cadrul fișierului script, primul fiind cu ajutorul
selectorilor CSS și celălalt cu ajutorul selectorilor Xpath, diferența dintre cele două moduri este dată de
faptul că al doilea poate introduce în adresă componente de conținut din cadrul elementului, astfel
fiind mult mai precis. Adresele sunt furnizate unui set de proceduri care serializează procesul de
navigare și parsare în cadrul site-urilor Web.
Este demn de menționat că soluția RobotFramework are un grad înalt de configurare prin intermediul
posibilității de introducere de proceduri specifice tehnologiei din spatele site-urilor, dovedindu-se în
mâinile unui programator cu experiență o soluție de Web scraping scalabilă cerințelor unei organizații
de mari dimensiuni.
Rularea automată în paralel/serial a scripturilor se face cu ajutorul unui script batch. Momentan este
necesară supravegherea procesului de colectare automată a prețurilor, ulterior în funcție de rezultatele
obținute și de feed-back-ul părților interesate, vom încerca dezvoltarea unei soluții pentru verificarea
integrității procesului de colectare și restartarea acestuia pentru scripturile care au generat un mesaj
de eroare.
Perioada de referință și înregistrare
Colectarea automată a prețurilor observate pe site-urile din eșantion se efectuează într-una din zilele
aferente decadelor 01-07, 10-17 și 20-27 ale fiecărei luni pentru mărfurile alimentare, respectiv 10-17
pentru posturile aferente articolelor de îmbrăcăminte și încălțăminte.
9
IV. REZULTATE PRELIMINARII. Datorită complexității datelor extrase prin procesul de web scraping, i.e. date semi-structurate,
descompunerea la nivel de componente de bază specifice nomenclatorului IPC este necesară pentru a
ataca problema estimării unui indice experimental al prețurilor de consum din date online.
Date semi-structurate
Structura fișierelor descărcate urmează următorul tipar pentru grupa mărfurilor alimentare:
”nume” – variabila conține numele produsului, producătorul, cantitatea varietății si anumite detalii
tehnico-calitatative. Exemplu: ” Drojdie uscata instant Coseli 7g” .
”preț” – variabila conține observații legate de prețul per unitatea de măsură sau prețul per bucată afișat
pe pagina web corespunzător varietății. Exemplu: ” 083 Lei/bucata” sau ” 1990 Lei/kg”.
”sortiment”, ”tip”, ”categorie” – variabila conține detalii privind clasificarea varietății observate în
diferite categorii, conform structurii site-ului.
O captură a outputului fișierului care conține datele este realizată în figura 1.
Figura 1. Fișier output date.
Din alcătuirea outputului, se poate observa că datele sunt organizate conform structurii site-ului
respectiv, în acest caz supermarketul generic, unde produsele alimentare considerate de bază ocupă
primele poziții în structura ierarhică a site-ului. Varietățile sunt organizate pe categorii de produse în
10
funcție de denumirea acestora și a categoriei de nevoi pe care o deservesc. Corelarea poziției ierarhice
a produsului pe site cu rata de modificare a prețului este o posibilă ipoteză de cercetare . Această
ipoteză decurge în urma unor observații legate de funcțiile de sortare a varietăților pe site, spre
exemplu: “cele mai populare”, ”cele mai vândute”, ”preț crescător”, ”preț descrescător”, care expun
pentru varietățile ”cele mai populare”, produse a căror prețuri suferă variații de preț majore.
Modalitatea, cea mai simplă, de a testa această ipoteză constă în colectarea a 20-30 de produse din
categoria ”celor mai populare”, pe categoriile de produse de larg consum, cu o frecvență zilnică și
modelarea statistico-econometrică a observațiilor.
Variabila ”nume” conține, pe lângă denumirea varietății, informații despre cantitate și despre
calitate. În acest caz observăm o structură similară în descrierea produselor plecând de la denumirea
sortimentului, apoi către aspecte de ordin calitativ de genul materiilor prime utilizate în procesul de
produție sau tehnici de producție, urmat de denumirea mărcii și cantitatea pusă la vânzare pentru acest
tip de sortiment.
O observație trivială legată de forma datelor este că acestea nu pot fi folosite direct sub această
formă în procesul de clasificare și de estimare al indicilor preț. Pentru tratarea acestei probleme am
dezvoltat o serie de proceduri R care permit aducerea la formă comună a datelor astfel încât să permită
o manipulare flexibilă.
Etape de obținere a indicelului experimental al prețurilor de consum
Etapele se desfășoară secvențial, inputul de date pentru fiecare etapă depinzând de outputul
etapei precedente, cu excepția primei etape al cărei input depinde de rezultatul colectării automate a
datelor.
În continuare, vor fi prezentate în detaliu activitățile desfășurate în cadrul fiecărei etape,
întregul process fiind sintetizat în Figura.2.
11
Figura 2. Sesiune de scraping și prelucrare a datelor
Robot Framework
Mediul R
Proceduri de calcul și
clasficare
Fișiere cu rezultate
12
Etapa 1. Introducere și curățare a datelor
Această etapă presupune următoarele activități.
Inputul activității: fișiere date prețuri.
Activitatea de verificare a existenței fișierelor și a conținutului acestora prin intermediul căreia
înregistrăm dacă există o corespondență de 1 la 1 între numărul de perioade decadale și numărul
fișierelor prezente. De asemenea se inspectează conținutul acestora pentru a verifica integritatea
tabelelor obținute prin procesul de webscraping. Verificăm prezența câmpurilor care să conțină numele
varietăților, al prețurilor și al punctelor de observare. Această activitate are loc de obicei după
încheierea procesului de webscraping și este realizată momentan manual. În cazul în care există
elemente lipsă dintre cele enumerate procesul de webscraping se reia, cu mențiunea verificării
accesibilități online a site-ului și a fișierelor de log ale aplicației de webscraping.
Surse de erori identificate: site-ul este indisponibil, structura site-ului a suferit modificări, pipe-line-ul
utilizat la web scraping este afectat de erori care nu sunt trate corespunzător.
Outputul activității: fișiere cu date – prețuri online.
Inputul activității: fișiere cu date - prețuri online.
Activitatea de copiere a fișierelor obținute de la toate punctele de observare online la nivelul unei luni
calendaristice într-un director separat care poate avea numele lunii calendaristice respective, sau ceva
asemănător. Activitatea este realizată manual. Se poate automatiza printr-un script batch. În această
etapă se verifică și consistența numelor fișierelor, astfel încât această să aibă o denumire implicită
furnizată de către aplicația de webscraping, anume ”DATA_Nume_spider.csv”. ”DATA” este preluată de
către webscraper din cadrul sistemului de operare, iar ”Nume_spider” din fișierul JSON de configurare
al spider-ului.
Surse de erori identificate: fișierul poate fi blocat la copiere deoarece respectivul bloc de memorie este
accesat de către o altă aplicație.
Outputul activății: Director de lucru R.
Inputul activității: Director de lucru R.
Activitatea de citire a datelor în mediul R presupune citirea secvențială a datelor din fișierele aflate în
directorul din etapa precedentă prin intermediul metodelor puse la dispoziție de către mediul de
programare R și transformarea acestora în structuri de date valide din punctul de vedere computational
al R-ului. Activitatea se realizează prin intermediul unui script ad-hoc care citește fișierele dintr-un
director de lucru în structuri de tip dataframe alocându-le un nume de tipul
13
”Data(numeric)_Nume_punct_de_observare(caracter)” în funcție de punctul de observare. ”Data” este
preluată din numele fișierului, iar ”Nume_punct_de_observare” este furnizat de către utilizator prin
intermediul specifia unui vector de caractere unui parametru către funcția de citire, precizând că
vectorul trebuie să conțină șiruri de caractere apropiate de ”Nume_spider” pentru identificarea și
alocarea validă a numelor. Pentru o manipulare eficientă a structurilor de date, este recomandabilă
alocarea unei structuri de tip listă care să conțină toate dataframe-urile.
Surse de erori identificate: specificarea incorectă a elementelor din vectorul de caractere, utilizat
pentru alocarea numelor, poate genera erori de citire, suprascrierea structurilor de date din cauza
numelor de fișiere care pot conține aceeași dată calendaristică, incorect identificate drept valide la
activitatea numărul 3, posibile erori generate de sistemul de fișiere al sistemului de operare (drepturi
de citire, acces interzis la respectiva zonă de memorie utilizată de către alte aplicații).
Outputul activității: Structuri de date R.
Inputul activtității: Structuri de date R
Activitatea de curățare a datelor presupune eliminarea elementelor care nu prezintă interes pentru
etapele ulterioare, cum ar fi variabilele care conțin date de identificare a aplicației de webscraping, și
transformarea corespunzătoare a celorlalte elemente în vederea calculului. Aici au fost dezvoltate o
serie de scripturi R particularizate pentru fiecare punct de observare în parte ca urmare structurii
specifice a informațiilor disponibile pe site-urile punctelor respective. Spre exemplu variabila preț poate
fi înregistrată în două variabile denumite generic ”preț promoțional” și ”preț întreg” sau ”preț bucată”
și ”preț cantitate standard”, fapt ce necesită identificarea și înlocuirea datelor aferente variabilelor din
prima categorie cu date din variabila din cea de-a doua categorie prin intermediul unor comparații
succesive. O altă posibilă tranformare este realizată pentru reprezentarea corectă a prețurilor din punct
de vedere numeric, spre exemplu prin împărțirea la 100 a datelor culese de pe site-uri care conțin
partea întreagă și partea fracțională a prețului în două elemente html diferite. Este posibilă realizarea
acestei tranformări la nivelul aplicației de webscraping, dar am decis să păstrăm prelucrarea numerică
a datelor integral în mediul R. Tot în cadrul acestei activități se realizează eliminarea observațiilor
duplicate. Duplicarea observațiilor este un fenomen destul de des întâlnit în utilizarea actualei aplicații
de webscraping si are loc datorită restartării periodice a clientului web (phantomjs) din motive de
asigurare a stabilității. În momentul în care survine restartul aplicația trimite către client ultima cerere
realizată înainte de restart indiferent dacă aceasta a primit sau nu un răspuns din partea serverului web.
Surse de erori identificate: Erori logice de parsare a șirurilor de caractere din cauza unor reguli mult
prea restrictive, spre exemplu eliminarea unor observații care au aceeași valoare la nume, dar au prețuri
diferite.
Outputul activității: Structuri de date R pregătite pentru calculul indicelului experimental al prețurilor
de consum observate online.
14
Inputul activității: Structuri de date R pregătite pentru dezvoltarea de statistici experimentale
Activitatea de codificare manuală/automată a produselor conform nomenclatorului IPC presupune
identificarea observațiilor care, în baza variabilei ”nume”, se apropie de descrierea furnizată în cadrul
nomenclatorului. Aceasta activitate poate genera erori a căror propagare se poate resimți semnificativ
în calitatea rezultatelor finale. Principul de la care s-a pornit, în lipsa unei experiențe anterioare în lucrul
cu aspecte metodologice de selecție a varietăților unui sortiment, a fost utilizarea unui mod de gândire
bazat pe ipoteza conform căreia consumatorul va alege un produs sau mai multe produse substituibile
celui prezent în nomenclator într-o limită de preț rezonabilă (<= 150% din prețul unei varietăți din
nomenclator.) Astfel au fost alese spre selecție pentru un singur sortiment mai multe varietăți din
cadrul aceluiași punct de observare. Au fost adăugate două coloane suplimentare pentru toate
structurile de date care conțin codul sortimentului și al postului de cheltuieli pentru fiecare perioadă
decadală din luna de bază aleasă, pentru varitățile identificate ca făcând parte din cadrul aceluiași
sortiment. Pentru a întări regula de urmărire strictă a acelorași varietăți, regăsită în metodologia de
calcul a IPC, s-au realizat operațiuni de matching între structurile de date pentru toate perioadele
decadale și lunile observate. Operațiunea de matching între două sau mai multe tabele s-a realizat pe
baza variabilei ”nume” care conține observații privind descrierea varietății prin intermediul potrivirii
șirurilor de caractere în raport de 1 la 1. După realizarea acestei activități dintr-un număr inițial de
aproximativ 10.000 de varietăți pentru care s-a realizat colectarea prețurilor din online, acestea au fost
restrânse la 545 de varietăți, 216 sortimente, și 52 de posturi de cheltuieli, identificate ca și constante
pe parcursul lunilor de observație, în ipoteza că descrierea oferită în observațiile realizate pentru
variabila ”nume” reprezintă un garant al invarianței caracteristicilor tehnico-calitative ale varietăților.
Această tehnică a fost utilizată pentru codificarea întregului eșantion, utilizat apoi în procesul de
codificare automată datelor.
În Tabelul 2, se regăsesc principalele rezultate experimentale obținute până în prezent pentru
codificarea automată a varietăților. Clasificarea datelor colectate în funcție de produsele din
nomenclator s-a realizat folosind algoritmi din pachetul RtextTools ce au la baza arbori de decizie.
Validarea opțiunii pentru unul dintre algoritmii BOOSTING, SVM, RF, SLDA si BAGGING s-a realizat pe
setul de date clasificat manual aplicând tehnica Cross-Validation cu 10 subseturi.
Tabel 2.Rezultate 10-fold Cross-Validation
ALGORITM BOOSTING SVM RF SLDA BAGGING
ACURATEȚE 0.56 0.34 0.41 0.17 0.28
15
Surse de erori: activitatea manuală de codificare a prețurilor este repetitivă, datele fiind expuse unor
prelucrări eronate din cauze subiective.
Outputul activității: Structură de date care conține toate perioadele observate, cu observațiile
codificate conform nomenclatorului IPC.
Inputul activității: Structură de date care conține observații codificate conform nomenclatorului IPC.
Abordarea metodologică pentru estimarea unor statistici experimentale, propusă spre explorare,
presupune o etapă de calcul a indicilor elementari de preț la nivel de varietate, sortiment, post și grupă
de cheltuieli agregate, finalmente, într-un indice statistic experimental, dar care să permită retenția
anumitor proprietăți a indicilor statistici consacrați în acest domeniu statistic, asigurând astfel un punct
de referință relativ la criteriul comparabilității dintre cei doi tipi de indici (Figura.3.). O posibilă rută
exploratorie, presupune ca inițial să se calculeaze medii aritmetice la nivel de varietate pentru fiecare
lună și punct de observare. Rezultatul obținut se împarte la mediile obținute pentru fiecare varietate în
parte. Se obțin astfel indicii elementari de preț la nivel de varietate. Pentru calcularea indicilor la nivel
de sortiment poate fi necesară restrângerea numărului de varietăți din cadrul aceluiași punct de
observare. O posibilă soluție poate fi utilizarea unei medii geometrice pentru agregarea rezultatului sub
forma unei varietăți generice specifică punctului respectiv de observare
16
Figura.3. Etapele1 proiectului de dezvoltare a unor statistici experimentale în baza surselor de date alternative.
1 Pentru descrierea și reprezentarea grafică a etapelor a fost utilizat drept reper standardul GSBPM 5.0 referitor la descriere al fazelor și sub-proceselor aferente procesului de producție statistică.
Specificarea cerințelor
proiectuluiProiectare Execuție Culegerea datelor Procesarea datelor
Prezentarea rezultatelor
Reducerea costurilor de
producție statistică.
Elaborarea metodologiei de
calcul a statisticilor
experimentale.
Dezvoltarea unor abordări tehnice
pretabile statisticilor
experimentale.
Selecția magazinelor online.
Calcularea statisticii experimentale.
Redactarea rapoartelor de
activitate.
Creșterea promptitudinii
Creșterea disponibilității
datelor prin utilizarea unor
tehnici și procese de colectare automată a datelor din
online.
Adaptarea și încorporarea soluțiilor și
bunelor practici internaționale în specificul activ
ităților proiectului.
Implementarea procedurii de
colectare a datelor în cadrul unei
arhitecturi software de tip open source.
Îmbunătățirea timpilor de estimare
a statisticilor consacrate prin
utilizarea statisticilor experimentale.
Punerea la dispoziție către
direcțiile interesate a
întregii arhitecturi a proiectului și suport tehnic.
17
V. LIMITĂRI .CONCLUZII PRELIMINARE. Au fost identificate următoarele limitări, care pot deveni ipoteze de cercetare exploratorie în aria de
cunoaștere a noilor surse de date raportată, momentan, la indici și indicatori statistici consacrați:
•Ipoteza de generalizare a achiziționării de bunuri și servicii destinate consumului de către gospodării
prin intermediul tranzacțiilor online. Numărul gospodăriilor care achiziționează un produs prin
intermediul canalelor online este relativ mic, și depinde în general de o serie de factori precum poziția
geografică, nivelul veniturilor, nivelul educației, etc.
•Nu toate firmele, cu un volum al tranzacțiilor semnificativ pentru includerea în cadrul unităților de
observare, dețin un site Web.
•Tehnologia IT poate avea un impact semnificativ asupra variației prețurilor. Un exemplu în acest sens
poate fi discriminarea bazată pe poziția geografică a unui utilizator în momentul în care sunt afișate
prețurile pe un anumit site.
În baza rezultatelor obținute și a potențialului metodei de colectare de a fi extinsă și asupra altor
cercetări de interes pentru statistica oficială sunt formulate următoarele concluzii preliminare:
Concluzia 1: Continuarea derulării proiectului Big Data de explorare a potențialului de utilizare a unor
surse de date alternative în vederea dezvoltării unor statistici experimentale. În cadrul proiectului un
obiectiv esențial este dezvoltarea unei metodologii noi. Secundar se poate dezvolta un nomenclator
separat de produse și servicii specific observațiilor din online, pe baza unor măsurători, precum
longevitatea anumitor produse și servicii în oferta online și o serie de meta-date aferente produselor și
serviciilor respective (spre exemplu, analiza interacțiunii online pe bază de comentarii/recenzii a
cumpărătorilor cu mărcile respective și magazinul online).
Concluzia 2: Este necesară dezvoltarea unei politici și a unor proceduri operaționale pentru colectarea
și utilizarea datelor colectate automat din pagini Web ca surse de date alternative.
Concluzia 3: Este necesară constituirea unui grup/comitet de coordonare, supraveghere și evaluare a
utilizării datelor colectate prin intermediul metodelor noi pentru asigurarea respectării principiilor
statisticii oficiale și a legislației în vigoare. Aspectele ce țin de coordonarea utilizării datelor pot fi
exprimate în termeni de dezvoltare de noi metodologii și tipuri de indicatori statistici relevanți și
eficienți din punct de vedere al costurilor pentru diferite categorii de utilizatori interni și externi.
18
BIBLIOGRAFIE 1. Institutul Național de Statistică. 2018. Metodologia anchetei Indicelui prețurilor de consum. Disponibil
la: http://colectaredate.insse.ro/metadata/viewStatisticalResearch.htm?locale=ro&researchId=4807
2. Institutul Național de Statistică. 2018.Nomenclatorul mărfurilor și serviciilor utilizate în indicelui
prețurilor de consum. Disponibil la:
http://colectaredate.insse.ro/metadata/viewStatisticalResearch.htm?locale=ro&researchId=4807
3. Biroul Internațional al Muncii. 2004. Consumer price index manual.Disponibil la:
https://www.ilo.org/wcmsp5/groups/public/---dgreports/---
stat/documents/presentation/wcms_331153.pdf
4. Organizația Națiunilor Unite 2009. Practical Guide to Producing Consumer Price Indices. Disponibil la:
https://www.unece.org/fileadmin/DAM/stats/publications/Practical_Guide_to_Producing_CPI.pdf
5. CBS Netherlands. 2016. RobotFramework. Disponibil la:
http://research.cbs.nl/Projects/RobotFramework/index.html
6. The R Foundation. 2018.R Disponibil la: https://cloud.r-project.org/
7. Organizația Națiunilor Unite, 2018. GSBPM. Disponibil la:
https://statswiki.unece.org/display/GSBPM/GSBPM+v5.0