View
2
Download
1
Category
Preview:
Citation preview
Ile w ilości jest jakości?
Pięć lat inwentaryzacji usługCzyli dlaczego dążymy do 100%
Departament Strategii i Analiz Rynku Telekomunikacyjnego
Zespół Wydziału Analiz Hurtowych
KFS 2014-11-18
Agenda
� Zakres danych
� Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy
� Fakty i mity o inwentaryzacji
� Referencyjne zbiory danych geoadresowych
� Jakość danych wejściowych
� Proces kontroli, poprawy i wzbogacania danych
� Zastosowanie danych
� Dane o ZAKOŃCZENIACH SIECI I USŁUGACH w ramach inwentaryzacji pokrycia istniejącą infrastrukturą telekomunikacyjną i publicznymi sieciami telekomunikacyjnymi zapewniającymi lub umożliwiającymi zapewnienie szerokopasmowego dostępu do Internetu oraz budynkami umożliwiającymi kolokację
� Kluczowe dane• Adresy i współrzędne geograficzne• Oferowane usługi na zakończeniu sieci• Maksymalna oferowana przepustowość• Liczba klientów z pakietem usług• Technologia dostępowa
Zakończenia i usługi w 2014 w liczbach
Podmioty 2 685
Zakończenia sieci 11 500 000
Usługi - liczba rekordów 8 900 000
Usługi - liczba klientów 15 400 000
Zakres danych
Czyli od TXT poprzez XLS i XML i z powrotem do CSV
Problemy z przekazywaniem danych:
• Wykorzystywanie kilku kanałów równolegle i wysyłanie wielokrotnie różnych plików
• Nietrzymanie standardów nazewnictwa plików
Błędna struktura:
• Błędna struktura plików :
• zamiany kolumn, • wstawianie dodatkowych kolumn, • usuwanie wymaganych kolumn,• stosowanie różnych rozdzielaczy kolumn
niezgodnych ze specyfikacją lub brak rozdziału kolumn,
• Zmienna liczba kolumn lub ich kolejności dla poszczególnych wierszy.
Błędy struktury wewnętrznej zostały poprawione w przypadku ponad 2000
plików
2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)
Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy
Czyli od TXT poprzez XLS i XML i z powrotem do CSV
Nieprawidłowe strony kodowe
• Stosowanie innych kodowań niż UTF-8.
• Stosowanie różnych stron kodowych w ramach tego samego pliku.
• Błędy w konwersji stron kodowych w trakcie przygotowywania danych, w efekcie polskie znaki diakrytyczne były zamieniane na: inne znaki lub litery łacińskie.
„Łódź” = „d”
Nieprawidłowe przypisanie identyfikatorów Teryt
• Błędne kody TERC• Błędne kody SIMC• Błędne kody ULIC
Wyniki zgodności danych PT z TERYT po czyszczeniu
• 99,71% dla SIMC
• 98,21% dla SIMC + ULIC
2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)
Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy
Czyli od TXT poprzez XLS i XML i z powrotem do CSV
2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)
Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy
Błędy wykryte przez reguły poprawności
• Brak własności infrastruktury• Brak technologii dostępu• Brak pakietu usług• Brak informacji o przepustowości łącza • Nieprawidłowe prędkości• Brak liczby klientów w budynku
• Nieprawdziwe liczby klientów w budynku
Doświadczenia przeniesione do SIIS
• Wprowadzenie obowiązkowych identyfikatorów Teryt
• TERC dla gmin, • SIMC dla miejscowości ,• ULIC dla ulic,
• Wprowadzenie wymogu uzupełniania obowiązkowych pól
• Sprawdzanie zgodności pól słownikowych
2011 SIIS 1.0
•Problemy z XML•Duże problemy z wydajnością•Dane w SIIS wprowadzane manualnie•Wiele kanałów dostarczenia danych powoduje niejednoznaczności (różne daty, różne zawartości)•Dane czyszczone offline w SDQ – systemie do czyszczenia danych
Czyli od TXT poprzez XLS i XML i z powrotem do CSV
2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)
2011 • SIIS 1.0• Problemy z generacją i
przetwarzaniem XML• Awaryjne przetwarzanie plików XLS• Dane czyszczone w systemie SDQ
Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy
Czyli od TXT poprzez XLS i XML i z powrotem do CSV
2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)
2011 • SIIS 1.0• Problemy z generacją i
przetwarzaniem XML• Awaryjne przetwarzanie plików XLS• Dane czyszczone w systemie SDQ
2012 • Generator XML• Dopuszczenie plików CSV
Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy
2012 SIIS 2.0
•Czyszczenie danych w UKE•Zamiast nazw miejscowości podawane były nazwy miejscowości z placówką pocztową•Nadużywanie 99998
Czyli od TXT poprzez XLS i XML i z powrotem do CSV
2013 SIIS 3.0
•Wprowadzenie modułu reguł poprawności danych w trakcie inwentaryzacji powoduje generację dużej liczby ostrzeżeń o błędach•Dogrywanie kolejnych wersji plików z danymi – w efekcie duplikacja danych w SIIS•Dane z poprzedniej inwentaryzacji nieaktualizowane przez przedsiębiorców•UKE wdraża system czyszczenia danych pozyskanych w trakcie inwentaryzacji•Problemy z danymi referencyjnymi punktów adresowych
GUS NOBC
GUGIK
34 0001 179 000
1 019 000
332 000
467 000
4 201 000
PESEL67 000
2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)
2011 • SIIS 1.0• Problemy z generacją i
przetwarzaniem XML• Awaryjne przetwarzanie plików XLS• Dane czyszczone w systemie SDQ
2012 • Generator XML• Dopuszczenie plików CSV
2013 • Moduł reguł poprawności• Problemy z duplikacją danych• Implementacja systemu do czyszczenia
danych w UKE DART
Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy
2014 SIIS 4.0
•Ograniczenie kanałów komunikacji wyłącznie do SIIS znacząco niweluje poziom błędów•Wprowadzenie informacji podsumowującej•Atomowość ładowania danych•Reguły poprawności dają efekt w postaci lepszej jakości danych adresowych od PT•Nadal problem z wiarygodnością informacji od małych PT•Nadal zdarzają się duże błędy kluczowym PT•Znaczne błędy pomiędzy adresami a współrzędnymi geograficznymi
Czyli od TXT poprzez XLS i XML i z powrotem do CSV
2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)
2011 • SIIS 1.0• Problemy z generacją i
przetwarzaniem XML• Awaryjne przetwarzanie plików XLS• Dane czyszczone w systemie SDQ
2012 • Generator XML• Dopuszczenie plików CSV
2013 • Moduł reguł poprawności• Problemy z duplikacja danych• Implementacja systemu do czyszczenia
danych w DART UKE
2014 • Nowe rozporządzenie• Ograniczenia kanałów komunikacji• Informacja podsumowująca• Wyraźne efekty reguł poprawności
Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy
Czyli informacja z trzepaka bardziej wiarygodna niż instrukcja i rozporządzenie ☺
MIT FAKT
Można agregować wiele różnych elementów do jednego węzła
Do jednego węzła można agregować elementy sieci aktywnej w jednej wspólnej lokalizacji
Można agregować klientów do serwerowni, a stacje bazowe WIFI wskazać jako zakończenia sieci
Klienci i ich usługi muszą być wykazani na zakończeniach sieci, a więc w konkretnych punktach adresowych
Nie trzeba wykazywaćinfrastruktury dla sieci ETH i WiFi
Dla sieci ETH zbudowanej na kablach miedzianych gdy w domu klienta jest zainstalowane urządzenie operatora (np. switch) taki budynek musi być wykazany jako zasięg sieci ETH o ile pomiędzy routerem a switchem nie następuje zmiana medium np., z FO na Cu
Nie trzeba wykazywać punktów adresowych w których świadczone są usługi z wykorzystaniem sieci WiFi lub ETH
Inwentaryzacji podlegają wszystkie zakończenia sieci niezależnie od technologii dostępowej. W przypadku technologii mobilnej może być to adres korespondencyjny
UKE żąda przekazywania danych z dokładnością do lokalu mieszkalnego
Nigdy nie było takiego oczekiwania. Dane o zakończeniach sieci przekazujemy z dokładnością do punktu adresowego, a więc numeru porządkowego budynku
Fakty i mity o inwentaryzacji
Czyli jest nieźle choć mogłoby być jeszcze lepiej
� TERYT (GUS)
• Jednoznaczny podziaładministracyjny RP
• Jednoznaczna identyfikacja miejscowości w Polsce
• Jednoznaczna identyfikacja ulicy
Nazwa miejscowości lub jej części
Liczba wystąpieńna terenie
RPStara Wieś 437
Podlesie 341Nowa Wieś 317
Piaski 275Góra 268
Kolonia 264Dół 231
Dąbrowa 214
Referencyjne dane o punktach adresowych
Krotnośćwystępowania nazwy w RP
Liczba miejscowości
podstawowych
Liczba miejscowości podstawowych i
części miejscowości1 28 893 46 4362 3 727 6 038
3-5 2 093 3 6856-10 543 1 118
11-20 218 50521-50 68 245
51-100 3 44powyżej 100 3 32
SIMC MIEJSCOWOŚĆ ULIC CECHA NAZWA_1 NAZWA_20952232 Wieliczka 09569 pl. Kościuszki0952232 Wieliczka 09578 os. Kościuszki Tadeusza0952232 Wieliczka 09582 ul. Kościuszki Tadeusza
0957985 Łódź-Górna 18651 pl. ReymontaWładysława Stanisława
0957985 Łódź-Górna 18648 ul. Reymonta Władysława0957985 Łódź-Górna 18647 park Reymonta im. Władysława0988595 Sulechów 38274 park Powstańców Wielkopolskich0988595 Sulechów 43311 rondo Powstańców Wielkopolskich0988595 Sulechów 17377 ul. Powstańców Wielkopolskich
Czyli jest nieźle choć mogłoby być jeszcze lepiej
� TERYT (GUS)
• Jednoznaczny podziaładministracyjny RP
• Jednoznaczna identyfikacja miejscowości w Polsce
• Jednoznaczna identyfikacja ulicy
• Problemy
• Problemy z jakością danych
• Brak efektywnego śledzenia zmian nazw ulic (tylko dodaj usuń dla ulic)
Referencyjne dane o punktach adresowych
SIMCMIEJSCOWOŚĆ
ULIC Cecha Nazwa_1 Nazwa_20988684 Żary 27440 ul. Baczyńskiego K. K.0988684 Żary 34364 ul. Baczyńskiego K.
0977700 Gołdap 13085 os. Młodych0977700 Gołdap 32346 os. Osiedle Młodych
ULIC CECHA NAZWA_100008 pl. 1000-lecia39516 pl. Plac 1000-lecia45207 al. Aleje Jerozolimskie07487 al. Jerozolimskie07120 al. Jana Pawła II35344 al. Aleje Jana Pawła II37675 al. Aleja Jana Pawła II33262 ul. Aleja Jana Pawła II
SIMC MIEJSCOWOŚĆ ULIC ULICA0919298 Praga-Północ 30810 al. "Solidarności"0919298 Praga-Północ 40019 ul. Aleja "Solidarności"0919298 Praga-Północ 45206 Aleja "Solidarności"
Czyli jest nieźle choć mogłoby być jeszcze lepiej
� PESEL (WSW)
• Lista punktów adresowych dla budynków mieszkalnych wraz z informacją o wiekowaniu mieszkańców
� NOBC (GUS)
• Lista punktów adresowych dla budynków mieszkalnych wraz z informacją o liczbie lokali mieszkalnych
• Brak współrzędnych geograficznych
Referencyjne dane o punktach adresowych
LP. Nazwa pola Opis pola
0 ID_Tech_Budynku numer techniczny budynku wspólny dla zbiorów danych ze stanami na dzień
1 WOJ symbol województwa2 POW symbol powiatu3 GMI symbol gminy4 RODZ symbol rodzaju gminy5 REJON numer rejonu statystycznego6 OBWOD numer obwodu spisowego w rejonie7 SYM_MIEJ identyfikator miejscowości8 NAZWA_MIEJ nazwa miejscowości 9 SYM_UL identyfikator ulicy
10 NAZWA_UL nazwa ulicy w pełnym brzmieniu11 CECHA określenie ulicy
12 NAZWA_1część nazwy ulicy począwszy od słowa, które decyduje o pozycji nazwy ulicy w układzie alfabetycznym, aż do końca nazwy
13 NAZWA_2 pozostała część nazwy ulicy lub pole puste14 DOD_A dodatkowa informacja ułatwiająca identyfikację budynku w terenie15 NR_DOMU numer porządkowy nieruchomości (nr domu)16 NRB_NIER numer budynku na nieruchomości
17 ID_NRB_NIERpole wypełnione tylko dla budynków na tej samej nieruchomości, jest to ID nieruchomości (z bazy NOBC) – to samo dla wszystkich budynków na tej nieruchomości
18 NR_BUD_WApole wypełnione tylko dla budynków wieloadresowych, jest to ID budynku wieloadresowego (z bazy NOBC) – to samo dla wszystkich adresów tego samego budynku
19 RODZ_Brodzaj budynku (1 – mieszkalny, 2 – niemieszkalny, 3 – z obiektem zbiorowego zakwaterowania, 0 – obiekt prowizoryczny)
20 L_MIESZK liczba mieszkań znajdujących się pod danym adresem budynku
21 L_MIESZK_ZAM liczba mieszkań zamieszkanych znajdujących się pod danym adresem budynku
22 L_MIESZK_NIEZAMliczba mieszkań niezamieszkanych, znajdujących się pod danym adresem budynku
23 STAN_NA
Czyli było bardzo źle, jest źle ale kiedyś będzie lepiej
� GUGIK TBD
� GUGIK PRG
Referencyjne dane o punktach adresowych i GEO
Czyli jak bardzo jest źle z geokodwaniem adresów i dlaczego
� GUS NOBC
� GUGIK PRG
WOJEWÓDZTWO% PUNKTÓW ADRESOWYCH Z NOBC
POSIADAJĄCYCH BEZPOŚREDNI ODPOWIEDNIK W PRG GUGIK
02 DOLNOŚLĄSKIE 62%04 KUJAWSKO-POMORSKIE 82%06 LUBELSKIE 90%08 LUBUSKIE 82%10 ŁÓDZKIE 88%12 MAŁOPOLSKIE 71%14 MAZOWIECKIE 72%16 OPOLSKIE 25%18 PODKARPACKIE 79%20 PODLASKIE 88%22 POMORSKIE 74%24 ŚLĄSKIE 60%26 ŚWIĘTOKRZYSKIE 67%28 WARMIŃSKO-MAZURSKIE 81%30 WIELKOPOLSKIE 74%32 ZACHODNIOPOMORSKIE 85%
RAZEM 74%
GMINA% PUNKTÓW ADRESOWYCH Z NOBC
POSIADAJĄCYCH BEZPOŚREDNI ODPOWIEDNIK W PRG GUGIK
Opole 0%Konin 0%
Kędzierzyn-Koźle 0%Przemyśl 0%
Mińsk Mazowiecki 0%DobrzeńWielki 0%
Istebna 0%Dzierżoniów 0%
Komprachcice 0%Lipowa 0%
Łubniany 0%Kłodzko 0%Turawa 0%
Dąbrowa 0%Nowa Ruda 0%
Garwolin 0%
SIMC MIEJSC SYM_UL NAZWA_UL NR
0965016 Opole Ulica Budowlanych 150965016 Opole Ulica Major a ""Hubala"" 16D
0965016 OpoleUlica Kazimierza Wierzyńskiego
9
0965016 Opole Ulica Grudzicka 330948667 Konin 80948667 Konin 80948667 Konin 200948667 Konin 430948667 Konin 450948667 Konin 450948667 Konin 450948667 Konin 80948667 Konin 80948667 Konin 200948667 Konin 43
Referencyjne dane o punktach adresowych i GEO
% DOPASOWANIA NOBC DO PRG
LICZBA GMIN
LICZBA PUNKTÓW
ADRESOWYCH W NOBC
LICZBA PUNKTÓW ADRESOWYCH
DOPASOWANYCH Z PRG
0% - 10% 84 203 976 1 442
10% -20% 18 42 895 6 850
20% - 30% 26 60 533 15 717
30% - 40% 31 94 722 33 080
40%- 50% 51 145 538 67 669
50% - 60% 156 580 917 325 685
60% - 70% 281 846 951 550 490
70% - 80% 460 1 029 551 777 179
80% - 90% 848 1 825 125 1 557 798
90% - 100% 519 1 163 496 1 088 376
MIEJSCOWOŚĆ W DANYCH GUGIK
SIMCROZPIĘTOŚC W
KM
Horodło 0888787 902
Kąkolewnica 1064640 864
Świdnik 0957146 831
Pięćmorgi 0087461 775
Podzamcze 0867880 725
Łódź 0957650 687
Bełchatów 0967647 644
Kamieńsk 0541180 638
Brodno 0880739 492
Sułkowice 0952137 333
Przedsiębiorca SIIS UKE
Przygotowanie danych
Wstępna walidacja danych
Walidacja formalna
Wstępna walidacja poprawności
Proces kontroli, poprawy i wzbogacania danych w UKE
Czyli co robimy aby za ilością szła również jakość
Systemy PT
Generator
NDDO
Zgodność z rozporządze
-niem
Reguły poprawności
Raport z ładowania
Raport regułpoprawności
Standaryzacja
Mapowanie
Wzbogacanie
Analiza poprawności
Oznaczanie danych
niepoprawnych
Import do bazy
raportowej
Wezwania do PT
Wniosek o kontrolę PT
Proces kontroli, poprawy i wzbogacania danych
� Wywołania reguł zaraz po załadowaniu plików i na żądanie użytkownika zamiast raz na dobę
� Poprawa wydajności reguł
� Eliminacja nadmiarowości raportowania ostrzeżeń
� Usunięcie niektórych reguł po analizie wyników
� Dodanie nowych reguł
� Zgrupowanie podobnych reguł do jednej o ile było to możliwe
� Ponad 30 reguł poprawności w 4 grupach
� Wprowadzamy bardziej aktywny model komunikacji w trakcie inwentaryzacji
Moduł RegułPoprawności
Największym problemem jakościowym jest poprawność adresów
Jakość danych wejściowych
Nazwy ulic operatorów – pojedynek marszałek kontra noblistka
Przykłady oryginalnej pisowni nazw ulic z danych operatorów
Al . Marszalka Pilsudzkiego Józefa Piłsudzskiego c. sklodowskiejN:MARIICURIE SKŁODOWSKIEJ
al. marszala pilsudskiego Józefa Piłsuskiego Curie Sdkłodowskiej N:MC SKŁODOWSKIEJal. marszalka pilsudskiego Maeszalka Pilsudskiego Curie Sklodowska N:M-C SkłodowskiejAl.Józefa Pilusdskiego Maraszalka Pilsudskkiego Curie Sklodowskiej Marii Plac N:SKLODOWSKIEJ-CURIEAl.M.J. Pilsudskiego Marsz . Pilsudskiego M C Skłodwskiej N:SKŁODOWSKIEHJ
Al.Marsz.Józefa Pilsudskego Marsz J Piłsudzkiego M Skłodowskiej - CurreNN-OSIEDLE M.C.SKŁODOWSKIEJ
Al.Marszalka J.Pilsudskiego Marsz Piłsudkiego M.C., Sklodowskiej NN-OSIEDLE SKŁODOWSKIEJAl.Marszalka Józefa Pilsudskiego
Marszalka Jozefa Marii Curii Sklodowskiej sklodowskiej
Al.Marszalka Pilsudskiego Marszalka Poilsudskiego Marii Cury Sklodowskiej Sklodowskiej Curie MariiAl.Pilduskiego Marszałka Józefa Piłsudskiego Marii Skladowskiej Curie Składowskiejaleja józefa pilsudskieg Marszałka Piłsudkiego marii sklowskiej curie SkłodowskaAleja Józefa Pilsudzkiego Marszałka Piłsudskiego N:C.SKŁODOWSKIEJ SkłodowskiejAleja Józefa Piłsudskiego Marszałka Piłsudzkiego N:CURI SKŁODOWSKIEJ Skłodowskiej - CurkieAleja Marszalka J. Pilsudskiego N:Al. J. PIŁSUDSKIEGO N:CURIE - SKŁODOWSKIEJ Skłodowskiej CirieBrzeziny Ul. Marsz.J.Pilsudzkiego
N:AL.M.PIŁSUDSKIEGO267 N:CURIE SKŁODOWSKA Skłodowskiej-Curie
Bulwary Marszalka PilsudskiegN:MARSZAŁKA PIŁSUDSKIEGO, AL
N:M C SKŁODOWSKIEJ Ul.C.Sklodowskiej
Bulwary Marszalka Pilsudskiego 22
N:PIŁSODSKIEGO N:M. SKŁODOWSKIEJ CURIE Ul.Marii Curie-Sklodoeskiej
duzy im.j.pilsudskiego N:PIŁSUCKIEGO N:M. SKŁODOWSKIEJ-CURIE Ul.Sklodowdkiej Curie
im. marsz. Józefa Piłsudskiego N:PIŁSUDDKIEGON:MARI SKŁODOWSKIEJ CURIE
Ul.Sklodowskiej
józefa pilssudskiego N:PIŁSUDKIEGO N:MARII C.SKŁODOWSKIEJ Ul.Sklodowskiej Curie
Mapowanie ulic z kodami 99998 na TERYT
Proces Jakości Danych
wyniki końcowe
Nazwa po standaryzacji
Liczba unikalnych nazw ulic
PIŁSUDSKIEGO 437CURIE-SKŁODOWSKIEJ 415WYSZYŃSKIEGO 269WOJSKA POLSKIEGO 216KOŚCIUSZKI 206JANA PAWŁA II 188SIKORSKIEGO 171DĄBROWSKIEGO 164GROTA ROWECKIEGO 147MICKIEWICZA 146SŁOWACKIEGO 133SOBIESKIEGO 128SIENKIEWICZA 126WESTERPLATTE 117ARMII KRAJOWEJ 113HALLERA 112KONSTYTUCJI 3 MAJA 107JAGIEŁŁY 107CHROBREGO 105KONOPNICKIEJ 99
� 26 algorytmów standaryzacji i dopasowania nazw ulic operatorów do nazw ulic słownikowych
• Kontekstowa poprawa nazw ulic i miejscowości
• Uwzględnienie zmian nazw ulic z lat poprzednich
• Zastosowanie algorytmów odległości edycyjnej Levenshteina i Jaro-Winklera – wyniki przybliżeń weryfikowane manualnie
� 17 algorytmów standaryzacji i dopasowania numerów porządkowych
� Ponad 1500 mapowań wartości „inne” na wartości słownikowe bazy raportowej
• Kontekstowe dopasowanie pakietów usług w obrębie technologii
� 99,84% zgodności na poziomie ulic
� 90,43% zgodności na poziomie budynków
Nazwa ulicy Nazwa TerytJaro-Winkler
Levenshtein
Dąbkowskiegoul. Jarosława Dąbrowskiego
64 50
Dąbkowskiegoul. Gen. Mieczysława Dąbkowskiego
38 42
Dane Orange znacząco wpływają na jakość wszystkich danych
Zgodność punktów adresowych zakończeń sieci z rejestrami państwowymi
Zgodność zakończeń sieci z referencyjną bazą punktów
adresowych dla województw
TERC Obszar % Przed % Po
Polska 79% 90%
02 dolnośląskie 82% 92%
04 kujawsko-pomorskie 83% 92%
06 lubelskie 83% 92%
08 lubuskie 81% 90%
10 łódzkie 80% 90%
12 małopolskie 79% 93%
14 mazowieckie 78% 91%
16 opolskie 72% 85%
18 podkarpackie 67% 92%
20 podlaskie 85% 93%
22 pomorskie 81% 91%
24 śląskie 77% 88%
26 świętokrzyskie 81% 91%
28 warmińsko-mazurskie 81% 93%
30 wielkopolskie 79% 86%
32 zachodniopomorskie 81% 93%
Zgodność punktów adresowych zakończeń sieci z rejestrami państwowymi
Wypełnienie pól INNE nie niesie niejednokrotnie żadnej użytecznej informacji� Mapowanie na wartości z bazy
raportowej� Wypełnienie pól INNE nie niesie
niejednokrotnie żadnej użytecznej informacji
� Weryfikacja kontekstowa poprawności i mapowanie
• Medium + technologia• Technologia + pakiet usług• Technologia + przepustowość• …..
Popularne wartości dla pola INNE dla pakietów
INNY inne - jakie?
INNY Inne usługi
INNY 1
INNY 0
Kategoria Liczba unikalnych wartości PRZED
czyszczeniem
Liczba unikalnych wartości PO do raportowania
Własność 39 9
Technologia 233 46
Pakiet usług 1128 92
Przepustowość 211 14
PRZYKŁADY BŁĘDÓWMEDIUM TECHNOLOGIA
RADIOWE ADSL2+
RADIOWE KABEL
RADIOWETAK - DLA MEDIUM ŚWIATŁOWODOWEGO, MIEDZIANEGO LUB RADIOWEGO
WSPÓŁOSIOWE MIEDZIANE EURODOSIS - WIFI
WSPÓŁOSIOWE MIEDZIANE WIFI - 2,4 GHZ
PAROWE MIEDZIANE ZALEZNIE OD POTRZEB KLIENTA
PAROWE MIEDZIANE NIE
ŚWIATŁOWODOWE WIFI 5 GHZ
ŚWIATŁOWODOWE ŚWIATŁOWODOWA I MIEDZIANA
INNE - JAKIE? INNA
UZUPEŁNIĆ INNA
ETHERNET, WLAN, FO INNA
MIEDZANE INNA
TECHNOLOGIA PAKIET
WIFI – 2,4 GHZ ATV
WIFI – 5 GHZ DTV_ATV
WIFI – 5 GHZ WIFI
WIFI – 2,4 GHZ DZIERŻAWA WŁÓKNA
WIFI – 2,4 GHZ DOSTĘP DO SIECI SZKOLNEJ I INTERNETU
WIFI INTERNET BEZPRZEWODOWY
Standaryzacja i mapowania na wartości raportowe
Widok stworzony z wykorzystaniem Google Maps podlega warunkom korzystania z usług Google.
Czyli błędne id miejscowości i nieprawdziwe dane o liczbie klientów na zakończeniu
Widok stworzony z wykorzystaniem Google Maps podlega warunkom korzystania z usług Google.
Przykłady zidentyfikowanych nieprawidłowości
Operatorzy
� Punkty adresowe
• Nieprawidłowe przypisanie ulicy z kodem 99998 do miejscowości, w której taka ulica nie istnieje. Ulica taka istnieje w miejscowościach przyległych na terenie tej samej gminy
• Błędne przypisanie SIMC miejscowości o identycznej nazwie (PNA, ulica, węzełdostępowy)
• Kod 99999 w miastach
• Nr porządkowe = „1,3,5,7,9,…
• Nieprawidłowa liczba klientów w punkcie adresowym
Miejscowo ść SIMCRozpi ętość w km wg
danych geo PT
Świnoujście 0979722 556
Darłowo 0949833 521
Szczecin 0977976 517
Sławno 0977410 506
Rzyszczewo 0750391 505
Tychowo 0750497 501
Nowogard 0979389 499
Suwałki 0977456 491
Mieroszyno 0170587 491
Kraków 0950463 487
Top 10 światowych metropolii według danych Geo PT
Czyli rozbieżności pomiędzy adresami a podanymi współrzędnymi Geo
� Światowe metropolie według Geo
� Punkty skupienia Geo operatorów np. :
• Punkt G1• 8 województw
• 15 powiatów
• 18 gmin i miejscowości
• Punkt G2• 863 adresy z 27 miejscowości i 6
powiatów w jednym miejscu
� Odległości pomiędzy adresami a danymi Geo
Przykłady zidentyfikowanych nieprawidłowości
Jeden z tajemniczych „Punktów
skupienia Geo”
Widok stworzony z wykorzystaniem Google Maps podlega warunkom korzystania z usług Google.
Województwo Powiat Gmina SIMC Miejscowo śćzachodniopomorskie
goleniowski Nowogard 979389Nowogard
wielkopolskie kępiński Kępno 936871Kępnomałopolskie krakowski Skawina 951876Skawinaśląskie Kraków Kraków 950463Kraków
podkarpackie leszczyńskiŚwięciechowa
377035Trzebiny
podlaskie mikołowskiŁaziska Górne
941139Łaziska Górne
mazowieckieropczycko-sędziszowski
Sędziszów Małopolski
974937Sędziszów Małopolski
dolnośląskie sławieński Sławno 750391RzyszczewoSuwałki Sławno 750497TychowoSzczecin Darłowo 949833DarłowoŚwinoujście Sławno 977410SławnoTychy Suwałki 977456Suwałkiwodzisławski Szczecin 977976Szczecinwołomiński Świnoujście 979722ŚwinoujścieWrocław Tychy 944534Tychy
Wodzisław Śląski
944853Wodzisław Śląski
Zielonka 921970ZielonkaWrocław 986283Wrocław
Województwo Powiat Gmina SIMC Miejscowo śćmałopolskie wadowicki Andrychów 924023 Andrychów
śląskieoświęcimski
Kęty 045089 Inwałd
nowotarski Nowy Targ 045221 Roczynysuski Osiek 045681 Sułkowice
żywieckiSucha Beskidzka
057247 Bulowice
bielski Wadowice 924365 KętyWieprz 057402 MalecCzernichów 057477 Nowa WieśKozy 057520 WitkowicePorąbka 961538 Nowy TargWilamowice 075660 Głębowice
063414 Osiek925287 Sucha Beskidzka926921 Wadowice075481 Gierałtowice075587 Gierałtowiczki075972 Wieprz051090 Międzybrodzie Bialskie058028 Kozy064371 Bujaków064431 Czaniec064661 Kobiernice064773 Porąbka076240 Hecznarowice076279 Pisarzowice926996 Wilamowice076523 Zasole Bielańskie
863 adresy na identycznych
współrzędnych
1. Wyznaczenie obszarów dla działania 8.4
2. Analizy dostępności infrastruktury szerokopasmowej
3. Analizy udziałów różnych technologii dostępowych
4. Analizy konkurencyjności
5. Informacja publiczna
6. Analizy świadczenia usług dostępu do Internetu bez pobierania opłat dla gmin
Do czego służą zebrane dane?
Wykorzystanie danych
1. Osiągniecie celów POPC
2. Informacja publiczna
3. Decyzje regulacyjne
4. Model interwencji w nowej perspektywie
5. Uzupełnienie i poprawa baz GUGIK/GUS
6. W planach realizacja portalu o dostępności usług szerokopasmowych
Do czego służą zebrane dane?
Wykorzystanie danych
Wykorzystanie danychDostępność 30Mbps
90% poprawności dla Polski może oznaczać blisko 0% poprawności na terenie wielu
powiatów i setek gmin
� Wysiłek wkładany przez PT w zakresie podnoszenia jakości danych z roku na rok jest widoczny, ale widzimy dalej miejsce na poprawę
� Dane są coraz lepsze choć niektórzy duzi operatorzy się pogorszyli
� Będziemy dążyć do ściślejszej kontroli danych wejściowych
� Będziemy dążyć do eliminacji przypadków przekazywania nieprawdziwych danych
Podsumowanie
Recommended