12
DATA WAREHOUSE (A) DataCleaner Oleh 1. I Wayan Gede Mayun Kepakisan 1204505001 2. Luh Putu Suestiani 1204505008 3. Intan Maya Prawita 1204505024 4. Desak Nyoman Hariwindaty Purwa 1204505025 5. Nuria Agustin 1204505027

Kualitas Data Memiliki Pengertian Kelengkapan Dan Keakuratan Data

  • Upload
    vani

  • View
    134

  • Download
    0

Embed Size (px)

DESCRIPTION

Audit TI

Citation preview

DATA WAREHOUSE (A)DataCleaner

Oleh1. I Wayan Gede Mayun Kepakisan12045050012. Luh Putu Suestiani12045050083. Intan Maya Prawita12045050244. Desak Nyoman Hariwindaty Purwa12045050255. Nuria Agustin1204505027

JURUSAN TEKNOLOGI INFORMASIFAKULTAS TEKNIK UNIVERSITAS UDAYANABUKIT JIMBARANTAHUN 2014Kualitas data memiliki pengertian kelengkapan dan keakuratan data, dalam data warehouse ini merupakan hal yang sangat penting karena berkaitan dengan elemen data yang terlibat contohnya adalah suatu entitas data pegawai/karyawan pasti akan memiliki suatu artibut seperti First Name Last Name Company Address City County (where applicable) State/Province (where applicable) ZIP/Postal Code Phone 1 Phone 2 Email WebUntuk dapat dikatakan sebagai data berkualitas terdapat beberapa indikator. Berikut ini akan dilakukan uji coba data sebuah contoh data dari sebuah entitas pegawai atau karyawan dengan nama file yaitu au-500.csv dimana data akan diterapkan kedalam masing-masing indikator dengan cara menggunakan ETL tools yaitu Data Cleaner Profesional 3.7.1.DataCleaner adalah sebuah aplikasi open source untuk menganalisis, membuat profil, transformasi, dan membersihkan data. Kegiatan ini membantu user mengelola dan memantau kualitas data user. Data berkualitas tinggi adalah kunci untuk membuat data yang berguna dan berlaku untuk semua bisnis modern.DataCleaner adalah alternatif gratis untuk perangkat lunak untuk menguasai pengelolaan data (MDM) metodologi, data proyek warehouse (DW), penelitian statistik, persiapan untuk aktivitas extract-transform-load (ETL) dan banyak lagi.Fitur-fitur pada DataCleaner antara lain:1. Monitoring data untuk mengelola kualitas data User, User perlu memonitor. Pemantauan adalah aspek sentral dengan DataCleaner, untuk menetapkan titik awal tujuan dan untuk memastikan proses menindaklanjuti masalah kualitas data.2. Pembersihan dan pengayaan data menggunakan data referensi, internal dan eksternal, untuk memverifikasi bahwa nilai-nilai data yang teah sesuai dengan dunia nyata. Periksa apakah alamat ada, jika nomor telepon diisi secara internasional, dan banyak lagi.3. Kualitas data pelanggan dimana tingkat informasi yang miskin tentang pelanggan user itu dapat merusak bisnis user. Pelanggan akan mudah kehilangan kepercayaan diri dalam perawatan data mereka, dan operasi internal User mungkin menderita juga.4. Pembuatan profil data dan analisis DQ dengan mencari pola, nilai yang hilang, set karakter dan karakteristik lain dari nilai data user. Jantung DataCleaner adalah mesin pembuat profil data yang kuat untuk menemukan dan menganalisis kualitas data user.5. Mendeteksi dan menggabungkan duplikat dimana Duplikat adalah driver yang paling umum untuk upaya kualitas data. Hindari masalah operasional dan pengalaman pelanggan yang buruk dengan mengidentifikasi jika User memiliki orang, perusahaan, dan produk yang sama terdaftar beberapa kali.6. ETLightweight super cepat dimana mesin pengolahan DataCleaner ini dibangun untuk tugas-tugas yang sagat interaktif, kinerja, dan fleksibel. Terapkan untuk tujuan analisis atau adhoc aktivitas Extract-Transform-Load (ETL) dengan alur kerja yang ringan.

Ada beberapa contoh yang dapat dilakukan didalam program tersebut diantaranya adalah menstuserrisasi email memisahkan username dengan domain. Pada DataCleaner, datastore yang digunakan bisa menggunakan beberapa format, misalnya .csv, excel, acces, SAS library, Dbase Database, XML, JSON, PostgreSQL dan masih banyak lagi. Pada contoh dibawah ini database diperoleh dari file csv, seperti ditunjukkan pada gambar dibawah ini:

Klik tombol save datastore sehingga data dapat diimport dan menghasilkan tampilan seperti gambar dibawah ini:

Lalu pada nama database dalam hal ini au-500.csv klik kanan add table to source, sehingga muncul tampilan seperti gambar dibawah ini:

Lalu untuk membedakan username dan domain dari beberapa email maka klik tombol transform lalu pilih matching and stuserrdzitation Email Stuserrdizer lalu pilih email, seperti gambar dibawah ini:

Pada gambar berikut terlihat pada skema data inputan distuserrdizer atau dirubah menjadi stuserr dari aplikasi. Merubah pada data contoh, email biasa kedalam format dua bagian row adalah username dan domain, maka data akan menjadi seperti berikut. Data berikut dapat juga langsung save kedalam file baru dimana file tersebut berisikan hasil pemisahan data.

Pemisahan data username dan domain bertujuan untuk memudahkan shorting ascending dan discening atau sebaliknya, ini akan membuat akurasi data dan performa semakin baik didalam pendesainan data warehouse.Cara yang sama memilih untuk dapat menstuserrtkan state atau suatu wilayah yang awalnya ditulis dengan data kode state tersebut dapat dirubah dengan menggunakan fitur Country Stuserrdizer akan nampak seperti gambar berikut. Data ini adalah data yang sudah ada didalam aplikasi tergantung pengguna untuk menampilkan seperti apa data yang diinginkan. data atau kode data tidak terdapat didalam sistem ini memungkinkan dalam penggunaanya lebih mudah menstuserrkan data.

Cara yang dapat dilakukan dengan memilih inputan coloumns dan memilih hasil akhir atau output columns. Berikut cara pemilihannya.

Data awal berupa file .csv dapat dirubah menjadi bentuk file ekstensi seperti gambar dibawah yaitu ada scv file, excel file, staging table, insert into table maupun update table.

Selain menggunakan sebagai pemisah data atau pengklarifikasi data software ini dapat digunakan untuk merubah tipe data, mencari data yang tidak valid yang dapat digunakan diberbagai penyimpanan data lainnya. Seperti dibawah ini cara merubah inputan tipe data string menjadi data numbering, contoh jika suatu huruf yang diisikan pada field kode pos makan data huruf tersebut akan hilang dan berubah menjadi data namun jika terdapat angka yang awalnya tidak dapat dijumlahkan karena bertipe String. Hal ini dapat diatasi dengan penggunaan fitur ini. Berikut Gambar dari penjelasan diatas.

Caranya dengan memilih settingan conversional kemudain di conversikan kedalam number maka pada saat pembuatan file baru bertipe sesuai dengan apa yang diinginkan akan muncul suatu field baru pada file tersebut dengan gambar sebagai berikut.