Upload
dea
View
238
Download
2
Embed Size (px)
DESCRIPTION
tugas resume
Citation preview
PENGEMBANGAN EVALUASI DAN PROSES PEMBELAJARAN FISIKA
‘’ PERBANDINGAN PENILAIAN, ASESMEN, PENGUKURAN DAN TESTING; BENTUK DAN JENIS ASESMEN; FUNGSI PENILAIAN;
VALIDITAS DAN REABILITAS; BIAS, STANDARD ERROR MEASUREMENT ‘’
Oleh:
EVIN EPRILLA CARDALIN
NIM. 14175016
PENDIDIKAN FISIKA KELAS A
DOSEN PEMBIMBING:
PROF.DR.FESTIYED,M.S
DR. DJUSMAINI DJAMAS, M.Si
JURUSAN FISIKA
PROGRAM PASCASARJANA
UNIVERSITAS NEGERI PADANG
2015
A. Pengertian Penilaian, Asesmen, Pengukuran, dan Testing
1. Penilaian dan Fungsi Penilaian
Penilaian adalah proses sistematis meliputi pengumpulan informasi
(angka, deskripsi verbal), analisis, interpretasi informasi untuk membuat
keputusan. Sedangkan menurut Kamus Besar Bahasa Indonesia (KBBI)
penilaian adalah proses, cara, perbuatan menilai; pemberian nilai (biji, kadar
mutu, harga): penelaahan.
Penilaian dilaksanakan melalui berbagai bentuk antara lain: penilaian
unjuk kerja (performance), penilaian sikap, penilaian tertulis (paper and pencil
test), penilaian proyek, penilaian melalui kumpulan hasil kerja/karya peserta
didik (portfolio), dan penilaian diri.
Penilaian hasil belajar baik formal maupun informal diadakan dalam
suasana yang menyenangkan, sehingga memungkinkan peserta didik
menunjukkan apa yang dipahami dan mampu dikerjakannya. Hasil belajar
seorang peserta didik tidak dianjurkan untuk dibandingkan dengan peserta
didik lainnya, tetapi dengan hasil yang dimiliki peserta didik tersebut
sebelumnya.
Pengertian penilaian menurut beberapa ahli:
a. Stiggins (1994), penilaian adalah proses, kemajuan, dan hasil belajar siswa
(outcomes).
b. Kumano (2001), penilaian sebagai “The process of Collecting data which
shows the development of learning”. Dengan demikian dapat disimpulkan
bahwa penilaian merupakan istilah yang tepat untuk menilai proses belajar
siswa. Namun meskipun proses belajar siswa merupakan hal penting yang
dinilai dalam penilaian, faktor hasil belajar juga tetap tidak
dikesampingkan.
c. Suharsimi Arikunto (2007), penilaian adalah pengambilan suatu keputusan
terhadap sesuatu dengan ukuran baik buruk.
d. Nana Sudjana (2010), penilaian adalah proses memberikan atau
menentukan nilai kepada objek tertentu berdasarkan suatu criteria tertentu.
e. Slameto (1998), penilaian adalah proses belajar siswa dengan sasaran pada
hasil belajar.
Fungsi Penilaian
Penilaian merupakan salah satu bagian yang penting dalam kegiatan
pembelajaran. Dikatakan bagian penting, karena kegiatan ini akan menjadi
cermin untuk melihat perkembangan atau kemajuan belajar siswa dari waktu ke
waktu. Selain itu, penilaian akan memberikan gambaran kepada guru tentang
tingkat pencapaian prestasi belajar antara seorang siswa dengan siswa yang
lain. Sedangkan bagi guru, kegiatan penilaian berguna untuk melihat
keberhasilan suatu proses pembelajaran yang telah ia jalankan.
Fungsi penilaian adalah sebagai berikut:
a. Penilaian berfungsi selektif
Dengan cara mengadakan penilaian, guru mempunyai cara untuk
mengadakan seleksi atau penilaian terhadap siswanya. Penilaian itu sendiri
mempunyai berbagai tujuan, antara lain:
1) untuk memilih siswa yang dapat diterima di sekolah tertentu.
2) untuk memilih siswa yang dapat naik ke kelas atau tingkat berikutnya.
3) untuk memilih siswa yang seharusnya mendapat beasiswa.
4) untuk memilih siswa yang sudah berhak meninggalkan sekolah, dan
sebagainya.
b. Penilaian berfungsi diagnostic
Apabila alat yang digunakan dalam penilaian cukup memenuhi persyaratan,
maka dengan melihat hasilnya, guru akan mengetahui kelemahan siswa. Di
samping itu, diketahui pula sebab-musabab kelemahan itu. Jadi, dengan
mengadakan penilaian, sebenarnya guru mengadakan diagnosis kepada siswa
tentang kebaikan dan kelemahannya.
c. Penilaian berfungsi sebagai penempatan
Sistem baru yang kini banyak dipopulerkan di negara barat, adalah sistem
belajar sendiri. Belajar sendiri dapat dilakukan dengan cara mempelajari
sebuah paket belajar, baik itu berbentuk modul maupun paket belajar yang lain.
Sebagai alasan dari timbulnya sistem ini adalah adanya pengakuan yang besar
terhadap kemampuan individual. Setiap siswa sejak lahirnya telah membawa
bakat sendiri-sendiri sehingga pelajaran akan lebih efektif apabila disesuaikan
dengan pembawaan yang ada. Akan tetapi disebabkan karena keterbatasan
sarana dan tenaga, pendidikan yang bersifat individual kadang-kadang sukar
sekali dilaksanakan. Pendekatan yang lebih bersifat melayani perbedaan
kemampuan, adalah pengajaran secara kelompok. untuk dapat menentukan
dengan pasti di kelompok mana seorang siswa harus ditempatkan, digunakan
suatu penilaian.
d. Penilaian berfungsi sebagai pengukur keberhasilan
Fungsi keempat dari penilaian ini dimaksudkan untuk mengetahui sejauh
mana suatu program berhasil diterapkan. Keberhasilan program ditentukan
oleh beberapa faktor yaitu faktor guru, metode mengajar, kurikulum, sarana,
dan sistem administrasi.
2. Asesmen, Proses Asesmen, Prinsip Asesmen, Teknik Asesmen, Bentuk
dan Jenis Asesmen
a. Definisi Assesmen
Asesmen dalam pembelajaran adalah suatu proses atau upaya formal
pengumpulan informasi yang berkaitan dengan variabel-variabel penting
pembelajaran sebagai bahan dalam pengambilan keputusan oleh guru untuk
memperbaiki proses dan hasil belajar siswa. Variabel-variabel penting yang
dimaksud sekurang-kurangya meliputi pengetahuan, pemahaman, keterampilan
dan sikap siswa dalam pembelajaran yang diperoleh guru dengan berbagai
metode dan prosedur baik formal maupun informal sebagai berikut.
“A general term enhancing all methods customarily used to appraise
performance of an individual pupil or group. It may refer to a broad appraisal
including many sources of evidence and many aspect of pupil’s knowledge,
understanding, skills and attitudes; An assess-ment instrument may be any
method and procedure, formal or in-formal, for producing information about
pupil….”.
Pengertian asesmen dalam berbagai literatur asing tersebut di atas selaras
dengan makna penilaian yang digariskan dalam Buku Pedoman Penilaian pada
kurikulum pendidikan dasar. Dalam buku tersebut tertulis bahwa, penilaian
adalah suatu kegiatan yang dilakukan oleh guru untuk memberikan berbagai
informasi secara berkesinambungan dan menyeluruh tentang proses dan hasil
belajar yang telah dicapai (Depdikbud). Ada pun yang dimaksud dengan
asesmen alternatif (alternative assessment) adalah segala jenis bentuk asesmen
diluar asesmen konvensional (selected respon test dan paper-pencil test) yang
lebih autentik dan signifikan mengungkap secara langsung proses dan hasil
belajar siswa. Herman (1997) memberikan semboyan khusus bagi asesmen
alternatif dengan ungkapan “What You Get is What You Assess” (WYGWYA).
Dalam beberapa literatur, asesmen alternatif ini kadang-kadang disebut juga
asesmen autentik (authentic assessment), asesmen portofolio (portfolio
assessment) atau asesmen kinerja (performance assessment).
Secara umum, asesmen dapat diartikan sebagai proses untuk
mendapatkan informasi dalam bentuk apapun yang dapat digunakan untuk
dasar pengambilan keputusan tentang siswa baik yang menyangkut
kurikulumnya, program pembelajarannya, iklim sekolah maupun kebijakan-
kebijakan sekolah.
Asesmen secara sederhana dapat diartikan sebgai proses pengukuran dan
non pengukuran untuk memperoleh data karakteristik peserta didik dengan
aturan tertentu. Dalam pelaksanaan asesmenpembelajaran guru dihadapkan
pada 3 (tiga) istilah yang sering dikacaukan pengertiannya, atau bahkan sering
pula digunakan secara bersama yaitu istilah pengukuran, penilaian, dan test.
b. Proses Assesmen
Dalam menerapkan asesmen ada beberapa mekanisme atau prosedur
asesmen yang harus diperhatikan:
1) Penilaian oleh pendidik
Dilakukan secara berkesinambungan, bertujuan untuk memantau proses
dan kemajuan belajar peserta didik serta untuk meningkatkan efektivitas
kegiatan pembelajaran. Instrumen penilaian hasil belajar yang digunakan
pendidik memenuhi persyaratan:
a) Substansi adalah merepresentasikan kompetensi yang dinilai,
b) Konstruksi adalah memenuhi persyaratan teknis sesuai dengan bentuk
instrumen yang digunakan, dan
c) Bahasa adalah menggunakan bahasa yang baik dan benar serta
komunikatif sesuai dengan taraf perkembangan peserta didik.
2) Penilaian oleh satuan pendidikan
Penilaian hasil belajar oleh satuan pendidikan dilakukan untuk menilai
pencapaian kompetensi peserta didik pada semua mata pelajaran. Instrumen
penilaian yang digunakan oleh satuan pendidikan dalam bentuk ujian
sekolah/madrasah memenuhi persyaratan substansi, konstruksi, dan bahasa,
serta memiliki bukti validitas empirik.
3) Penilaian oleh pemerintah
Penilaian hasil belajar oleh pemerintah dilakukan dalam bentuk UN yang
bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional
pada mata pelajaran tertentu dalam kelompok mata pelajaran ilmu
pengetahuan dan teknologi. Instrumen penilaian yang digunakan oleh
pemerintah dalam bentuk UN memenuhi persyaratan substansi, konstruksi,
bahasa, dan memiliki bukti validitas empirik serta menghasilkan skor yang
dapat diperbandingkan antarsekolah, antardaerah, dan antartahun.
c. Prinsip-prinsip Assesmen
Guru mempunyai posisi sentral dalam menentukan keberhasilan dan
kegagalan kegiatan penilaian. Untuk itu, dalam pelaksanaan penilaian harus
memperhatikan prinsip-prinsip berikut:
1) Valid
PBK harus mengukur obyek yang seharusnya diukur dengan
menggunakan jenis alat ukur yang tepat atau sahih (valid). Artinya, ada
kesesuaian antara alat ukur dengan fungsi pengukuran dan sasaran
pengukuran. Apabila alat ukur tidak memiliki kesahihan yang dapat
dipertanggungjawabkan, maka data yang masuk salah sehingga kesimpulan
yang ditarik juga besar kemungkinan menjadi salah.
2) Mendidik
PBK harus memberikan sumbangan positif pada pencapaian hasil
belajar siswa. Oleh karena itu, PBK harus dinyatakan dan dapat dirasakan
sebagai penghargaan untuk memotivasi siswa yang berhasil (positive
reinforcement) dan sebagai pemicu semangat untuk meningkatkan hasil
belajar bagi yang kurang berhasil (negative reinforcement), sehingga
keberhasilan dan kegagalan siswa harus tetap diapresiasi dalam penilaian.
3) Berorientasi pada kompetensi
PBK harus menilai pencapaian kompetensi siswa yang meliputi
seperangkat pengetahuan, sikap, dan ketrampilan/nilai yang terefleksikan
dalam kebiasaan berfikir dan bertindak. Dengan berpijak pada kompetensi
ini, maka ukuran-ukuran keberhasilan pembelajaran akan dapat diketahui
secara jelas dan terarah.
4) Adil dan obyektif
PBK harus mempertimbangkan rasa keadilan dan obyektivitas siswa,
tanpa membeda-bedakan jenis kelamin, latar belakang budaya, dan berbagai
hal yang memberikan kontribusi pada pembelajaran. Sebab ketidakadilan
dalam penilaian, dapat menyebabkan menurunnya motivasi belajar siswa,
karena merasa dianaktirikan.
5) Terbuka
PBK hendaknya dilakukan secara terbuka bagi berbagai kalangan
(stakeholders) baik langsung maupun tidak langsung, sehingga keputusan
tentang keberhasilan siswa jelas bagi pihak-pihak yang berkepentingan,
tanpa ada rekayasa atau sembunyi-sembunyi yang dapat merugikan semua
pihak.
6) Berkesinambungan
PBK harus dilakukan secara terus-menerus atau berkesinambungan
dari waktu ke waktu, untuk mengetahui secara menyeluruh perkembangan
siswa, sehingga kegiatan dan unjuk kerja siswa dapat dipantau melalui
penilaian.
7) Menyeluruh
PBK harus dilakukan secara menyeluruh, yang mencakup aspek
kognitif, afektif, dan psikomotorik serta berdasarkan pada strategi dan
prosedur penilaian dengan berbagai bukti hasil belajar siswa yang dapat
dipertanggungjawabkan kepada semua pihak.
8) Bermakna
PBK diharapkan mempunyai makna yang signifikan bagi semua
pihak. Untuk itu, PBK hendaknya mudah dipahami dan dapat ditindaklanjuti
oleh pihak-pihak yang berkepentingan. Hasil penilaian hendaknya
mencerminkan gambaran yang utuh tentang prestasi siswa yang
mengandung informasi keunggulan dan kelemahan, minat dan tingkat
penguasaan siswa dalam pencapaian kompetensi yang telah ditetapkan.
d. Teknik Assesmen
Apapun bentuk dan jenis asesmen yang dilakukan, hal ini tetap menuntut
suatu perencanaan, termasuk pada saat melakukan analisis. Dengan demikian
maka akan diperoleh alat ukur atau instrumen yang benar-benar dapat
diandalkan (valid) dan dapat dipercaya (reliabel) dalam mengukur apa yang
seharusnya diukur. Berikut ini adalah langkah-langkah yang perlu dilakukan
dalam melakukan asesmen:
1) Perencanaan
Aspek yang harus ada dalam perencanaan asesmen adalah:
a) Memilih fokus asesmen pada aspek tertentu dari diri konselee
b) Memilih instrumen yang akan digunakan.
Setelah ditentukan fokus area asesmen, Anda dapat merencanakan
instrumen yang akan digunakan dalam asesmen. Banyak instrumen yang
dapat digunakan dalam asesmen seperti tes psikologis, observasi, inventori,
dan sebagainya. Tetapi untuk menentukan instrumen sangat tergantung
pada aspek apa yang akan diasesmen.
c) Penetapan waktu
Perencanaan waktu yang dimaksud adalah kapan asesmen akan
dilakukan. Penetapan waktu ini sangat erat berhubungan engan persiapan
pelaksanaan asesmen. Persiapan akan banyak menentukan keberhasilan
suatu asesmen, misalnya mempersiapkan instrumen, tempat, dan
peralatan lain yang diperlukan dalam pelaksanaan asesmen.
d) Validitas dan reliabilitas
Apabila instrumen yang kita gunakan adalah buatan sendiri atau
dikembangkan sendiri, maka instrumen itu perlu diuji validitas dan
reliabilitasnya. Karena validitas dan reliabilitas merupakan suatu syarat
mutlak suatu instrumen asesmen. Namun apabila kita menggunakan
instrumen yang sudah terstandar, Anda tidak perlu mencari validitas dan
reliabilitas karena instrumen tersebut sudah jelas memenuhi persyaratan
sebagai suatu instrumen.
2) Pelaksanaan
Setelah perencanaan asesmen selesai, selanjutnya adalah bagaimana
melaksanakan rencana yang telah dibuat tersebut. Hal-hal yang perlu
diperhatikan dalam melaksanakan asesmen adalah pelaksanaannya harus
sesuai dengan manual masing-masing instrumen. Manual suatu instrumen
biasanya memuat:
a) Analisis data
Analisis dilakukan dengan mengikuti petunjuk yang ada dalam
manual masing-masing instrumen. Saat melakukan analisis data kualitatif,
perlu dilakukan beberapa langkah sebagai berikut:
1) Yakinkan semua data telah tersedia,
2) Buatlah salinan data untuk berjaga-jaga kalau ada yang hilang,
3) Aturlah data dalam judul dan masukkan dalam file,
4) Gunakan sistem kartu-kartu dalam map,
5) Periksa kebenaran hasil asesmen.
Apabila data bersifat kuantitatif maka analisis data dilakukan
dengan menggunakan statistik. Dewasa ini, program statistik dapat
dengan mudah dilakukan dengan bantuan komputer, seperti program
excel, LISREL, SPSS, dan sebagainya.
b) Interpretasi data
Interpretasi diartikan sebagai upaya mengatur dan menilai fakta,
menafsirkan pandangan, dan merumuskan kesimpulan yang mendukung.
Penafsiran harus dirumuskan dengan hati-hati, jujur, dan terbuka. Berikut
ini adalah hal-hal yang harus ada dalam interpretasi, yaitu:
1) Komponen untuk menafsirkan atau interpretasi hasil analisis data.
Interpretasi berarti menilai objek asesmen dan
menentukandampakasesmen tersebut.
2) Petunjuk untuk menafsirkan analisis data.
c) Tindak lanjut
Tindak lanjut adalah menindak lanjuti hasil asesmen.
e. Bentuk dan Jenis Assesmen
Asesmen dapat dikategorikan menjadi 2 jenis yaitu :
1) Asesmen Konvensional
Biasanya menggunakan paper and pencil test atau disebut dengan
asesmen formal atau asesmen konvensional. Disebut demikian karena
metode inilah yang biasa digunakan oleh guru. Metode paper and pencil
test hanya dapat mengukur kemampuan kognitif peserta didik namun belum
dapat mengukur hasil belajar peserta didik secara holistik. Soal-soal tes
tradisional dibagi menjadi 2 tipe yaitu selected response items (soal pilihan
ganda dan benar-salah, memungkinkan siswa memilih jawaban di antara
alternatif yang tersedia) dan constructed-response item (esai atau jawaban
pendek mengisi titik-titik, mengharuskan siswa memberikan jawabannya
sendiri).
2) Asesmen Berbasis Kinerja
Asesmen ini menginginkan siswa dapat mengerjakan tugas tertentu
seperti menulis esai, melakukan eksperimen, menginterpretasi solusi untuk
masalah atau menggambarkan sesuatu. Siswa mengerjakan beragam tugas
selama beberapa hari, bukan tugas yang dapat diakses beberapa menit. Hal
ini merupakan upaya mengukur berbagai macam keterampilan dan proses
intelektual yang kompleks. Asesmen kinerja bisa dalam bentuk portofolio
siswa atau penilaian dalam proses belajar mengajar misalkan dalam kerja
kelompok, eksperimen, atau diskusi kelompok.
3) Pengukuran dan Testing
a) Pengukuran
Dalam dunia pendidikan, yang dimaksud pengukuran sebagaimana
disampaikan Cangelosi adalah proses pengumpulan data melalui
pengamatan empiris. Proses pengumpulan ini dilakukan untuk menaksir apa
yang telah diperoleh siswa setelah mengikuti pelajaran selama waktu
tertentu. Proses ini dapat dilakukan dengan mengamati kinerja mereka,
mendengarkan apa yang mereka katakan serta mengumpulkan informasi
yang sesuai dengan tujuan melalui apa yang telah dilakukan siswa.
Menurut Mardapi pengukuran pada dasarnya adalah kegiatan penentuan
angka terhadap suatu obyek secara sistematis. Karakteristik yang terdapat
dalam obyek yang diukur ditransfer menjadi bentuk angka sehingga lebih
mudah untuk dinilai. aspek-aspek yang terdapat dalam diri manusia seperti
kognitif, afektif dan psikomotor dirubah menjadi angka. Karenanya,
kesalahan dalam mengangkakan aspek-aspek ini harus sekecil mungkin.
Kesalahan yang mungkin muncul dalam melakukan pengukuran khususnya
dibidang ilmu-ilmu sosial dapat berasal dari alat ukur, cara mengukur dan
obyek yang diukur.
Hal ini sesuai dengan firman Allah dalam Surat Al-Ankabut ayat 2-3
(٤٩) ب� �اه� �قن ل خ� �ا �ن إ �ل� ك يء� ش� �اه� �قن ل خ� ق�د�ر�
Artinya : Sesungguhnya Kami menciptakan segala sesuatu menurut
ukuran” (Al Qamar: 49).
Pengukuran dalam bidang pendidikan erat kaitannya dengan tes. Hal ini
dikarenakan salah satu cara yang sering dipakai untuk mengukur hasil yang
telah dicapai siswa adalah dengan tes. Selain dengan tes, terkadang juga
dipergunakan nontes. Jika tes dapat memberikan informasi tentang
karakteristik kognitif dan psikomotor, maka nontes dapat memberikan
informasi tentang karakteristik afektif obyek.
b) Testing
Tes merupakan sejumlah pertanyaan yang memiliki jawaban yang benar
atau salah. Tes juga diartikan juga diartikan sebagai sejumlah pertanyaan
yang membutuhkan jawaban, atau sejumlah pernyataan yang harus
diberikan tanggapan dengan tujuan mengukur tingkat kemampuan seseorang
atau mengungkap aspek tertentu dari orang yang dikenai tes. Hasil tes
merupakan informasi tentang karakteristik seseorang atau sekelompok
orang. Tes merupakan salah satu cara untuk menaksir besarnya tingkat
kemampuan manusia secara tidak langsung, yaitu melalui respons seseorang
terhadap sejumlah stimulus atau pertanyaan. Oleh karena itu agar diperoleh
informasi yang akurat dibutuhkan tes yang handal.
Hal ini sesuai dengan firman Allah dalam Surat Al-Baqarah ayat 44
�ون� ل �ت ت �م ت ن� و�أ �م ك ف�س� �ن أ ون� س� �ن و�ت �ر$ ب �ال ب �اس� الن ون� م�ر�
�أ �ت أ
�ون� �عق�ل ت �ف�ال أ �اب� �ت ك ال
Artinya : “Mengapa kalian menyuruh orang lain (mengerjakan) kebajikan,
sedang kalian melupakan diri (kewajiban)mu sendiri, padahal kalian
membaca Al Kitab (Taurat)? Maka mengapa kalian tidak menggunakan
akal?”.
B. Validitas dan Reabilitas
1. Pengertian Validitas
a. Azwar (1986), validitas berasal dari kata validity yang mempunyai arti
sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan
fungsi ukurnya.
b. Arikunto (1999), validitas adalah suatu ukuran yang menunjukkan
tingkat kesahihan suatu tes.
c. Nursalam (2003), validitas adalah suatu ukuran yang menunjukkan
tingkat kevalidan atau kesahihan suatu instrumen.
Berdasarkan beberapa pendapat tentang pengertian validitas di atas, maka
dapat diambil kesimpulan bahwa validitas adalah suatu standar ukuran yang
menunjukkan ketepatan dan kesahihan suatu instrumen.
Menurut Arikunto (1999) suatu tes dikatakan valid apabila tes tersebut
mengukur apa yang hendak diukur. Tes memiliki validitas yang tinggi jika
hasilnya sesuai dengan kriteria, dalam arti memiliki kesejajaran antara tes dan
kriteria.
2. Jenis-jenis Validitas
Menurut Sudijono (2009) terdapat berbagai jenis validitas, antara lain:
a. Pengujian Validitas Tes Secara Rasional
Validitas rasional adalah validitas yang diperoleh atas dasar hasil
pemikiran, validitas yang diperoleh dengan berpikir secara logis.
1) Validitas Isi (Content Validity)
Validitas isi dari suatu tes hasil belajar adalah validitas yang
diperoleh setelah dilakukan penganalisisan, penelususran atau
pengujian terhadap isi yang terkandung dalam tes hasil belajar
tersebut. Validitas isi adalah yang ditilik dari segi isi tes itu sendiri
sebagai alat pengukur hasil belajar yaitu: sejauh mana tes hasil
belajar sebagai alat pengukur hasil belajar peserta didik, isisnya
telah dapat mewakili secara representatif terhadap keseluruhan
materi atau bahkan pelajaran yang seharusnya diteskan (diujikan).
2) Validitas konstruksi (Construct Validity)
Validitas konstruksi dapat diartikan sebagai validitas yang ditilik
dari segi susunan, kerangka atau rekaannya. Adapun secara
terminologis, suatu tes hasil belajar dapat dinyatakan sebagai tes
yang telah memiliki validitas konstruksi, apabila tes hasil belajar
tersebut telalh dapat dengan secara tepat mencerminkan suatu
konstruksi dalam teori psikologis.
b. Pengujian Validitas Tes Secara Empirik
Validitas empirik adalah ketepatan mengukur yang didasarkan pada
hasil analisis yang bersifat empirik. Dengan kata lain, validitas empirik
adalah validitas yang bersumber pada atau diperoleh atas dasar
pengamatan di lapangan.
1) Validitas ramalan (Predictive validity)
Validitas ramalan adalah suatu kondisi yang menunjukkan seberapa
jauhkah sebuah tes telah dapat dengan secara tepat menunjukkan
kemampuannya untuk meramalkan apa yang bakal terjadi pada masa
mendatang.
2) Validitas bandingan (Concurrent Validity)
Tes sebagai alat pengukur dapat dikatakan telah memiliki validitas
bandingan apabila tes tersebut dalam kurun waktu yang sama dengan
secara tepat mampu menunjukkan adanya hubungan yang searah,
antara tes pertama dengan tes berikutnya.
3. Pengertian Reabilitas
a. Sugiono (2005), Pengertian Reliabilitas adalah serangkaian pengukuran
atau serangkaian alat ukur yang memiliki konsistensi bila pengukuran
yang dilakukan dengan alat ukur itu dilakukan secara berulang.
Reabilitas tes adalah tingkat keajegan (konsitensi) suatu tes, yakni sejauh
mana suatu tes dapat dipercaya untuk menghasilkan skor yang ajeg,
relatif tidak berubah walaupun diteskan pada situasi yang berbeda-beda.
b. Sukadji (2000), reliabilitas suatu tes adalah seberapa besar derajat tes
mengukur secara konsisten sasaran yang diukur. Reliabilitas dinyatakan
dalam bentuk angka, biasanya sebagai koefisien. Koefisien tinggi berarti
reliabilitas tinggi.
c. Nursalam (2003), reliabilitas adalah kesamaan hasil pengukuran atau
pengamatan bila fakta atau kenyataan hidup tadi diukur atau diamati
berkali – kali dalam waktu yang berlainan. Alat dan cara mengukur atau
mengamati sama – sama memegang peranan penting dalam waktu yang
bersamaan.
Berdasarkan beberapa pendapat tentang pengertian reliabilitas di atas, maka
dapat diambil kesimpulan bahwa reliabilitas adalah suatu keajegan suatu tes
untuk mengukur atau mengamati sesuatu yang menjadi objek ukur.
4. Cara-cara mencari besarnya reliabilitas
Kriterium yang digunakan untuk mengetahui ketetapan ada yang berada
diluar tes (consistency external) dan pada tes itu sendiri (consistency internal).
a. Metode bentuk paralel
Tes paralel atau tes ekivalen adalah 2 buah tes yang mempunyai
kesamaan tujuan, tingkat kesukaran, dan susunan tetapi butir-butir soalnya
berbeda. Dalam menggunakan metode tes paralel ini pengetes harus
menyiapkan dua buah tes, dan masig-masing dicobakan pada kelompok siswa
yang sama. Oleh sebab itu disebut juga double test-double-trial method.
Kelemahan dari metode ini adalah bahwa pengetes pekerjaannya berat karena
harus menyusun dua seri tes. Lagipula harus tersedia waktu yang lama untuk
mencobakan 2 kali tes.
b. Metode tes ulang
Metode tes ulang dilakukan orang untuk menghindari penyusunan dua
seri tes. Dalam metode ini pengetes hanya memiliki satu seri tes tetapi
dicobakan 2 kali. Oleh karena itu tes nya hanya satu dan dicobakan 2 kali
disebut juga dengan single test-double –trial method. Kemudian hasil dari
kedua kali tes tersebut dihitung korelasinya.
Pada umumnya hasil tes yang kedua cenderung lebih baik daripada hasil
tes yang pertama. Hal ini tidak mengapa karena pengetes harus sadar akan
adanya practice effect dan carry over effect.
c. Metode Belah Dua atau Split-half Method
Dalam menggunakan metode ini pengetes hanya menggunakan sebuah
tes dan dicobakan satu kali. Oleh karena itu, disebut juga single-test-single trial
method. Pada waktu membelah dua dan mengkorelasikan dua belahan, baru
diketahui reliabilitas separo tes. Untuk mengetahui reliabilitas seluruh tes harus
digunakan rumus Spearman-Brown.
C. Bias dan Standard Error Measurement
1) Bias
Bias adalah sebuah penyajian bahan yang dipenuhi prasangka. Ia juga
berarti kesalahan yang konsisten dalam memperkirakan sebuah nilai. Ada dua
tipe bias: bias sampel dan bias pengukuran.
a) Bias sampel
Sampel adalah sekumpulan satuan yang dipilih untuk diukur dari
kelompok yang lebih besar (populasi). Bias sampel terjadi ketika sampel yang
digunakan tidak mewakili populasi atau tidak sesuai dengan pertanyaan yang
diajukan.
Faktor-faktor yang menyebabkan bias sampel adalah ukuran sampel dan
seleksi sampel. Ukuran sampel harus cukup besar agar dipeoleh nilai rata-rata
yang baik. Sebagai contoh, untuk menentukan tinggi rata-rata mahasiswa di
ruang kelas, seberapa banyak mahasiswa yang harus diukur untuk
mendapatkan perkiraan terbaik? Apakah bisa dikatakan teliti jika kita hanya
mengambil sampel dari tiga orang mahasiswa saja?
Sampel juga harus memiliki komposisi yang mencerminkan komposisi
populasi. Faktor seperti lokasi, usia, gender, etnisitas, kebangsaan, dan
lingkungan hidup dapat mempengaruhi data yang dikumpulkan. Contoh bias
seleksi sampel adalah sebagai berikut: seorang peneliti ingin menemukan
tinggi rata-rata mahasiswa di ruang kelas. Ada beberapa mahasiswa yang ikut
pertandingan basket sehingga harus pulang lebih awal. Kelompok mahasiswa
ini dijadikan sampel oleh peneliti tersebut. Para pemain basket umumnya
berbadan tinggi sehingga bila mereka dijadikan sampel, akibatnya muncul
rata-rata yang lebih tinggi dari sebenarnya ada bila kita mengukur populasi
secara keseluruhan. Dalam kasus ini tentu akan lebih baik mengukur seluruh
mahasiswa di ruang kelas (populasi). Namun hal ini tidak dapat dilakukan bila
kita bicara mengenai rata-rata tinggi penduduk di suatu negara atau provinsi,
karena jumlahnya sangat banyak dan tidak mungkin dilakukan pengukuran
tinggi secara keseluruhan.
b) Bias pengukuran
Bias pengukuran berurusan dengan masalah apakah metode
pengumpulan data yang dipilih telah sesuai sehingga data yang dikumpulkan
merupakan yang paling mewakili kenyataan? Untuk mengevaluasi teknik
pengumpulan data, pengukuran harus dilakukan dengan seteliti mungkin. Tidak
boleh ada tambahan pada lingkungan yang dapat mempengaruhi hasil. Selain
itu, eksperimen harus dirancang untuk mengisolasi pengaruh dari banyak faktor
lainnya.
Contoh pengukuran yang tidak akurat adalah pengukuran tinggi
dimana tinggi orang diukur tidak dari nol, tapi dari satu. Akibatnya pengukuran
menghasilkan nilai lebih tinggi dari realitas. Contoh pengaruh lingkungan yang
menyebabkan bias pada pengukuran tinggi adalah mengukur tinggi orang yang
memakai sepatu. Sepatu menyebabkan pertambahan tinggi dan ukuran tinggi
sepatu tiap orang berbeda, akibatnya hasil pengukuran juga tidak sesuai dengan
realitas.
Contoh bias yang disebabkan pengaruh dari banyak faktor adalah
sebagai berikut. Seorang peneliti mencoba menguji hipotesis kalau mahasiswa
yang tidur lebih dari 7 jam pada malam sebelum ujian akan memberikan hasil
yang lebih baik dari yang tidur kurang dari 7 jam. Peneliti tersebut tidak
mempertimbangkan faktor lain seperti apakah mereka tidur sedikit karena
belajar persiapan untuk besok atau apakah mereka sarapan sebelum berangkat
ke kampus. Bagaimana bisa kita menyimpulkan kalau hasil penelitian,
katakanlah ternyata mahasiswa yang tidur lebih dari 7 jam memiliki skor lebih
tinggi, jika ternyata itu bukan karena tidurnya tapi karena faktor-faktor lainnya.
Jika pada suatu tes memuat butir-butir yang memihak kelompok tertentu,
maka tes tersebut dikatakan memuat bias atau mengandung keberfungsian butir
diferensial (Differential Item Functioning, DIF). Adanya butir bias ini
mengakibatkan suatu tes bersifat diskriminatif atau memihak pada kelompok
tertentu yang penyebabnya dapat ditinjau dari berbagai segi, misalnya ras (etnik),
budaya, wilayah, jenis kelamin, dan lain-lain.
Dalam pengukuran pendidikan, istilah bias pada suatu butir dikenal
sebagai Differential Item Functioning (DIF) atau keberfungsian butir diferensial.
Berbagai teknik atau metode pendeteksian DIF telah banyak ditemukan dan
digunakan. Selain keberfungsian butir diferensial, untuk mengindikasikan suatu
tes adil bagi semua golongan atau tidak, dapat digunakan keberfungsian tes
diferensial (Differential Test Functioning, DTF). Keberfungsian tes diferensial ini
merupakan hal yang penting bagi suatu perangkat soal karena DTF dapat
menentukan apakah suatu tes adil bagi semua kelompok peserta tes atau tidak.
Dalam teori klasik, penentuan butir mudah dan butir sukar dilakukan
melalui kelompok peserta. Butir yang dapat dijawab dengan benar oleh banyak
peserta didalam kelompok tersebut dianggap sebagai butir mudah, serta butir yang
dijawab benar oleh hanya sedikit peserta tes di dalam kelompok itu dianggap butir
sukar. Pada teori klasik, pendeteksian bias bergantung pada ukuran kelompok
tersebut. Jika ukuran kelompok tersebut besar, maka anggapan ini dapat lebih
valid daripada jika ukuran kelompok tersebut kecil.
Pendeteksian bias butir dalam teori modern, kesukaran butir merupakan
invarian, dan dikalibrasikan melalui jumlah peserta yang selalu berukuran cukup
besar. Tidak menjadi soal kelompok manapun yang mengerjakan ujian atau tes
tersebut, karena parameter kesukaran butirnya tetap. Karena itu, deteksi bias butir
dengan teori modern lebih dapat diandalkan daripada teori klasik.
2) Standard Error Measurement
Kesalahan pengukuran (errors of measurement) adalah perbedaan antara
nilai sesungguhnya dari suatu pekerjaan seseorang dan nilai yang diperoleh oleh
orang tersebut. Kesalahan pengukuran berasal dari beberapa hal, yaitu :
a) Accidental/Chance Errors
Kesalahan-kesalahan ini dapat terjadi kapan saja, misalnya saja, keributan di
tempat tes atau keadaan subjek tes yang tidak begitu sehat, yang merupakan faktor
pengganggu sehingga kemudian menjadikan kesalahan pada hasil tes tersebut.
Dikarenakan faktor-faktor tersebut terjadi secara kebetulan, maka kemungkinan
terjadinya kesalahan tersebut pun menjadi bermacam-macam. Selain itu, hasil
yang diakibatkan oleh faktor-faktor tersebut pun bermacam-macam, terkadang
dapat meningkatkan atau juga menurunkan hasil yang didapat. Terdapat 3 tipe
dalam kesalahan ini, yaitu:
Tipe I : Test-centered Errors
Kesalahan yang terdapat dalam tes atau instrumen yang digunakan. Contoh:
terdapatnya item dalam tes yang bersifat kultural sehingga memunculkan
hasil yang berbeda pada subjek yang berasal dari daerah yang berbeda.
Tipe II : Subject-centered Errors
Segala macam faktor yang berhubungan dengan subjek tes, apakah itu
kesehatan, motivasi, kemauan, dan lain sebagainya.
Tipe III : Assessment Errors
Kebanyakan terjadi karena faktor situasi. Misalnya, terlalu banyaknya para
penguji menyebabkan adanya ketidaknyamanan sehingga mempengaruhi
hasil yang diperoleh.
b) Systematic/Biased Errors
Kesalahan yang merupakan hasil dari pemikiran yang tercemar,
kecenderungan personal, moral yang tidak pantas, dan lain sebagainya. Terdapat 3
tipe dalam kesalahan ini, yaitu:
Tipe I
Kesalahan yang terjadi karena kekeliruan yang diperbuat oleh penguji.
Misalnya, kekeliruan penguji dalam membaca test manual. Kesalahan ini
dapat dihilangkan dengan cara membandingkan hasil yang didapat oleh
beberapa orang penguji yang berbeda.
Tipe II
Kesalahan yang muncul karena kecerobohan. Misalnya, kekeliruan penguji
yang seharusnya menulis 0,1 malah menulis 0,01 saat menghitung hasil.
Kesalahan ini dapat dihilangkan dengan cara para penguji harus sangat
berhati-hati saat mencatat dan menghitung hasil.
Tipe III
Kesalahan yang tidak dapat dihindari. Hal ini dikarenakan perilaku manusia
di pengaruhi oleh banyak sekali faktor internal maupun eksternal yang mana
meskipun saat tes banyak faktor yang dikontrol oleh penguji, tetap saja
terdapat faktor-faktor yang tidak terkontrol. Kesalahan ini tidak dapat
dihilangkan, tetapi bisa dikurangi dengan cara pengontrolan lebih banyak
lagi faktor-faktor yang ada.
c) Interpretative Errors
Kesalahan ini terjadi berkaitan dengan kesalahan dalam menginterpretasi
hasil dari suatu tes. Kesalahan ini dapat terjadi jika terdapat kesalahpahaman
dalam dua hal, yakni, “dengan kelompok yang bagaimana seseorang telah
dibandingkan”, dan “dengan cara apa pembandingan antara seseorang tersebut
dan kelompoknya dibandingkan”. Kesalahan tersebut dapat dikendalikan dengan
cara para penguji harus memperhatikan kelompok dan cara membandingkan hasil
seseorang dengan kelompoknya.
d) Variable Errors
Kesalahan yang disebabkan oleh ketidakmurnian yang muncul berkaitan
dengan adanya perbedaan alasan dan faktor situasi. Contohnya, seseorang yang
dites dengan alat tes yang sama pada beberapa kesempatan yang berbeda akan
memberikan hasil yang berbeda. Kesalahan ini dapat diperkirakan melalui test
reliability.
e) Personal Errors
Kesalahan yang terjadi berkaitan dengan subjektivitas seseorang.
Contohnya, 4 orang yang duduk dalam sebuah mobil akan memberikan jawaban
yang berbeda ketika diminta membaca speedometer.
f) Constant Errors
Kesalahan yang muncul karena perbedaan antara “internal qualities” dan
“internal abilities”. Hal ini jelas sekali membuktikan bahwa nilai tes seseorang
dalam sebuah tes “mental abilities” juga tergantung pada kemampuan orang
tersebut dalam membaca.
Kesalahan baku pengukuran menurut teori tes klasik dinyatakan
dengan kesalahan baku pengukuran (Standar Error of Measurement/SEM).
SEM pada teori tes klasik dihitung dengan rumus berikut:
σ E=¿ σ X √1−ρXX ' ¿
Keterangan :
σ E = SEM
σ X = standar deviasi skor total
ρXX ' = koefisien reliabilitas
Kesalahan error pengukuran menurut teori respons butir dinyatakan
dengan SEM yang besarnya tergantung pada tingkat kemampuan seseorang
dan fungsi informasi tes. Adanya kesalahan yang melekat pada data hasil
pengukuran ini disebabkan oleh banyak faktor diantaranya adalah alat ukur
itu sendiri, pelaksanan pengukuran, objek pengukuran, dan teknik analisis
yang digunakan. Fungsi informasi dengan kesalahan baku pengukuran
(Standar Error of Measurement/SEM) mempunyai hubungan yang berbanding
terbalik kuadratik Makin besar nilai fungsi informasi berarti SEM semakin
kecil dan sebaliknya.
Jika, fungsi informasi dinyatakan dengan I (θ ) dan kesalahan baku
pengukuran dinyatakan dengan SEM (θ ), bentuk hubungan keduanya
dirumuskan sebagai berikut:
SEM (θ )= 1
√ I (θ)
D. Matriks Perbandingan Penilaian, Evaluasi, Pengukuran dan Tes
NO Konsep Sifat
Ruang Lingkup
Pelaksanaan
1 PENILAIAN Suatu usaha untuk mendapatkan berbagai informasi secara berkala, berkesinambungan, dan menyeluruh tentang proses dan hasil
Kualitatif Lebih sempit dari evaluasi (satu komponen)
Konteks internal saja
2 EVALUASI Suatu proses atau kegiatan untuk menentukan nilai, kriteria-judgment atau tindakan dalam pembelajaran
Kualitatif Lebih luas dari penilaian (semua komponen)
Konteks internal dan eksternal
3 PENGUKURAN Proses pemberian angka atau usaha memperoleh deskripsi numerik dari suatu tingkatan di mana seorang peserta didik telah mencapai karakteristik tertentu
Kuantitatif Lebih sempit dari penilaian
Konteks internal saja
4 TES Cara penilaian yang dirancang dan dilaksanakan kepada peserta didik pada waktu dan tempat tertentu serta dalam kondisi yang memenuhi syarat-syarat tertentu yang jelas
Kuantitatif Lebih sempit dari pengukuran
Konteks internal saja
E. Matriks Perbandingan Validitas dan Reliabilitas
No Validitas Reliabilitas
1. Validitas adalah derajat yang menyatakan suatu tes mengukur apa yang seharusnya diukur. Validitas suatu tes tidak begitu saja melekat pada tes itu sendiri, tetapi tergantung penggunaan dan subyeknya. Validitas dipecah lagi menjadi berbagai jenis yang akan dijabarkan berikut ini:a. Validitas isi
Adalah seberapa besar derajat tes mngukur representasi isi yang dikehendaki untuk diukur. Validitas item berkaitan dengan apakah item mewakili pengukuran dalam area isi sasaran yang diukur. Biasanya dinilai dengan menggunakan pertimbangan pakar.b. Validitas Kontruk/teoritik
Adalah seberapa besar derajat tes mngukur konstruk hipotesis yang dikehendaki untuk diukur. Kontruk adalah perangai yang tidak dapat diamati, yang menjelaskan perilaku. Menguji validitas kontstruk mencakup uji hipotesis yang didedukasi dari suatu teori yang mengajukan konstruk tersebut.c. Validitas Konkruen
Validitas ini menunjukkan seberapa besar derajat skor tes berkorelasi dengan skor yang diperoleh dari tes lain yang sudah
Realibilitas suatu tes adalah seberapa besar derajat tes mngukur secara konsisten sasaran yang diukur. Realibilitas dinyatakan dalam bentuk angka, biasanya sebagai koofisien. Koofisien tinggi berarti reliabilitas tinggi.Realibilitas dapat dibagi lagi menjadi:a. Reliabilitas Tes Re-Tes
Adalah seberapa besar derajat skor tes konsisten dari waktu ke waktu. Reliabilitas diukur dengan menentukan hubungan antara skor hasil penyajian tes yang sama kepada kelompok yang sama, pada waktu yang berbeda.
b. Reliabilitas Belah-DuaReliabilitas ini diukur dengan menetukan hubungan antara skor dua peruh yang ekuivalen suatu tess, yang disajikan kepada seluruh kelompok pada suatu saat. Karena reliabilitas belah dua mewakili reliabilitas hanya separuh tes yang sebenarnya, rumus Spearman-Brown dapat digunakan untuk mngoreksi koofisien yang didapat.c. Reliabilitas Rasional
EkuivalenReliabilitas ini tidak ditentukan menggunakan korelasi tetapi menggunakan estimasi konsistensi
mantap, bila disajikan pada saat yang sama, atau dibandingkan denan criteria lain yang valid yang diperoleh pada saat yang sama.
d. Validitas prediktifAdalah seberapa besar derajat tes berhasil memprediksi kesuksesan seorang pada situasi yang akan datang. Validitas prediktif ditentukan dengan mengungkap hubungan antara skor dengan hasil tes atau ukuran lain kesuksesan dalam satu situasi sasaran.
internal. Reliabilitas ini diukur menggunakan Kuder-Richardson, biasanya Formula-20 (KR-20) atau Formula-21 (KR-21). Kedua rumus ini hanya dapat diapakai untuk tes yang aitem-aitemnya diskor dikotomi, yaitu benar atau salah,0 atau 1.d. Reliabilitas Proyektor/Penilai
Adalah reliabilitas dua (atau lebih) penyekor independen. Reliabilitas ini biasa ditentukan menggunakan teknik korelasi, tetapi juga dapat hanya dinyatakan dalam presentase kesepakatan.
DAFTAR PUSTAKA
Calongesi, J.S. 1995. Merancang Tes untuk Menilai Prestasi Siswa. Bandung : ITB
Djaali dan Pudji Muljono. (2008). Pengukuran dalan Bidang Pendidikan. Jakarta: Grasindo.
Nana Sudjana. 2010. Penilaian Hasil Proses Belajar Mengajar. Bandung: PT Remaja Rosdakarya.
Reliabilitas dan Validitas Konstruk dalam Pemodelan Persamaan Struktural SEM.pdf (diakses pada tanggal 11 Februari 2015).
Slameto. 1998. Evaluasi Pendidikan. Jakarta: PT Bina Aksara.
Sudijono, A. (2009). Pengantar Evaluasi Pendidikan. Jakarta: Rajawali Press.
Suharsimi Arikunto. 2006. Dasar-Dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara.
Tayibnapis, F.Y. (2000). Evaluasi Program. Jakarta: Rineka Cipta.
Zainul & Nasution. (2001). Penilaian Hasil belajar. Jakarta: Dirjen Dikti.