Tugas 1 Resume

PENGEMBANGAN EVALUASI DAN PROSES PEMBELAJARAN FISIKA

‘’ PERBANDINGAN PENILAIAN, ASESMEN, PENGUKURAN DAN TESTING; BENTUK DAN JENIS ASESMEN; FUNGSI PENILAIAN;

VALIDITAS DAN REABILITAS; BIAS, STANDARD ERROR MEASUREMENT ‘’

Oleh:

EVIN EPRILLA CARDALIN

NIM. 14175016

PENDIDIKAN FISIKA KELAS A

DOSEN PEMBIMBING:

PROF.DR.FESTIYED,M.S

DR. DJUSMAINI DJAMAS, M.Si

JURUSAN FISIKA

PROGRAM PASCASARJANA

UNIVERSITAS NEGERI PADANG

2015

A. Pengertian Penilaian, Asesmen, Pengukuran, dan Testing

1. Penilaian dan Fungsi Penilaian

Penilaian adalah proses sistematis meliputi pengumpulan informasi

(angka, deskripsi verbal), analisis, interpretasi informasi untuk membuat

keputusan. Sedangkan menurut Kamus Besar Bahasa Indonesia (KBBI)

penilaian adalah proses, cara, perbuatan menilai; pemberian nilai (biji, kadar

mutu, harga): penelaahan.

Penilaian dilaksanakan melalui berbagai bentuk antara lain: penilaian

unjuk kerja (performance), penilaian sikap, penilaian tertulis (paper and pencil

test), penilaian proyek, penilaian melalui kumpulan hasil kerja/karya peserta

didik (portfolio), dan penilaian diri.

Penilaian hasil belajar baik formal maupun informal diadakan dalam

suasana yang menyenangkan, sehingga memungkinkan peserta didik

menunjukkan apa yang dipahami dan mampu dikerjakannya. Hasil belajar

seorang peserta didik tidak dianjurkan untuk dibandingkan dengan peserta

didik lainnya, tetapi dengan hasil yang dimiliki peserta didik tersebut

sebelumnya.

Pengertian penilaian menurut beberapa ahli:

a. Stiggins (1994), penilaian adalah proses, kemajuan, dan hasil belajar siswa

(outcomes).

b. Kumano (2001), penilaian sebagai “The process of Collecting data which

shows the development of learning”. Dengan demikian dapat disimpulkan

bahwa penilaian merupakan istilah yang tepat untuk menilai proses belajar

siswa. Namun meskipun proses belajar siswa merupakan hal penting yang

dinilai dalam penilaian, faktor hasil belajar juga tetap tidak

dikesampingkan.

c. Suharsimi Arikunto (2007), penilaian adalah pengambilan suatu keputusan

terhadap sesuatu dengan ukuran baik buruk.

d. Nana Sudjana (2010), penilaian adalah proses memberikan atau

menentukan nilai kepada objek tertentu berdasarkan suatu criteria tertentu.

e. Slameto (1998), penilaian adalah proses belajar siswa dengan sasaran pada

hasil belajar.

Fungsi Penilaian

Penilaian merupakan salah satu bagian yang penting dalam kegiatan

pembelajaran. Dikatakan bagian penting, karena kegiatan ini akan menjadi

cermin untuk melihat perkembangan atau kemajuan belajar siswa dari waktu ke

waktu. Selain itu, penilaian akan memberikan gambaran kepada guru tentang

tingkat pencapaian prestasi belajar antara seorang siswa dengan siswa yang

lain. Sedangkan bagi guru, kegiatan penilaian berguna untuk melihat

keberhasilan suatu proses pembelajaran yang telah ia jalankan.

Fungsi penilaian adalah sebagai berikut:

a. Penilaian berfungsi selektif

Dengan cara mengadakan penilaian, guru mempunyai cara untuk

mengadakan seleksi atau penilaian terhadap siswanya. Penilaian itu sendiri

mempunyai berbagai tujuan, antara lain:

1) untuk memilih siswa yang dapat diterima di sekolah tertentu.

2) untuk memilih siswa yang dapat naik ke kelas atau tingkat berikutnya.

3) untuk memilih siswa yang seharusnya mendapat beasiswa.

4) untuk memilih siswa yang sudah berhak meninggalkan sekolah, dan

sebagainya.

b. Penilaian berfungsi diagnostic

Apabila alat yang digunakan dalam penilaian cukup memenuhi persyaratan,

maka dengan melihat hasilnya, guru akan mengetahui kelemahan siswa. Di

samping itu, diketahui pula sebab-musabab kelemahan itu. Jadi, dengan

mengadakan penilaian, sebenarnya guru mengadakan diagnosis kepada siswa

tentang kebaikan dan kelemahannya.

c. Penilaian berfungsi sebagai penempatan

Sistem baru yang kini banyak dipopulerkan di negara barat, adalah sistem

belajar sendiri. Belajar sendiri dapat dilakukan dengan cara mempelajari

sebuah paket belajar, baik itu berbentuk modul maupun paket belajar yang lain.

Sebagai alasan dari timbulnya sistem ini adalah adanya pengakuan yang besar

terhadap kemampuan individual. Setiap siswa sejak lahirnya telah membawa

bakat sendiri-sendiri sehingga pelajaran akan lebih efektif apabila disesuaikan

dengan pembawaan yang ada. Akan tetapi disebabkan karena keterbatasan

sarana dan tenaga, pendidikan yang bersifat individual kadang-kadang sukar

sekali dilaksanakan. Pendekatan yang lebih bersifat melayani perbedaan

kemampuan, adalah pengajaran secara kelompok. untuk dapat menentukan

dengan pasti di kelompok mana seorang siswa harus ditempatkan, digunakan

suatu penilaian.

d. Penilaian berfungsi sebagai pengukur keberhasilan

Fungsi keempat dari penilaian ini dimaksudkan untuk mengetahui sejauh

mana suatu program berhasil diterapkan. Keberhasilan program ditentukan

oleh beberapa faktor yaitu faktor guru, metode mengajar, kurikulum, sarana,

dan sistem administrasi.

2. Asesmen, Proses Asesmen, Prinsip Asesmen, Teknik Asesmen, Bentuk

dan Jenis Asesmen

a. Definisi Assesmen

Asesmen dalam pembelajaran adalah suatu proses atau upaya formal

pengumpulan informasi yang berkaitan dengan variabel-variabel penting

pembelajaran sebagai bahan dalam pengambilan keputusan oleh guru untuk

memperbaiki proses dan hasil belajar siswa. Variabel-variabel penting yang

dimaksud sekurang-kurangya meliputi pengetahuan, pemahaman, keterampilan

dan sikap siswa dalam pembelajaran yang diperoleh guru dengan berbagai

metode dan prosedur baik formal maupun informal sebagai berikut.

“A general term enhancing all methods customarily used to appraise

performance of an individual pupil or group. It may refer to a broad appraisal

including many sources of evidence and many aspect of pupil’s knowledge,

understanding, skills and attitudes; An assess-ment instrument may be any

method and procedure, formal or in-formal, for producing information about

pupil….”.

Pengertian asesmen dalam berbagai literatur asing tersebut di atas selaras

dengan makna penilaian yang digariskan dalam Buku Pedoman Penilaian pada

kurikulum pendidikan dasar. Dalam buku tersebut tertulis bahwa, penilaian

adalah suatu kegiatan yang dilakukan oleh guru untuk memberikan berbagai

informasi secara berkesinambungan dan menyeluruh tentang proses dan hasil

belajar yang telah dicapai (Depdikbud). Ada pun yang dimaksud dengan

asesmen alternatif (alternative assessment) adalah segala jenis bentuk asesmen

diluar asesmen konvensional (selected respon test dan paper-pencil test) yang

lebih autentik dan signifikan mengungkap secara langsung proses dan hasil

belajar siswa. Herman (1997) memberikan semboyan khusus bagi asesmen

alternatif dengan ungkapan “What You Get is What You Assess” (WYGWYA).

Dalam beberapa literatur, asesmen alternatif ini kadang-kadang disebut juga

asesmen autentik (authentic assessment), asesmen portofolio (portfolio

assessment) atau asesmen kinerja (performance assessment).

Secara umum, asesmen dapat diartikan sebagai proses untuk

mendapatkan informasi dalam bentuk apapun yang dapat digunakan untuk

dasar pengambilan keputusan tentang siswa baik yang menyangkut

kurikulumnya, program pembelajarannya, iklim sekolah maupun kebijakan-

kebijakan sekolah.

Asesmen secara sederhana dapat diartikan sebgai proses pengukuran dan

non pengukuran untuk memperoleh data karakteristik peserta didik dengan

aturan tertentu. Dalam pelaksanaan asesmenpembelajaran guru dihadapkan

pada 3 (tiga) istilah yang sering dikacaukan pengertiannya, atau bahkan sering

pula digunakan secara bersama yaitu istilah pengukuran, penilaian, dan test.

b. Proses Assesmen

Dalam menerapkan asesmen ada beberapa mekanisme atau prosedur

asesmen yang harus diperhatikan:

1) Penilaian oleh pendidik

Dilakukan secara berkesinambungan, bertujuan untuk memantau proses

dan kemajuan belajar peserta didik serta untuk meningkatkan efektivitas

kegiatan pembelajaran. Instrumen penilaian hasil belajar yang digunakan

pendidik memenuhi persyaratan:

a) Substansi adalah merepresentasikan kompetensi yang dinilai,

b) Konstruksi adalah memenuhi persyaratan teknis sesuai dengan bentuk

instrumen yang digunakan, dan

c) Bahasa adalah menggunakan bahasa yang baik dan benar serta

komunikatif sesuai dengan taraf perkembangan peserta didik.

2) Penilaian oleh satuan pendidikan

Penilaian hasil belajar oleh satuan pendidikan dilakukan untuk menilai

pencapaian kompetensi peserta didik pada semua mata pelajaran. Instrumen

penilaian yang digunakan oleh satuan pendidikan dalam bentuk ujian

sekolah/madrasah memenuhi persyaratan substansi, konstruksi, dan bahasa,

serta memiliki bukti validitas empirik.

3) Penilaian oleh pemerintah

Penilaian hasil belajar oleh pemerintah dilakukan dalam bentuk UN yang

bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional

pada mata pelajaran tertentu dalam kelompok mata pelajaran ilmu

pengetahuan dan teknologi. Instrumen penilaian yang digunakan oleh

pemerintah dalam bentuk UN memenuhi persyaratan substansi, konstruksi,

bahasa, dan memiliki bukti validitas empirik serta menghasilkan skor yang

dapat diperbandingkan antarsekolah, antardaerah, dan antartahun.

c. Prinsip-prinsip Assesmen

Guru mempunyai posisi sentral dalam menentukan keberhasilan dan

kegagalan kegiatan penilaian. Untuk itu, dalam pelaksanaan penilaian harus

memperhatikan prinsip-prinsip berikut:

1) Valid

PBK harus mengukur obyek yang seharusnya diukur dengan

menggunakan jenis alat ukur yang tepat atau sahih (valid). Artinya, ada

kesesuaian antara alat ukur dengan fungsi pengukuran dan sasaran

pengukuran. Apabila alat ukur tidak memiliki kesahihan yang dapat

dipertanggungjawabkan, maka data yang masuk salah sehingga kesimpulan

yang ditarik juga besar kemungkinan menjadi salah.

2) Mendidik

PBK harus memberikan sumbangan positif pada pencapaian hasil

belajar siswa. Oleh karena itu, PBK harus dinyatakan dan dapat dirasakan

sebagai penghargaan untuk memotivasi siswa yang berhasil (positive

reinforcement) dan sebagai pemicu semangat untuk meningkatkan hasil

belajar bagi yang kurang berhasil (negative reinforcement), sehingga

keberhasilan dan kegagalan siswa harus tetap diapresiasi dalam penilaian.

3) Berorientasi pada kompetensi

PBK harus menilai pencapaian kompetensi siswa yang meliputi

seperangkat pengetahuan, sikap, dan ketrampilan/nilai yang terefleksikan

dalam kebiasaan berfikir dan bertindak. Dengan berpijak pada kompetensi

ini, maka ukuran-ukuran keberhasilan pembelajaran akan dapat diketahui

secara jelas dan terarah.

4) Adil dan obyektif

PBK harus mempertimbangkan rasa keadilan dan obyektivitas siswa,

tanpa membeda-bedakan jenis kelamin, latar belakang budaya, dan berbagai

hal yang memberikan kontribusi pada pembelajaran. Sebab ketidakadilan

dalam penilaian, dapat menyebabkan menurunnya motivasi belajar siswa,

karena merasa dianaktirikan.

5) Terbuka

PBK hendaknya dilakukan secara terbuka bagi berbagai kalangan

(stakeholders) baik langsung maupun tidak langsung, sehingga keputusan

tentang keberhasilan siswa jelas bagi pihak-pihak yang berkepentingan,

tanpa ada rekayasa atau sembunyi-sembunyi yang dapat merugikan semua

pihak.

6) Berkesinambungan

PBK harus dilakukan secara terus-menerus atau berkesinambungan

dari waktu ke waktu, untuk mengetahui secara menyeluruh perkembangan

siswa, sehingga kegiatan dan unjuk kerja siswa dapat dipantau melalui

penilaian.

7) Menyeluruh

PBK harus dilakukan secara menyeluruh, yang mencakup aspek

kognitif, afektif, dan psikomotorik serta berdasarkan pada strategi dan

prosedur penilaian dengan berbagai bukti hasil belajar siswa yang dapat

dipertanggungjawabkan kepada semua pihak.

8) Bermakna

PBK diharapkan mempunyai makna yang signifikan bagi semua

pihak. Untuk itu, PBK hendaknya mudah dipahami dan dapat ditindaklanjuti

oleh pihak-pihak yang berkepentingan. Hasil penilaian hendaknya

mencerminkan gambaran yang utuh tentang prestasi siswa yang

mengandung informasi keunggulan dan kelemahan, minat dan tingkat

penguasaan siswa dalam pencapaian kompetensi yang telah ditetapkan.

d. Teknik Assesmen

Apapun bentuk dan jenis asesmen yang dilakukan, hal ini tetap menuntut

suatu perencanaan, termasuk pada saat melakukan analisis. Dengan demikian

maka akan diperoleh alat ukur atau instrumen yang benar-benar dapat

diandalkan (valid) dan dapat dipercaya (reliabel) dalam mengukur apa yang

seharusnya diukur. Berikut ini adalah langkah-langkah yang perlu dilakukan

dalam melakukan asesmen:

1) Perencanaan

Aspek yang harus ada dalam perencanaan asesmen adalah:

a) Memilih fokus asesmen pada aspek tertentu dari diri konselee

b) Memilih instrumen yang akan digunakan.

Setelah ditentukan fokus area asesmen, Anda dapat merencanakan

instrumen yang akan digunakan dalam asesmen. Banyak instrumen yang

dapat digunakan dalam asesmen seperti tes psikologis, observasi, inventori,

dan sebagainya. Tetapi untuk menentukan instrumen sangat tergantung

pada aspek apa yang akan diasesmen.

c) Penetapan waktu

Perencanaan waktu yang dimaksud adalah kapan asesmen akan

dilakukan. Penetapan waktu ini sangat erat berhubungan engan persiapan

pelaksanaan asesmen. Persiapan akan banyak menentukan keberhasilan

suatu asesmen, misalnya mempersiapkan instrumen, tempat, dan

peralatan lain yang diperlukan dalam pelaksanaan asesmen.

d) Validitas dan reliabilitas

Apabila instrumen yang kita gunakan adalah buatan sendiri atau

dikembangkan sendiri, maka instrumen itu perlu diuji validitas dan

reliabilitasnya. Karena validitas dan reliabilitas merupakan suatu syarat

mutlak suatu instrumen asesmen. Namun apabila kita menggunakan

instrumen yang sudah terstandar, Anda tidak perlu mencari validitas dan

reliabilitas karena instrumen tersebut sudah jelas memenuhi persyaratan

sebagai suatu instrumen.

2) Pelaksanaan

Setelah perencanaan asesmen selesai, selanjutnya adalah bagaimana

melaksanakan rencana yang telah dibuat tersebut. Hal-hal yang perlu

diperhatikan dalam melaksanakan asesmen adalah pelaksanaannya harus

sesuai dengan manual masing-masing instrumen. Manual suatu instrumen

biasanya memuat:

a) Analisis data

Analisis dilakukan dengan mengikuti petunjuk yang ada dalam

manual masing-masing instrumen. Saat melakukan analisis data kualitatif,

perlu dilakukan beberapa langkah sebagai berikut:

1) Yakinkan semua data telah tersedia,

2) Buatlah salinan data untuk berjaga-jaga kalau ada yang hilang,

3) Aturlah data dalam judul dan masukkan dalam file,

4) Gunakan sistem kartu-kartu dalam map,

5) Periksa kebenaran hasil asesmen.

Apabila data bersifat kuantitatif maka analisis data dilakukan

dengan menggunakan statistik. Dewasa ini, program statistik dapat

dengan mudah dilakukan dengan bantuan komputer, seperti program

excel, LISREL, SPSS, dan sebagainya.

b) Interpretasi data

Interpretasi diartikan sebagai upaya mengatur dan menilai fakta,

menafsirkan pandangan, dan merumuskan kesimpulan yang mendukung.

Penafsiran harus dirumuskan dengan hati-hati, jujur, dan terbuka. Berikut

ini adalah hal-hal yang harus ada dalam interpretasi, yaitu:

1) Komponen untuk menafsirkan atau interpretasi hasil analisis data.

Interpretasi berarti menilai objek asesmen dan

menentukandampakasesmen tersebut.

2) Petunjuk untuk menafsirkan analisis data.

c) Tindak lanjut

Tindak lanjut adalah menindak lanjuti hasil asesmen.

e. Bentuk dan Jenis Assesmen

Asesmen dapat dikategorikan menjadi 2 jenis yaitu :

1) Asesmen Konvensional

Biasanya menggunakan paper and pencil test atau disebut dengan

asesmen formal atau asesmen konvensional. Disebut demikian karena

metode inilah yang biasa digunakan oleh guru. Metode paper and pencil

test hanya dapat mengukur kemampuan kognitif peserta didik namun belum

dapat mengukur hasil belajar peserta didik secara holistik. Soal-soal tes

tradisional dibagi menjadi 2 tipe yaitu selected response items (soal pilihan

ganda dan benar-salah, memungkinkan siswa memilih jawaban di antara

alternatif yang tersedia) dan constructed-response item (esai atau jawaban

pendek mengisi titik-titik, mengharuskan siswa memberikan jawabannya

sendiri).

2) Asesmen Berbasis Kinerja

Asesmen ini menginginkan siswa dapat mengerjakan tugas tertentu

seperti menulis esai, melakukan eksperimen, menginterpretasi solusi untuk

masalah atau menggambarkan sesuatu. Siswa mengerjakan beragam tugas

selama beberapa hari, bukan tugas yang dapat diakses beberapa menit. Hal

ini merupakan upaya mengukur berbagai macam keterampilan dan proses

intelektual yang kompleks. Asesmen kinerja bisa dalam bentuk portofolio

siswa atau penilaian dalam proses belajar mengajar misalkan dalam kerja

kelompok, eksperimen, atau diskusi kelompok.

3) Pengukuran dan Testing

a) Pengukuran

Dalam dunia pendidikan, yang dimaksud pengukuran sebagaimana

disampaikan Cangelosi adalah proses pengumpulan data melalui

pengamatan empiris. Proses pengumpulan ini dilakukan untuk menaksir apa

yang telah diperoleh siswa setelah mengikuti pelajaran selama waktu

tertentu. Proses ini dapat dilakukan dengan mengamati kinerja mereka,

mendengarkan apa yang mereka katakan serta mengumpulkan informasi

yang sesuai dengan tujuan melalui apa yang telah dilakukan siswa.

Menurut Mardapi pengukuran pada dasarnya adalah kegiatan penentuan

angka terhadap suatu obyek secara sistematis. Karakteristik yang terdapat

dalam obyek yang diukur ditransfer menjadi bentuk angka sehingga lebih

mudah untuk dinilai. aspek-aspek yang terdapat dalam diri manusia seperti

kognitif, afektif dan psikomotor dirubah menjadi angka. Karenanya,

kesalahan dalam mengangkakan aspek-aspek ini harus sekecil mungkin.

Kesalahan yang mungkin muncul dalam melakukan pengukuran khususnya

dibidang ilmu-ilmu sosial dapat berasal dari alat ukur, cara mengukur dan

obyek yang diukur.

Hal ini sesuai dengan firman Allah dalam Surat Al-Ankabut ayat 2-3

(٤٩) ب� �اه� �قن ل خ� �ا �ن إ �ل� ك يء� ش� �اه� �قن ل خ� ق�د�ر�

Artinya : Sesungguhnya Kami menciptakan segala sesuatu menurut

ukuran” (Al Qamar: 49).

Pengukuran dalam bidang pendidikan erat kaitannya dengan tes. Hal ini

dikarenakan salah satu cara yang sering dipakai untuk mengukur hasil yang

telah dicapai siswa adalah dengan tes. Selain dengan tes, terkadang juga

dipergunakan nontes. Jika tes dapat memberikan informasi tentang

karakteristik kognitif dan psikomotor, maka nontes dapat memberikan

informasi tentang karakteristik afektif obyek.

b) Testing

Tes merupakan sejumlah pertanyaan yang memiliki jawaban yang benar

atau salah. Tes juga diartikan juga diartikan sebagai sejumlah pertanyaan

yang membutuhkan jawaban, atau sejumlah pernyataan yang harus

diberikan tanggapan dengan tujuan mengukur tingkat kemampuan seseorang

atau mengungkap aspek tertentu dari orang yang dikenai tes. Hasil tes

merupakan informasi tentang karakteristik seseorang atau sekelompok

orang. Tes merupakan salah satu cara untuk menaksir besarnya tingkat

kemampuan manusia secara tidak langsung, yaitu melalui respons seseorang

terhadap sejumlah stimulus atau pertanyaan. Oleh karena itu agar diperoleh

informasi yang akurat dibutuhkan tes yang handal.

Hal ini sesuai dengan firman Allah dalam Surat Al-Baqarah ayat 44

�ون� ل �ت ت �م ت ن� و�أ �م ك ف�س� �ن أ ون� س� �ن و�ت �ر$ ب �ال ب �اس� الن ون� م�ر�

�أ �ت أ

�ون� �عق�ل ت �ف�ال أ �اب� �ت ك ال

Artinya : “Mengapa kalian menyuruh orang lain (mengerjakan) kebajikan,

sedang kalian melupakan diri (kewajiban)mu sendiri, padahal kalian

membaca Al Kitab (Taurat)? Maka mengapa kalian tidak menggunakan

akal?”.

B. Validitas dan Reabilitas

1. Pengertian Validitas

a. Azwar (1986), validitas berasal dari kata validity yang mempunyai arti

sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan

fungsi ukurnya.

b. Arikunto (1999), validitas adalah suatu ukuran yang menunjukkan

tingkat kesahihan suatu tes.

c. Nursalam (2003), validitas adalah suatu ukuran yang menunjukkan

tingkat kevalidan atau kesahihan suatu instrumen.

Berdasarkan beberapa pendapat tentang pengertian validitas di atas, maka

dapat diambil kesimpulan bahwa validitas adalah suatu standar ukuran yang

menunjukkan ketepatan dan kesahihan suatu instrumen.

Menurut Arikunto (1999) suatu tes dikatakan valid apabila tes tersebut

mengukur apa yang hendak diukur. Tes memiliki validitas yang tinggi jika

hasilnya sesuai dengan kriteria, dalam arti memiliki kesejajaran antara tes dan

kriteria.

2. Jenis-jenis Validitas

Menurut Sudijono (2009) terdapat berbagai jenis validitas, antara lain:

a. Pengujian Validitas Tes Secara Rasional

Validitas rasional adalah validitas yang diperoleh atas dasar hasil

pemikiran, validitas yang diperoleh dengan berpikir secara logis.

1) Validitas Isi (Content Validity)

Validitas isi dari suatu tes hasil belajar adalah validitas yang

diperoleh setelah dilakukan penganalisisan, penelususran atau

pengujian terhadap isi yang terkandung dalam tes hasil belajar

tersebut. Validitas isi adalah yang ditilik dari segi isi tes itu sendiri

sebagai alat pengukur hasil belajar yaitu: sejauh mana tes hasil

belajar sebagai alat pengukur hasil belajar peserta didik, isisnya

telah dapat mewakili secara representatif terhadap keseluruhan

materi atau bahkan pelajaran yang seharusnya diteskan (diujikan).

2) Validitas konstruksi (Construct Validity)

Validitas konstruksi dapat diartikan sebagai validitas yang ditilik

dari segi susunan, kerangka atau rekaannya. Adapun secara

terminologis, suatu tes hasil belajar dapat dinyatakan sebagai tes

yang telah memiliki validitas konstruksi, apabila tes hasil belajar

tersebut telalh dapat dengan secara tepat mencerminkan suatu

konstruksi dalam teori psikologis.

b. Pengujian Validitas Tes Secara Empirik

Validitas empirik adalah ketepatan mengukur yang didasarkan pada

hasil analisis yang bersifat empirik. Dengan kata lain, validitas empirik

adalah validitas yang bersumber pada atau diperoleh atas dasar

pengamatan di lapangan.

1) Validitas ramalan (Predictive validity)

Validitas ramalan adalah suatu kondisi yang menunjukkan seberapa

jauhkah sebuah tes telah dapat dengan secara tepat menunjukkan

kemampuannya untuk meramalkan apa yang bakal terjadi pada masa

mendatang.

2) Validitas bandingan (Concurrent Validity)

Tes sebagai alat pengukur dapat dikatakan telah memiliki validitas

bandingan apabila tes tersebut dalam kurun waktu yang sama dengan

secara tepat mampu menunjukkan adanya hubungan yang searah,

antara tes pertama dengan tes berikutnya.

3. Pengertian Reabilitas

a. Sugiono (2005), Pengertian Reliabilitas adalah serangkaian pengukuran

atau serangkaian alat ukur yang memiliki konsistensi bila pengukuran

yang dilakukan dengan alat ukur itu dilakukan secara berulang.

Reabilitas tes adalah tingkat keajegan (konsitensi) suatu tes, yakni sejauh

mana suatu tes dapat dipercaya untuk menghasilkan skor yang ajeg,

relatif tidak berubah walaupun diteskan pada situasi yang berbeda-beda.

b. Sukadji (2000), reliabilitas suatu tes adalah seberapa besar derajat tes

mengukur secara konsisten sasaran yang diukur. Reliabilitas dinyatakan

dalam bentuk angka, biasanya sebagai koefisien. Koefisien tinggi berarti

reliabilitas tinggi.

c. Nursalam (2003), reliabilitas adalah kesamaan hasil pengukuran atau

pengamatan bila fakta atau kenyataan hidup tadi diukur atau diamati

berkali – kali dalam waktu yang berlainan. Alat dan cara mengukur atau

mengamati sama – sama memegang peranan penting dalam waktu yang

bersamaan.

Berdasarkan beberapa pendapat tentang pengertian reliabilitas di atas, maka

dapat diambil kesimpulan bahwa reliabilitas adalah suatu keajegan suatu tes

untuk mengukur atau mengamati sesuatu yang menjadi objek ukur.

4. Cara-cara mencari besarnya reliabilitas

Kriterium yang digunakan untuk mengetahui ketetapan ada yang berada

diluar tes (consistency external) dan pada tes itu sendiri (consistency internal).

a. Metode bentuk paralel

Tes paralel atau tes ekivalen adalah 2 buah tes yang mempunyai

kesamaan tujuan, tingkat kesukaran, dan susunan tetapi butir-butir soalnya

berbeda. Dalam menggunakan metode tes paralel ini pengetes harus

menyiapkan dua buah tes, dan masig-masing dicobakan pada kelompok siswa

yang sama. Oleh sebab itu disebut juga double test-double-trial method.

Kelemahan dari metode ini adalah bahwa pengetes pekerjaannya berat karena

harus menyusun dua seri tes. Lagipula harus tersedia waktu yang lama untuk

mencobakan 2 kali tes.

b. Metode tes ulang

Metode tes ulang dilakukan orang untuk menghindari penyusunan dua

seri tes. Dalam metode ini pengetes hanya memiliki satu seri tes tetapi

dicobakan 2 kali. Oleh karena itu tes nya hanya satu dan dicobakan 2 kali

disebut juga dengan single test-double –trial method. Kemudian hasil dari

kedua kali tes tersebut dihitung korelasinya.

Pada umumnya hasil tes yang kedua cenderung lebih baik daripada hasil

tes yang pertama. Hal ini tidak mengapa karena pengetes harus sadar akan

adanya practice effect dan carry over effect.

c. Metode Belah Dua atau Split-half Method

Dalam menggunakan metode ini pengetes hanya menggunakan sebuah

tes dan dicobakan satu kali. Oleh karena itu, disebut juga single-test-single trial

method. Pada waktu membelah dua dan mengkorelasikan dua belahan, baru

diketahui reliabilitas separo tes. Untuk mengetahui reliabilitas seluruh tes harus

digunakan rumus Spearman-Brown.

C. Bias dan Standard Error Measurement

1) Bias

Bias adalah sebuah penyajian bahan yang dipenuhi prasangka. Ia juga

berarti kesalahan yang konsisten dalam memperkirakan sebuah nilai. Ada dua

tipe bias: bias sampel dan bias pengukuran.

a) Bias sampel

Sampel adalah sekumpulan satuan yang dipilih untuk diukur dari

kelompok yang lebih besar (populasi). Bias sampel terjadi ketika sampel yang

digunakan tidak mewakili populasi atau tidak sesuai dengan pertanyaan yang

diajukan.

Faktor-faktor yang menyebabkan bias sampel adalah ukuran sampel dan

seleksi sampel. Ukuran sampel harus cukup besar agar dipeoleh nilai rata-rata

yang baik. Sebagai contoh, untuk menentukan tinggi rata-rata mahasiswa di

ruang kelas, seberapa banyak mahasiswa yang harus diukur untuk

mendapatkan perkiraan terbaik? Apakah bisa dikatakan teliti jika kita hanya

mengambil sampel dari tiga orang mahasiswa saja?

Sampel juga harus memiliki komposisi yang mencerminkan komposisi

populasi. Faktor seperti lokasi, usia, gender, etnisitas, kebangsaan, dan

lingkungan hidup dapat mempengaruhi data yang dikumpulkan. Contoh bias

seleksi sampel adalah sebagai berikut: seorang peneliti ingin menemukan

tinggi rata-rata mahasiswa di ruang kelas. Ada beberapa mahasiswa yang ikut

pertandingan basket sehingga harus pulang lebih awal. Kelompok mahasiswa

ini dijadikan sampel oleh peneliti tersebut. Para pemain basket umumnya

berbadan tinggi sehingga bila mereka dijadikan sampel, akibatnya muncul

rata-rata yang lebih tinggi dari sebenarnya ada bila kita mengukur populasi

secara keseluruhan. Dalam kasus ini tentu akan lebih baik mengukur seluruh

mahasiswa di ruang kelas (populasi). Namun hal ini tidak dapat dilakukan bila

kita bicara mengenai rata-rata tinggi penduduk di suatu negara atau provinsi,

karena jumlahnya sangat banyak dan tidak mungkin dilakukan pengukuran

tinggi secara keseluruhan.

b) Bias pengukuran

Bias pengukuran berurusan dengan masalah apakah metode

pengumpulan data yang dipilih telah sesuai sehingga data yang dikumpulkan

merupakan yang paling mewakili kenyataan? Untuk mengevaluasi teknik

pengumpulan data, pengukuran harus dilakukan dengan seteliti mungkin. Tidak

boleh ada tambahan pada lingkungan yang dapat mempengaruhi hasil. Selain

itu, eksperimen harus dirancang untuk mengisolasi pengaruh dari banyak faktor

lainnya.

Contoh pengukuran yang tidak akurat adalah pengukuran tinggi

dimana tinggi orang diukur tidak dari nol, tapi dari satu. Akibatnya pengukuran

menghasilkan nilai lebih tinggi dari realitas. Contoh pengaruh lingkungan yang

menyebabkan bias pada pengukuran tinggi adalah mengukur tinggi orang yang

memakai sepatu. Sepatu menyebabkan pertambahan tinggi dan ukuran tinggi

sepatu tiap orang berbeda, akibatnya hasil pengukuran juga tidak sesuai dengan

realitas.

Contoh bias yang disebabkan pengaruh dari banyak faktor adalah

sebagai berikut. Seorang peneliti mencoba menguji hipotesis kalau mahasiswa

yang tidur lebih dari 7 jam pada malam sebelum ujian akan memberikan hasil

yang lebih baik dari yang tidur kurang dari 7 jam. Peneliti tersebut tidak

mempertimbangkan faktor lain seperti apakah mereka tidur sedikit karena

belajar persiapan untuk besok atau apakah mereka sarapan sebelum berangkat

ke kampus. Bagaimana bisa kita menyimpulkan kalau hasil penelitian,

katakanlah ternyata mahasiswa yang tidur lebih dari 7 jam memiliki skor lebih

tinggi, jika ternyata itu bukan karena tidurnya tapi karena faktor-faktor lainnya.

Jika pada suatu tes memuat butir-butir yang memihak kelompok tertentu,

maka tes tersebut dikatakan memuat bias atau mengandung keberfungsian butir

diferensial (Differential Item Functioning, DIF). Adanya butir bias ini

mengakibatkan suatu tes bersifat diskriminatif atau memihak pada kelompok

tertentu yang penyebabnya dapat ditinjau dari berbagai segi, misalnya ras (etnik),

budaya, wilayah, jenis kelamin, dan lain-lain.

Dalam pengukuran pendidikan, istilah bias pada suatu butir dikenal

sebagai Differential Item Functioning (DIF) atau keberfungsian butir diferensial.

Berbagai teknik atau metode pendeteksian DIF telah banyak ditemukan dan

digunakan. Selain keberfungsian butir diferensial, untuk mengindikasikan suatu

tes adil bagi semua golongan atau tidak, dapat digunakan keberfungsian tes

diferensial (Differential Test Functioning, DTF). Keberfungsian tes diferensial ini

merupakan hal yang penting bagi suatu perangkat soal karena DTF dapat

menentukan apakah suatu tes adil bagi semua kelompok peserta tes atau tidak.

Dalam teori klasik, penentuan butir mudah dan butir sukar dilakukan

melalui kelompok peserta. Butir yang dapat dijawab dengan benar oleh banyak

peserta didalam kelompok tersebut dianggap sebagai butir mudah, serta butir yang

dijawab benar oleh hanya sedikit peserta tes di dalam kelompok itu dianggap butir

sukar. Pada teori klasik, pendeteksian bias bergantung pada ukuran kelompok

tersebut. Jika ukuran kelompok tersebut besar, maka anggapan ini dapat lebih

valid daripada jika ukuran kelompok tersebut kecil.

Pendeteksian bias butir dalam teori modern, kesukaran butir merupakan

invarian, dan dikalibrasikan melalui jumlah peserta yang selalu berukuran cukup

besar. Tidak menjadi soal kelompok manapun yang mengerjakan ujian atau tes

tersebut, karena parameter kesukaran butirnya tetap. Karena itu, deteksi bias butir

dengan teori modern lebih dapat diandalkan daripada teori klasik.

2) Standard Error Measurement

Kesalahan pengukuran (errors of measurement) adalah perbedaan antara

nilai sesungguhnya dari suatu pekerjaan seseorang dan nilai yang diperoleh oleh

orang tersebut. Kesalahan pengukuran berasal dari beberapa hal, yaitu :

a) Accidental/Chance Errors

Kesalahan-kesalahan ini dapat terjadi kapan saja, misalnya saja, keributan di

tempat tes atau keadaan subjek tes yang tidak begitu sehat, yang merupakan faktor

pengganggu sehingga kemudian menjadikan kesalahan pada hasil tes tersebut.

Dikarenakan faktor-faktor tersebut terjadi secara kebetulan, maka kemungkinan

terjadinya kesalahan tersebut pun menjadi bermacam-macam. Selain itu, hasil

yang diakibatkan oleh faktor-faktor tersebut pun bermacam-macam, terkadang

dapat meningkatkan atau juga menurunkan hasil yang didapat. Terdapat 3 tipe

dalam kesalahan ini, yaitu:

Tipe I : Test-centered Errors

Kesalahan yang terdapat dalam tes atau instrumen yang digunakan. Contoh:

terdapatnya item dalam tes yang bersifat kultural sehingga memunculkan

hasil yang berbeda pada subjek yang berasal dari daerah yang berbeda.

Tipe II : Subject-centered Errors

Segala macam faktor yang berhubungan dengan subjek tes, apakah itu

kesehatan, motivasi, kemauan, dan lain sebagainya.

Tipe III : Assessment Errors

Kebanyakan terjadi karena faktor situasi. Misalnya, terlalu banyaknya para

penguji menyebabkan adanya ketidaknyamanan sehingga mempengaruhi

hasil yang diperoleh.

b) Systematic/Biased Errors

Kesalahan yang merupakan hasil dari pemikiran yang tercemar,

kecenderungan personal, moral yang tidak pantas, dan lain sebagainya. Terdapat 3

tipe dalam kesalahan ini, yaitu:

Tipe I

Kesalahan yang terjadi karena kekeliruan yang diperbuat oleh penguji.

Misalnya, kekeliruan penguji dalam membaca test manual. Kesalahan ini

dapat dihilangkan dengan cara membandingkan hasil yang didapat oleh

beberapa orang penguji yang berbeda.

Tipe II

Kesalahan yang muncul karena kecerobohan. Misalnya, kekeliruan penguji

yang seharusnya menulis 0,1 malah menulis 0,01 saat menghitung hasil.

Kesalahan ini dapat dihilangkan dengan cara para penguji harus sangat

berhati-hati saat mencatat dan menghitung hasil.

Tipe III

Kesalahan yang tidak dapat dihindari. Hal ini dikarenakan perilaku manusia

di pengaruhi oleh banyak sekali faktor internal maupun eksternal yang mana

meskipun saat tes banyak faktor yang dikontrol oleh penguji, tetap saja

terdapat faktor-faktor yang tidak terkontrol. Kesalahan ini tidak dapat

dihilangkan, tetapi bisa dikurangi dengan cara pengontrolan lebih banyak

lagi faktor-faktor yang ada.

c) Interpretative Errors

Kesalahan ini terjadi berkaitan dengan kesalahan dalam menginterpretasi

hasil dari suatu tes. Kesalahan ini dapat terjadi jika terdapat kesalahpahaman

dalam dua hal, yakni, “dengan kelompok yang bagaimana seseorang telah

dibandingkan”, dan “dengan cara apa pembandingan antara seseorang tersebut

dan kelompoknya dibandingkan”. Kesalahan tersebut dapat dikendalikan dengan

cara para penguji harus memperhatikan kelompok dan cara membandingkan hasil

seseorang dengan kelompoknya.

d) Variable Errors

Kesalahan yang disebabkan oleh ketidakmurnian yang muncul berkaitan

dengan adanya perbedaan alasan dan faktor situasi. Contohnya, seseorang yang

dites dengan alat tes yang sama pada beberapa kesempatan yang berbeda akan

memberikan hasil yang berbeda. Kesalahan ini dapat diperkirakan melalui test

reliability.

e) Personal Errors

Kesalahan yang terjadi berkaitan dengan subjektivitas seseorang.

Contohnya, 4 orang yang duduk dalam sebuah mobil akan memberikan jawaban

yang berbeda ketika diminta membaca speedometer.

f) Constant Errors

Kesalahan yang muncul karena perbedaan antara “internal qualities” dan

“internal abilities”. Hal ini jelas sekali membuktikan bahwa nilai tes seseorang

dalam sebuah tes “mental abilities” juga tergantung pada kemampuan orang

tersebut dalam membaca.

Kesalahan baku pengukuran menurut teori tes klasik dinyatakan

dengan kesalahan baku pengukuran (Standar Error of Measurement/SEM).

SEM pada teori tes klasik dihitung dengan rumus berikut:

σ E=¿ σ X √1−ρXX ' ¿

Keterangan :

σ E = SEM

σ X = standar deviasi skor total

ρXX ' = koefisien reliabilitas

Kesalahan error pengukuran menurut teori respons butir dinyatakan

dengan SEM yang besarnya tergantung pada tingkat kemampuan seseorang

dan fungsi informasi tes. Adanya kesalahan yang melekat pada data hasil

pengukuran ini disebabkan oleh banyak faktor diantaranya adalah alat ukur

itu sendiri, pelaksanan pengukuran, objek pengukuran, dan teknik analisis

yang digunakan. Fungsi informasi dengan kesalahan baku pengukuran

(Standar Error of Measurement/SEM) mempunyai hubungan yang berbanding

terbalik kuadratik Makin besar nilai fungsi informasi berarti SEM semakin

kecil dan sebaliknya.

Jika, fungsi informasi dinyatakan dengan I (θ ) dan kesalahan baku

pengukuran dinyatakan dengan SEM (θ ), bentuk hubungan keduanya

dirumuskan sebagai berikut:

SEM (θ )= 1

√ I (θ)

D. Matriks Perbandingan Penilaian, Evaluasi, Pengukuran dan Tes

NO Konsep Sifat

Ruang Lingkup

Pelaksanaan

1 PENILAIAN Suatu usaha untuk mendapatkan berbagai informasi secara berkala, berkesinambungan, dan menyeluruh tentang proses dan hasil

Kualitatif Lebih sempit dari evaluasi (satu komponen)

Konteks internal saja

2 EVALUASI Suatu proses atau kegiatan untuk menentukan nilai, kriteria-judgment atau tindakan dalam pembelajaran

Kualitatif Lebih luas dari penilaian (semua komponen)

Konteks internal dan eksternal

3 PENGUKURAN Proses pemberian angka atau usaha memperoleh deskripsi numerik dari suatu tingkatan di mana seorang peserta didik telah mencapai karakteristik tertentu

Kuantitatif Lebih sempit dari penilaian


4 TES Cara penilaian yang dirancang dan dilaksanakan kepada peserta didik pada waktu dan tempat tertentu serta dalam kondisi yang memenuhi syarat-syarat tertentu yang jelas

Kuantitatif Lebih sempit dari pengukuran


E. Matriks Perbandingan Validitas dan Reliabilitas

No Validitas Reliabilitas

1. Validitas adalah derajat yang menyatakan suatu tes mengukur apa yang seharusnya diukur. Validitas suatu tes tidak begitu saja melekat pada tes itu sendiri, tetapi tergantung penggunaan dan subyeknya. Validitas dipecah lagi menjadi berbagai jenis yang akan dijabarkan berikut ini:a. Validitas isi

Adalah seberapa besar derajat tes mngukur representasi isi yang dikehendaki untuk diukur. Validitas item berkaitan dengan apakah item mewakili pengukuran dalam area isi sasaran yang diukur. Biasanya dinilai dengan menggunakan pertimbangan pakar.b. Validitas Kontruk/teoritik

Adalah seberapa besar derajat tes mngukur konstruk hipotesis yang dikehendaki untuk diukur. Kontruk adalah perangai yang tidak dapat diamati, yang menjelaskan perilaku. Menguji validitas kontstruk mencakup uji hipotesis yang didedukasi dari suatu teori yang mengajukan konstruk tersebut.c. Validitas Konkruen

Validitas ini menunjukkan seberapa besar derajat skor tes berkorelasi dengan skor yang diperoleh dari tes lain yang sudah

Realibilitas suatu tes adalah seberapa besar derajat tes mngukur secara konsisten sasaran yang diukur. Realibilitas dinyatakan dalam bentuk angka, biasanya sebagai koofisien. Koofisien tinggi berarti reliabilitas tinggi.Realibilitas dapat dibagi lagi menjadi:a. Reliabilitas Tes Re-Tes

Adalah seberapa besar derajat skor tes konsisten dari waktu ke waktu. Reliabilitas diukur dengan menentukan hubungan antara skor hasil penyajian tes yang sama kepada kelompok yang sama, pada waktu yang berbeda.

b. Reliabilitas Belah-DuaReliabilitas ini diukur dengan menetukan hubungan antara skor dua peruh yang ekuivalen suatu tess, yang disajikan kepada seluruh kelompok pada suatu saat. Karena reliabilitas belah dua mewakili reliabilitas hanya separuh tes yang sebenarnya, rumus Spearman-Brown dapat digunakan untuk mngoreksi koofisien yang didapat.c. Reliabilitas Rasional

EkuivalenReliabilitas ini tidak ditentukan menggunakan korelasi tetapi menggunakan estimasi konsistensi

mantap, bila disajikan pada saat yang sama, atau dibandingkan denan criteria lain yang valid yang diperoleh pada saat yang sama.

d. Validitas prediktifAdalah seberapa besar derajat tes berhasil memprediksi kesuksesan seorang pada situasi yang akan datang. Validitas prediktif ditentukan dengan mengungkap hubungan antara skor dengan hasil tes atau ukuran lain kesuksesan dalam satu situasi sasaran.

internal. Reliabilitas ini diukur menggunakan Kuder-Richardson, biasanya Formula-20 (KR-20) atau Formula-21 (KR-21). Kedua rumus ini hanya dapat diapakai untuk tes yang aitem-aitemnya diskor dikotomi, yaitu benar atau salah,0 atau 1.d. Reliabilitas Proyektor/Penilai

Adalah reliabilitas dua (atau lebih) penyekor independen. Reliabilitas ini biasa ditentukan menggunakan teknik korelasi, tetapi juga dapat hanya dinyatakan dalam presentase kesepakatan.

DAFTAR PUSTAKA

Calongesi, J.S. 1995. Merancang Tes untuk Menilai Prestasi Siswa. Bandung : ITB

Djaali dan Pudji Muljono. (2008). Pengukuran dalan Bidang Pendidikan. Jakarta: Grasindo.

Nana Sudjana. 2010. Penilaian Hasil Proses Belajar Mengajar. Bandung: PT Remaja Rosdakarya.

Reliabilitas dan Validitas Konstruk dalam Pemodelan Persamaan Struktural SEM.pdf (diakses pada tanggal 11 Februari 2015).

Slameto. 1998. Evaluasi Pendidikan. Jakarta: PT Bina Aksara.

Sudijono, A. (2009). Pengantar Evaluasi Pendidikan. Jakarta: Rajawali Press.

Suharsimi Arikunto. 2006. Dasar-Dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara.

Tayibnapis, F.Y. (2000). Evaluasi Program. Jakarta: Rineka Cipta.

Zainul & Nasution. (2001). Penilaian Hasil belajar. Jakarta: Dirjen Dikti.

Documents

Tugas 1 Resume