TELAAH SUMBER RELIABILITAS INSTRUMEN, ANALISIS BUTIR DAN TEKNIK PENGUJIANNYA


TELAAH SUMBER RELIABILITAS INSTRUMEN, ANALISIS BUTIR DAN TEKNIK PENGUJIANNYA

A.      Sumber reliabilitas Instrumen
Reliabilitas bermakna akurasi dan presisi dari prosedur pengukuran.sehingga hal ini menjelaskan seberapa konsisten keakuratan dari alat ukur yang digunakan dalam pengukuran tersebut.(Thorndike, et al. 1991 :91). Sedangkan Arikunto (2003:86)  reliabilitas adalah pemotretan berkali-kali, instrumen yang reliabel adalah instrumen yang dapat  dengan ajeg memberikan data yang sesuai dengan kenyataan, ajeg atau tetap dalam hal ini tidak di artikan bahwa data harus sam, tetapi mengikuti perubahan secara ajeg.
Menurut Gronlund & Linn (1990:78)  poin penting yang harus diperhatikan tentang reliabilitas adalah sebagai berikut:
1.    Reliabilitas berhubungan dengan hasil yang diperoleh dengan menggunakan instrumen evaluasi bukan instrumen itu sendiri.
2.    Estimasi reliabilitas selalu berhubungan dengan tipe konsistensi tertentu dalam artian skor tes tidak reliabel jika digunakan secara umum.
3.    Reliabilitas dibutuhkan, tetapi tidak selalu sesuai dengan validitas, Sebuah hasil tes yang sangat tidak konsisten belum tentu menyajikan keadaan yang sebenarnya tentang kegiatan belajar yang diukur, disisi lain hasil tes yang sangat konsisten bisa jadi mengukur hal yang salah.
4.    Reliabilitas mutlak berhubungan dengan statistik
Dari berbagai pengertian di atas dapat disimpulkan bahwa reliabilitas berhubungan dengan konsistensi data atau hasil pengukuran yang diukur dengan menggunakan instrumen tertentu dan untuk keperluan tipe konsistensi tertentu yang memberikan data secara ajeg sesuai dengan kenyataan yang ada.
Menurut Kemp (1994: 167)  semakin berhubungan antara soal dengan setiap kompetensi yang ingin dicapai maka semakin reliabel hasil tes yang didapatkan, tes harus disusun sesuai dengan standar yang ada, dan setiap orang yang di test harus berada dalam kondisi yang sama sehingga tidak menyebabkan ketidakcocokan hasil skor.
B.       Analisis Butir dan teknik pengujiannya
Menurut Aiken dalam Harsiati, realibilitas tidak sama dengan stabilitas. Dalam pengukuran realibilitas diasumsikan bahwa instrumen mengukur karakteristik yang relatif stabil. Ketidak andalan (unreliability) berkaitan dengan hasil kesalahan pengukuran yang disebabkan kondisi temporer seperti rendahnya motivasi atau kondisi eksternal seperti lingkungan pengujian yang tidak nyaman. Pengukuran reliabilitas diwujudkan dalam koefisien tes ulang, koefisien uji paralel, dan koefisien konsistensi internal.
            Reliabilitas mengacu pada stabilitas skor antar waktu dan konsistensi internal. Stabilitas skor mengacu pada sejauh mana konsistensi skor tes dan satu pengukuran ke pengukuran lainnya. Ukuran reliabilitas menunjukkan suatu estimasi sejauhmana variasi yang diharapkan pada kondisi yang berbeda. Pengukuran reliabilitas dalam hal ini bisa dilakukan dengan tes ulang atau tes paralel. Sementara konsistensi internal mengacu pada tingkat homogenitas butir-butir yang mengukur hal yang sama. Pengukuran reliabilitas dalam konsep konsistensi internal dapat menggunakan Kuder-Richardson atau Alpha Cronbach (Macmillan dalam Harsiati, 2011 : 106).
            Menurut Naga dalam Harsiati, 2011:106. Reliabilitas berkaitan dengan komponen skor tulen. Makin besar komponen skor tulen dan makin kecil komponen skor keliru maka semakin tinggi reliabilitas skor tersebut. Makin tinggi reliabilitas konsistensi tanggapan responden mempersoalkan apakah tanggapan responden terhadap tes sudah konsisten atau belum makin dapat dipercaya skor itu.
            Reliabilitas menurut Djaali dan Muljono dalam Harsiati (2011:106), mencakup konsistensi tanggapan dan konsistensi gabungan butir. Reliabilitas. Reliabilitas gabungan butir berkaitan dengan kemantapan atau konsistensi antara butir-butir suatu instrumen. Konsep reliabilitas mengacu pada konsep konsistensi gabungan item yaitu kemantapan butir-butir suatu tes. Pemilihan koefisisen reliabilitas yang memadai ditentukan dengan kriteria tertentu. Menurut Naga dalam Harsiati (2011:106) untuk menentukan besarnya  koefisien reliablitias yang memadai dengan dua kriteria empirik. Kriteria empirik berkaitan dengan karakteristik bidang ilmu dan statistika. Tidak semua bidang ilmu memiliki keakuratan yang tinggi. Koefisien reliabilitas hasil belajar matematika bisa mencapai 0,90 tetapi bidang ilmu lain tidak demikian. Untuk pengukuran bidang ilmu yang belum memiliki kecermatan tinggi penentuan koefisien yang memadai bisa dengan memeriksa jurnal ilmu yang bersangkutan. Jika pada umumnya ditemukan koefisien reliabilitas sebesar 0,4 maka koefisien yang memadai bisa 0,4.
            Menurut Baker dalam Harsiati (2011:107) bahwa koefisien reliabilitas interater yang memadai sebesar 0,6 atau 0,7. Berdasarkan kriteria-kriteria tersebut dalam penelitian ini menggunakan kriteria minimal 0,6 sebagai batas koefisien reliabilitas yang memadai. Hal ini mengingat bahwa tes literasi yang dikembangkan bersifat uraian.
            Reliabilitas interrater adalah keajegan suatu hasil siapa pun yang mengoreksi. Uji reliabilitas interrater juga diperlukan untuk menguji reliabilitas pedoman penyekoran hasil pengamatan. Uji interrater untuk menguji reliabilitas hasil penyekoran beberapa korektor terhadap sejumlah karya atau performansi yang diamati. Pengujian reliabilitas interrater bisa dilakukan dengan menghitung korelasi antar penilai. Penghitungan dilakukan dengan langkah-langkah :
1.      Pengukuran data hasil pengukuran
2.      Menghitung r antarrater
3.      Menentukan reliabilitas antarrater berdasarkan indeks korelasi.
Reliabilitas interrater dilakukan pada data hasil observasi terhadap butir-butir pada suatu instrumen (Macmillan dalam Harsiati, 2011:107). Baker dalam Harsiati, 2011:107 juga mengemukakan batas reliabilitas interrater minimal 0,7.
            Uji reliabilitas juga dikenakan pada uji interrater. Untuk menjaga reliabilitas butir soal essai perlu analisis interrater (interscorer reliability). Teknik analisis dilakukan dengan dua cara yaitu :
1.      Mengkorelasikan sejumlah hasil penyekoran oleh dua penilai
2.      Melakukan analisis (beberapa penilai merespon sebuah hasil/ beberapa hasil)
Tes hasil belajar dikatakan ajeg apabila hasil pengukuran saat ini menunjukkan kesamaan hasil pada waktu yang berbeda atau korektor yang berbeda. Misalnya siswa kelas 5 pada hari ini di tes kemampuan matematika. Minggu berikutnya siswa tersebut di tes kembali. Hasil dari kedua tes relatif sama. Sungguh demikian masih mungkin terjadi ada perbedaan hasil untuk hal-hal tertentu akibat faktor kebetulan, selang waktu, terjadinya perubahan pandangan siswa terhadap soal yang sama. Jika hal ini terjadi, kelemahan terletak pada alat ukur itu yang tidak memiliki kepastian jawaban atau meragukan siswa, atau bisa disimpulkan bahwa reliabilitasnya masih rendah.
a)    Hal yang Berhubungan dengan Tes (Panjang Tes dan Reliabilitasnya)
Tes yang terdiri dari banyak butir, tentu saja lebih valid dibandingkan tes yang hanya terdiri dari beberapa  butir soal. Tinggi rendahnya validitas menunjukkan tinggi rendahnya reliabilitas tes. Semakin panjang tes, maka reliabilitasnya semakin tinggi. Dalam menghitung besarnya reliabilitas berhubungan dengan penambahan banyaknya butir soal dalam tes ini adalah seuah rumus yang diberikan oleh Spearman dan Brown, yaitu :
rnn =
Keterangan :
rnn       = besarnya koefisien reliabilitas sesudah tes tersebut ditambah butir soal baru
n          = berapa kali butir-butir soal itu ditambah
r           = besarnya koefisien reliabilitas sebelum butir-butir soalnya ditambah
Contoh :
Suatu tes terdiri dari 40 butir soal, mempunyai koefisien reliabilitas 0,70. Kemudian butir-butir soal itu ditambah menjadi 60 butir soal. Berapakah koefisien reliabilitas barunya ?
 rnn =
            =
            = 0,79
Dengan penambahan 20 butir soal, dari 40 menjadi 60 butir, memperbesar koefisien reliabilitas sebesar 0,09. Akan tetapi penambahan butir-butir soal tes adakalanya tidak berarti, bahkan merugikan. Hal ini disebabkan karena :
·      Sampai pada suatu batas tertentu, penambahan banyaknya butir soal sudah tidak menambah tingginya reliabilitas tes
·      Penambahan tingginya reliabilitas tes tidak sebanding nilainya dengan waktu, biaya, dan tenaga yang dikeluarkan untuk itu. Contoh : guru sudah cukup membuat 100 soal bentuk objektif dan 10 soal bentuk esai yang sudah cukup memiliki validitas isi dan tingkah laku, tetapi guru tersebut ingin menambah butir-butir soal menjadi 200 soal bentuk objektif dan 20 soal bentuk esai, tentu saja hal ini hanya akan menambah waktu, biaya dan tenaga saja tanpa ada keuntungan.
Kualitas butir-butirs soal ditentukan oleh :
a)    Jelas tidaknya rumusan soal
b)   Baik tidaknya pengarahan soal kepada jawaban, sehingga tidak menimbulkan salah jawab
c)    Petunjuknya jelas, sehingga mudah dan cepat dikerjakan

1.    Pengukuran Reliabilitas
Indeks reliabilitas alat ukur dapat dicari dengan :
a)    Mengkorelasikan skor-skor yang diperoleh dari hasil pengukuran yang berulang-ulang pada waktu yang berbeda, atau dengan kelompok pertanyaan yang sepadan. Prosedur ini dilakukan dengan cara memberikan tes dua kali kepada subjek yang sama pada waktu yang berbeda.
b)   Membagi alat ukur (tes) menjadi dua bagian yang sama atau yang setaraf untuk melihat keajegan tes tersebut. Cara yang pertama dikenal dengan tes ulang (tes retest) dan cara kedua dikenal dengan pecahan sebanding/ setara. Berikut uraian dari kedua cara yang digunakan :
A.      Reliabilitas Tes Ulang (Test-retest Method)
Tes ulang (test retest) adalah penggunaan alat ukur terhadap subjek yang diukur, dilakukan dua kali dalam waktu yang berlainan. Misal : tes hasil belajar matematika untuk siswa SD kelas 5, diberikan hari ini, lalu diperiksa hasilnya. Seminggu kemudian tes tersebut diberikan lagi pada siswa yang sama dan hasilnya diperiksa. Hasil pengukuran yang pertama kemudian dikorelasikan dengan hasil pengukuran yang kedua untuk mendapatkan koefisien koreasinya (r). Koefisien korelasi ini disebut koefisien reliabilitas tes ulang, yang hasilnya akan bergerak dari 1,0 sampai +1,0. Bila koefisien reliabilitas mendekati angka 1,0 merupakan indeks reliabilitas tinggi. Artinya hasil pengukuran yang pertama relatif sama dengan pengukuran yang kedua. Dengan kata lain alat ukur tersebut memiliki tingkat keajegan atau ketetapan (reliabel). Untuk pengukuran ilmu-ilmu sosial dan pendidikan indeks reliabilitas 0,75 sudah dianggap cukup mengingat sifat dan ilmu sosial serta pendidikan berbeda dengan ilmu-ilmu eksakta.
            Reliabilitas tes-retes dapat dilakukan dengan cara :
a.    Laksanakanlah tes pada suatu kelompok dengan tepat sesuai dengan rencana
b.    Setelah selang waktu tertentu, misalnya 1 atau 2 minggu, lakukan kembali tes yang sama dengan kelompok yang sama
c.    Korelasikan hasil kedua tes tersebut
Jarak atau selang waktu antara pengukuran pertama dengan pengukuran kedua sebaiknya tidak terlalu dekat dan juga tidak terlalu jauh. Jika terlalu dekat atau pendek, hasil pengukuran banyak dipengaruhi oleh ingatan siswa tentang jawaban yang diberikan pada pengukuran yang pertama, bukan karena keajegan alat ukurnya. Sebaliknya jika selang waktu pengukuran pertama dengan pengukuran kedua terlalu lama, bisa terjadi adanya perubahan pengetahuan dan pengalaman siswa sehingga mempengaruhi koefisien reliabilitasnya. Asumsi yang digunakan dalam tes ulang ialah karakteristik yang diukur oleh alat ukur tersebut stabil sepanjang waktu, sehingga jika ada perubahan skor hasil kedua pengukuran lebih disebabkan kesalahan alat ukur. Cara tes ulang (tes retest) banyak digunakan dalam menetapkan atau menentukan tingkat reliabilitas alat ukur dalam penelitian sosial dan pendidikan. Berikut contoh data hasil test-retest :
Tabel 2.1 Contoh data hasil tes retes
Nama Siswa
Tes Pertama
Tes Kedua
Skor
Ranking
Skor
Ranking
Doni
40
5
60
5
Dona
70
2
80
2
Dina
55
4
70
4
Dian
60
3
75
3
Dani
85
1
95
1
Pada umumnya hasil tes kedua cenderung lebih baik daripada hasil tes pertama. Hal ini tidak mengapa karena adanya practice effect and carry over effect. Yang penting adalah adanya kesejajaran atau ketetapan hasil yang ditunjukkan oleh koefisien korelasi yang tinggi.
B.  Reliabilitas Pecahan Setara
Reliabilitas bentuk pecahan setara tidak dilakukan pengulangan pengukuran kepada subjek yang sama tetapi menggunakan hasil dari bentuk tes yang sebanding atau setara yang diberikan kepada subjek yang sama pada waktu yang sama pula. Dengan demikian diperlukan dua perangkat alat ukur yang disusun sedemikian rupa agar memiliki derajat kesamaan atau kesetaraan baik dari segi isi, tingkat kesukaran alat ukur, abilitas yang diukur, jumlah pertanyaan, bentuk pertanyaan dan segi-segi teknis lainnya. Yang berbeda hanyalah pertanyaannya. Bila penyusun kesetaraan alat ukur bisa dicapai seoptimal mungkin maka koefisisen reliabilitas dari prosedur ini dianggap paling baik dibandingkan dengan prosedur tes ulang. Namun kesulitannya terletak dalam menyusun perangkat alat ukur yang benar mengandung derajat kesetaraan tinggi.
Cara Pelaksanaan :
a)      Tentukan subjek sasaran yang hendak di tes
b)      Lakukan tes yang dimaksud kepada subjek sasaran tersebut
c)      Administrasikan hasilnya secara baik
d)     Dalam waktu yang tidak terlalu lama, lakukan pengetesan untuk yang kedua kalinya pada kelompok tersebut
e)      Korelasikan kedua hasil set skor
Jika hasil ekivalen tinggi, berarti tes memiliki reliabilitas ekivalen baik, sebaliknya jika koefisien rendah maka reliabilitas ekivalen rendah. Tes ini memiliki kelemahan, yaitu membuat dua buah tes yang secara esensial ekivalen merupakan hal yang sulit, akibatnya akan selalu terjadi kesalahan pengukuran.
C.  Reliabilitas Belah Dua
Reliabilitas belah dua mirip dengan reliabilitas pecahan setara terutama dari pelaksanaannya. Dalam prosedur ini alat ukur diberikan kepada kelompok subjek cukup satu kali atau suatu saat. Butir-butir soal dibagi dua bagian yang sebanding, biasanya membedakan soal nomor genap dengan soal nomor ganjil. Setiap bagian soal diperiksa hasilnya, kemudian skor dari kedua bagian tersebut dikorelasikan untuk dicari koefisien korelasinya. Mengingat korelasi tersebut hanya berlaku separuh tidak untuk seluruh pertanyaan, maka koefisien korelasi yang didapatkannya tidak untuk  seluruh soal, tapi hanya separuhnya. Oleh sebab itu koefisien korelasi belah dua perlu diubah kedalam koefisien korelasi untuk seluruh soal dengan menggunakan rumus ramalan Spearmen Brown berikut :
Keterangan : rxx     = koefisien reliabilitas keseluruhan
               r   = korelasi (r) dari belah dua
Contoh Koefisien Korelasi Belah Dua adalah 0,60
rxx =   =  = 0,75
dari contoh diatas terjadi peningkatan koefisien korelasinya setelah dilakukan pengubahan. Asumsi yang digunakan dalam prosedur belah dua adalah kedua bagian alat ukur itu paralel sekalipun sering keliru atau tidak benar. Akibat adanya pengubahan koefisien reliabilitas, prosedur belah dua cenderung menunjukkan koefisien reliabilitas yang tinggi daripada prosedur tes ulang dan pecahan setara. Oleh sebab itu penggunaan belah dua harus lebih berhati-hati. Prosedur ini digunakan bila alat ukur mengandung atau terdiri dari banyak item, atau materi yang diuji cukup komprehensif.
D.      Mengukur Homogenitas
Mengukur homogenitas pada dasarnya adalah memperhitungkan dua sumber kesalahan yang muncul pada tes yang direncanakan. Kedua sumber kesalahan tersebut:
1)   Content atau isi sampling dari tes yang dibelah,
2)   Heterogenitas tingkah laku daerah (domain yang disampel
Semakin heterogen suatu domain pada umumnya dapat diterjemahkan semakin rendah konsistensi antar item suatu tes. Semakin homogen suatu domain dalam tes evaluasi, maka semakin tinggi tingkat konsistensi antar item.
       Salah satu indeks homogenitas yang paling banyak digunakan dan sering ditemui dalam proses penelitian evaluasi adalah formula Kuder Richardson (K-R). Ada dua macam formula Kuder Richardson, yaitu K-R 20 dan K-R21. K-R20 dipakai apabila item tes menggunakan dua pilihan jawaban saja (misal : benar dan salah), sedangkan K-R21 digunakan untuk tes item yang dibuat sistematikanya menggunakan pilihan ganda, misal empat jawaban, atau tiga jawaban.
Rumus K-R 20 :
       rxx =
Rumus K-R 21 :
rxx =  
keterangan :
rxx      = Koefisien reliabilitas keseluruhan
K        = Jumlah butir tes secara keseluruhan
S2        = Variasi skor total tes (mean skor)
p         = proporsi jawaban benar pada item tunggal
q         = proporsi jawaban salah pada item yang sama
X        = Rerata skor
Misalnya disusun tes sebanyak 80 soal. Setelah diberikan kepada sejumlah siswa dalam kelas tertentu, lalu dicari nilai rata-rata dan simpangan bakunya. Misalnya diperoleh rata-rata nilainya 60 dan simpangan bakunya 8. Dengan rumus diatas, maka :
rxx =   =   =    =  0,77
Uraian ukuran reliabilitas yang telah dijelaskan di atas dapat dipertimbangkan oleh peneliti cara mana yang paling tepat digunakan bergantung pada peneliti. Pertimbangan tersebut, antara lain :
1)        Sifat variabel yang diukur
2)        Jenis alat ukur
3)        Jumlah subjek yang diukur
4)        Hasil-hasil pengukuran yang diharapkan sesuai dengan tujuan penelitian

2.    Faktor-faktor yang mempengaruhi reliabilitas :
a.      Panjang Tes
Semakin panjang suatu tes, semakin banyak jumlah butir materi pembelajaran yang bisa diukur. Ini menunjukkan dua kemungkinan. (1) tes semakin mendekati kebenaran. (2) dalam mengikuti tes, semakin kecil siswa menebak. Dengan kedua alasan tersebut semakin tinggi koefisien reliabilitas.
b.      Penyebaran Skor
Koefisien korelasi dipengaruhi oleh bentuk sebaran skor dalam kelompok siswa yang diukur. Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliabilitas (Gronlund dalam Harsiati, 2011:111).
c.       Petunjuk penyekoran/ rubrik yang kurang rinci (multi tafsir)
Penilaian tugas atau tes esai dengan pedoman penyekoran yang kurang rinci atau multitafsir menyebabkan keajegan hasil terganggu. Semakin bervariasi penafsiran korektor terhadap pedoman penyekoran, semakin rendah keajegan hasil.

Kesulitan Tes
Tes normatif yang terlalu mudah atau terlalu sulit cenderung menghasilkan skor reliabilitas rendah. Fenomena tersebut akan menghasilkan sebaran skor yang cenderung terbatas pada salah satu sisi. Demikian juga, jika tes terlalu mudah skor jawaban akan mengumpul pada sisi atas (misalnya 9 atau 10). Untuk tes yang terlalu sulit, skor jawaban cenderung mengumpul pada ujung sebaliknya (rendah).

3.    Implementasi Reliabilitas Pada Penilaian
Suatu penilaian dikatakan terpercaya (reliabel) jika hasil yang diperoleh pada ujian itu tetap atau stabil, kapan saja, dimana saja, siapapun yang mengujikannya dan menilainya. Keterpercayaan meliputi bahan ujian dan pemeriksanya. Dengan kata lain, tes dianggap reliabel jika memiliki keajegan hasil pengukuran sewaktu dilaksanakan pada saat yang berbeda dengan kondisi yang relatif sama. Berkaitan dengan reliabilitas tersebut Gronlund dalam Harsiati (2011:112) mengungkapkan bahwa reliabilitas tes mengacu pada suatu pengertian apakah suatu tes dapat mengukur secara konsisten sesuatu yang akan diukur dari waktu ke waktu.
Syarat-syarat alat-alat penilaian pembelajaran memiliki keterpercayaan maka perlu diperhatikan kriteria berikut :
a.    Keterpercayaan terhadap soal tes
*   Sesuai dengan tujuan dan materi yang diujikan
*   Bertambah banyak segi yang diujikan maka bertambah pula nilai keterpercayaannnya
*   Hasil penilaian yang stabil menunjukkan nilai keterpercayaan yang tinggi
*   Bentuk soal objektif lebih terpercaya, sebab :
(1) Segi yang diujikan mencakup tujuan dan bahan yang cukup luas
(2) Ukuran jawaban yang sudah pasti/ tetap, tidak akan terjadi jawaban yang meragukan penilai
*   Motivasi pengikut ujian mempengaruhi nilai keterpercayaan saat ujian


b.   Keterpercayaan Hasil
Soal bentuk objektif mendekati kesempurnaan dalam keterpercayaan sebab penilai hanya mencocokkan dengan kunci jawaban yang tepat, tidak memerlukan pertimbangan. Ada sejumlah cara yang dapat digunakan untuk mengkaji kemungkinan ajeg-tidaknya suatu tes. Caranya meliputi :
*   Test-retest
*   Menggunakan bentuk soal yang berbeda
*   Cara paro/ belah dua
*   Persamaan rasional
Diantara sejumlah cara tersebut, tidak ada yang dianggap paling baik. Pendapat yang diajukan ternyata berbeda-beda. Ada yang berpendapat bahwa cara terbaik untuk melihat ajeg tidaknya suatu tes adalah dengan melaksanakan test-retest, lalu diantara hasil tes awal dan retest itu dikaji tingkat korelasinya. Cara tersebut mengandung beberapa kelemahan, antara lain :
1)      Kondisi dan situasi pelaksanaan tes dalam waktu yang berbeda sulit dikontrol
2)      Terdapat banyak variabel yang mempengaruhi keterpercayaan hasilnya
3)      Peserta tes harus mengambil tes 2x dalam waktu yang relatif singkat (Gronlund dalam Harsiati, 2011:113).
Untuk mengukur reliabilitas ini dapat diperkirakan dengan cara mengkorelasikan skor-skor yang diperoleh seseorang pada waktu yang berbeda dengan kelompok-kelompok pertanyaan yang sepadan. Prosedur lainnya dilakukan dengan jalan secara artifisial membagi dua bagian yang sama dengan jalan menetapkan keajegan internal tes tersebut.
Berdasarkan tujuan dan bentuk tes yang digunakan dapat ditentukan metode penentuan reliabilitas yang dipandang cocok untuk menentukan ajeg tidaknya sebuah tes. Metode tes ulang dipandang tidak tepat untuk menentukan reliabilitas kemampuan menulis, sebab hampir dapat dipastikan bahwa pengaruh ingatan dalam tes menulis sangat kuat. Metode persamaan rasional dapat digunakan untuk menentukan reliabilitas ketrampilan menulis, sebab pengaruh ingatan dalam tes menulis dapat ditekan dan kemampuan menulis dapat dipandang sebagai kemampuan yang relatif konstan. Metode cara belah dua jelas tidak dapat dipakai untuk menentukan reliabilitas ketrampilan menulis. Sulit sekali untuk dapat membagi tes menulis menjadi dua bagian yang setara. Metode menggunakan bentuk soal yang berbeda memang dapat digunakan
c.    Reliabilitas Antarkorektor (Interrater)
Reliabilitas antarkorektor merupakan hal penting dalam penilaian hasil belajar ketrampilan berbahasa Indonesia. Kehandalan (reliabilitas) alat penilaian menunjuk pada pengertian kemampuan alat itu untuk mengukur secara ajeg, tidak berubah-ubah. Ibarat sebuah timbangan, ia dapat mengukur berat suatu benda secara benar siapapun yang mempergunakannya. Tes dianggap reliabel jika memiliki keajegan hasil pengukuran sewaktu dilaksanakan pada saat yang berbeda dengan kondisi yang relatif sama.
Dalam penilaian ketrampilan berbahasa, pengukuran reliabilitas ini dapat diperkirakan dengan cara mengkorelasikan skor-skor yang diperoleh seseorang pada waktu-waktu yang berbeda atau dengan korektor yang berbeda-beda. Prosedur ini dilakukan dengan mengkorelasikan hasil penyekoran korektor pertama dan  korektor. Upaya untuk menjaga reliabilitas antar korektor pada penilaian berbahasa dapat dilakukan dengan cara membuat rubrik yang jelas dan rinci. Rubrik yang jelas  dan rinci akan memandu korektor menghasilkan skor yang sama sehingga diharapkan dapat menghasilkan penilaian yang sama. Berikut prosedur yang perlu ditempuh untuk menghasilkan pedoman penyekoran yang reliabel :
1.    Langkah menyusun rubrik untuk menjaga reliabilitas antarkorektor : mencermati karakteristik kompetensi dasar dan indikator. Langkah awal menyusun rubrik adalah mencermati konstruks (bangunan pengertian) suatu kompetensi dasar. Karakteristik suatu kompetensi akan menentukan jabaran indikator. Indikator bisa dijabarkan lagi menjadi deskriptor agar mudah diamati.
2.    Menentukan deskriptor yang lebih teramati dari kompetensi
3.    Menyususn perilaku yang teramati (deskriptor) dari suatu kompetensi. Bisa juga menyusun deskriptor dengan mencermati kriteria pada indikator. Kriteria pada indikator dikongkretkan menjadi deskriptor pada rubrik. Menentukan skor maksimal untuk semua munculnya deskriptor. Setelah semua indikator pencapaian dijabarkan menjadi deskriptor, ditentukan skor maksimal tiap-tiap indikator. Penentuan skor maksimal ditentukan oleh tingkat pentingnya suatu indikator.
4.    Membuat gradasi (skor atau skala) pada tiap deskriptor. Setelah ditentukan skor maksimal untuk tiap deskriptor, perlu dijabarkan gradasi skor dari tiap-tiap indikator. Menata aspek deskriptor, skor maksimal, dan gradasi skor pada sebuah tabel yang mudah dibaca dan digunakan
Contoh :
Kompetensi yang akan diukur : menulis iklan sesuai konteks
Indikator : siswa mampu membuat iklan secara individual dari konteks yang ditentukan
Dalam menilai hasil karya siswa digunakan dua pedoman berikut. Manakah yang memiliki reliabilitas tinggi ditinjau dari reliabilitas antara korektornya ?.
Tabel 2.2 Rubrik Menulis Iklan versi A
Berilah tanda cek sesuai dengan hasil pengamatanmu !
No
Sub Kompetensi
Rincian Indikator
Ya
Tidak
Bukti
1
Memilih isi iklan yang sesuai dengan tujuan iklan untuk mempersuasi
-  Iklan mengandung penjelasan barang / jasa yang diiklankan secara jelas tetapi ringkas
-  Iklan berisi ajakan/ alasan untuk menggunakan apa yang diiklankan (kelebihan barang/ jasa)



2
Memilih isi dan bentuk iklan yang otentik dan kreatif
- Isi iklan unik dan menarik sesuai dengan produk/ barang yang diiklankan (tidak meniru yg telah ada)
- Bentuk pujian, ajakan, dan cara meyakinkan kreatif



3
Memilih diksi dan struktur
- Memilih penggunaan kata yang dapat menarik perhatian (perulangan bunyi, perulangan kata, berkaitan dengan nama/identitas barang/jasa yang diiklankan)
- Dapat memilih struktur kalimat yang padat dan singkat
- Memilih kata dan struktur kalimat yang sesuai dengan sasaran iklan.



Satu jawaban “ya” mendapatkan skor 5, jawaban “tidak” mendapatkan skor 1. Skor maksimal 35 (5x7).
Tabel 2.3 Rubrik Menulis Iklan Versi B
No
Sub Kompetensi
1
2
3
4
5
1
Pilihan Kata





2
Unsur Iklan





3
Isi Iklan





Dari contoh kedua rubrik atau pedoman penyekoran diatas, contoh satu lebih memberi hasil yang sama jika dikoreksi orang yang berbeda. Rubrik contoh pertama deskriptornya jelas dan penyekorannya jelas. Dengan demikian, siapa saja yang memberi skor hasil penulisan iklan akan menghasilkan skor relatif sama. Pada contoh rubrik 2, deskriptor tidak jelas karena hanya mencantumkan aspeknya saja, penyekorannya juga kurang jelas. Misalnya akan diberi skor 5 untuk pilihan kata, jika hasil siswa seperti apa, dapat skor 4,3,2, atau 1 jika memiliki ciri seperti apa ? semua gradasi tersebut kurang jelas kriterianya. Dengan demikian, tiap korektor akan mempunyai persepsi sendiri-sendiri. Hal ini berpotensi hasil penilaian memiliki reliabilitas yang rendah. Reliabilitas yang rendah pada antarkorektor juga dapat dilakukan dengan cara memberikan batas toleransi perbedaan antar korektor. Jika hasil melebihi batas maksimal perbedaan, hasil harus dikoreksi ulang.

4.    Kepraktisan Alat Penilaian
Kepraktisan adalah soal dapat digunakan sesuai dengan kondisi dan situasi yang ada. Brown dalam Harsiati (2011:116) mengungkapkan bahwa alat penilaian dianggap praktis  jika dapat dilakukan guru dengan kondisi yang ada. Kepraktisan merujuk pada kemudahan dilaksanakan dan berisi perintah yang jelas. Suharsimi Arikunto dalam Harsiati (2011:116) menegaskan bahwa sebuah tes dikatakan memiliki nilai tingkat kepraktisan yang tinggi apabila tes tersebut bersifat praktis, mudah pengadministrasiannya. Tes dianggap praktis jika memiliki ciri sebagai berikut :
a.    Mudah dilaksanakan
Misalnya : tidak menuntut peralatan yang banyak dan memberi kebebasan siswa untuk mengerjakan terlebih dahulu bagian yang dianggap mudah oleh siswa


b.   Mudah pemeriksaannya
Tes itu dilengkapi dengan kunci jawaban maupun pedoman skoringnya. Untuk soal bentuk objektif, pemeriksaan akan lebih mudah dilakukan jika dikerjakan oleh siswa dalam lembar jawaban
c.    Dilengkapi dengan petunjuk-petunjuk yang jelas sehingga dapat diberikan/ diwakili oleh orang lain
Kemudahan cara melakukan bukan berarti harus mengorbankan validitas alat penilaian. Misalnya dalam  pelajaran Bahasa Indonesia yang memiliki karakteristik kompetensi yang terdiri dari ketrampilan berbicara dan ketrampilan menulis dalam waktu yang lebih banyak dari kompetensi yang lain. Untuk itu perlu dicari strategi-strategi praktis untuk menilai ketrampilan berbicara dan menulis tanpa mengorbankan validitas konstruk sebuah alat penilaian.

5.    Uji Daya Beda dan Tingkat Kesulitan
Indeks daya beda atau indeks deskriminasi butir merupakan indikator keselarasan atau konsistensi antara fungsi butir dengan fungsi skala secara keseluruhan yang dikenal dengan istilah konsistensi butir total. Pengujian daya diskriminasi butir menghendaki dilakukan komputasi koefisien korelasi antara butir total yang dikenal pula dengan sebutan parameter daya beda butir. Bila item tes diberi skor dikotomi, yaitu 0 atau 1, maka teknik korelasi yang digunakan adalah teknik korelasi point biserial (rpb) (Saifudin, Anwar dalam Harsiati, 2011:117). Sebagai kriteria pemilihan item berdasar korelasi item total, biasanya digunakan batasan r xy ≥0,30. Semua item yang mencapai koefisien korelasi minimal 0,30 daya bedanya dianggap memuaskan.
Kriteria dan kesimpulan dari daya beda suatu butir tes dikategorikan sebagai berikut :
Tabel 2.4  Kriteria Daya Beda Butir Tes
No
Besarnya DB
Kategori
1
Kurang dari 0,19
Kurang baik
2
0,20 – 0,39
Baik
3
0,40 – 1,00
Sangat Baik
4
Bertanda negatif
Jelek
            Aiken dalam Harsiati (2011:118) mengemukakan bahwa daya beda butir soal adalah indeks yang menunjukkan tingkat kemampuan butir soal untuk membedakan kelompok yang berprestasi tinggi (kelompok atas) dari kelompok yang berprestasi rendah (kelompok bawah) diantara para peserta tes. Karena daya beda dihitung dari hasil tes kelompok peserta ujian tertentu, maka dalam penafsirannya daya beda pun harus selalu dikaitkan dengan kelompok peserta tes (kelompok sampel) tertentu. Daya beda suatu butir soal yang didasarkan pada hasil tes suatu kelompok belum tentu akan berlaku pada kelompok yang lain, apalagi bila tingkat kemampuan masing-masing kelompok peserta tes itu berbeda. Misalnya, suatu butir soal yang diujikan kepada mahasiswa jurusan sosiologi akan sangat berbeda hasil dan interpretasinya bila butir soal tersebut diujikan kepada mahasiswa jurusan matematika. Daya beda butir soal biasa disimbolkan dengan D (huruf kapital).
Langkah-langkah untuk mengkalkulasi daya beda adalah sebagai berikut :
a.    Susunlah urutan peserta tes berdasarkan skor yang diperolehnya, mulai dari skor tertinggi sampai ke skor yang terendah
b.    Bagilah peserta tes tersebut menjadi dua kelompok yang sama jumlahnya. Bila jumlah peserta tes ganjil, maka peserta yang di tengah-tengah tak usah dimasukkan kedalam salah satu kelompok. Kelompok pertama dinamakan kelompok prestasi tinggi (kelompok atas) dan kelompok kedua dinamakan kelompok prestasi rendah (kelompok bawah). Bila jumlah peserta cukup besar (lebih dari 50), maka diambil 27% dari kelompok atas dan 27% dari kelompok bawah.
c.    Hitunglah jumlah kelompok atas menjawab benar terhadap butir soal yang akan dikalkulasi daya bedanya. Demikian pula untuk kelompok bawah.
d.   Kalkulasilah proporsi peserta yang menjawab benar terhadap butir soal tersebut untuk masing-masing kelompok
e.    Kurangilah proporsi kelompok atas dari kelompok bawah, dan diperoleh indeks daya beda butir soal tersebut
Bila data pada tabel nomor 6.1 diatas diterapkan untuk menghitung daya beda butir soal nomor 5, maka akan diperoleh daftar sebagai berikut :


Tabel 2.5 Contoh kelompok atas dan kelompok bawah
Nama
Kategori Kelompok
Atas
Bawah
Natasya
10

Mayang
9

Himmah
8

Shakila
8

Arum
8

Riris

6
Farah

6
Riska

5
Dewi

5
Denia

4
Apabila jumlah mahasiswa besar (lebih dari 50 orang), maka perlu dibuat pembagian 3 kelompok, yaitu : atas, tengah, dan bawah untuk memudahkan analisis.
Kelompok atas yang menjawab benar soal nomor 5 adalah 5 orang, sedangkan kelompok bawah hanya dua orang. Dengan demikian proporsi kelompok atas yang menjawab benar adalah 1,0. Kelompok bawah adalah 0,4, jadi daya beda butir soal nomor S adalah 1,0 – 0,4 = 0,6. Dari kalkulasi diatas kita dapat menyusun rumus daya beda :
D =  
Keterangan :
D    : Daya beda
Ba   : jumlah kelompok atas yang menjawab benar
Bb   : jumlah kelompok bawah yang menjawab benar
T     : Jumlah peserta tes (bila jumlah peserta ganjil, maka T = jumlah peserta tes dikurangi 1)
Indeks atau koefisien daya beda berkisar antara +1,0 sampai dengan -1,0. Daya beda +1,0 berarti bahwa semua anggota kelompok atas menjawab benar terhadap butir soal itu, sedangkan kelompok bawah seluruhnya menjawab salah terhadap butir soal itu. Sebaliknya daya beda -1,0 berarti bahwa semua anggota kelompok atas menjawab salah satu butir soal itu, sedangkan kelompok bawah seluruhnya menjawab benar terhadap butir soal itu.
A.  Tingkat Kesulitan Butir Soal
Tingkat kesukaran butir adalah proporsi peserta tes menjawab benar terhadap setiap butir tes. Tingkat kesukaran butir tes biasanya dilambangkan dengan P. Semakin besar nilai P  berarti semakin rendah tingkat kesukaran butir tes tersebut. Rentangan tingkatan kesukaran butir antara 0,0 sampai 1,0. Tingkat kesukaran butir 0,0 berarti tidak seorang pun peserta tes yang dapat menjawab butir tes tersebut secara benar. Sedangkan tingkat kesukaran butir 1,0 berarti semua peserta tes dapat menjawab butir tes dengan benar. Adapun rumus untuk menghitung tingkat kesukaran butir tes menurut Aiken dalam Harsiati (2011:120) adalah :
P =
Keterangan :
P   : Tingkat kesukaran butir tes
B  : Banyaknya responden yang menjawab benar dan butir tes
JS : Jumlah peserta (responden)

Untuk kriteria dan kesimpulan dari tingkat kesukaran butir suatu tes dikategorikan seperti tabel berikut :
Tabel 2.6 kriteria tingkat kesukaran butir
No
Besarnya P
Kategori
1
Kurang dari 0,30
Sukar
2
0,30 – 0,70
Sedang (cukup)
3
Lebih dari 0,70
Mudah
Uji taraf  sukar butir dilakukan terhadap instrumen yang berupa tes. Taraf sukar butir adalah proporsi responden yang dapat atau tidak dapat menjawab  butir dengan betul. Taraf sukar butir sebagai salah satu parameter butir dimaksudkan untuk menguji seberapa sukar butir untuk dijawab oleh responden. Ada dua cara yang dapat digunakan untuk mengetahui taraf sukar butir atas dasar jawaban responden, yaitu :
1)      Taraf sukar butir proporsi sederhana seluruh kelompok responden
2)      Taraf sukar butir proporsi sederhana kelompok tinggi rendah
Pada analisis hasil uji coba empirik instrumen yang berupa tes diuji taraf sukarnya dengan butir proporsi sederhana seluruh kelompok. Artinya, dalam analisis butir jenis ini tidak memisahkan antara kelompok skor tinggi dan kelompok skor rendah. Pemilihan ini didasarkan pada alasan bahwa jumlah responden ujicoba tergolong sedikit, yakni 35 responden dan seluruh skor merupakan satu kesatuan hasil pengukuran menggunakan satu perangkat alat ukur. Rumus yang digunakan sebagai berikut :
Pi    =  
X  = 1 = Jawaban betul                                   f  = Frekuensi yang menjawab betul
M = Banyaknya responden                             Pi = Proporsi jawaban betul
Kriteria :
P ≥ 0,40 berarti cukup memuaskan (Dali S Naga dalam Harsiati, 2011:121)
            Dari rumus tersebut dapat kita ketahui bahwa tingkat kesukaran butir soal sangat dipengaruhi oleh tingkat kemampuan anggota kelompok peserta tes. Bila satu butir soal diadministrasikan kepada dua kelompok peserta tes yang berbeda tingkat kemampuan, maka  hasilnya dapat diperkirakan akan berbeda pula. Dengan demikian dapat disimpulkan bahwa tingkat kesukaran butir soal tidak sepenuhnya merupakan ukuran karakteristik butir soal saja, tetapi lebih merupakan kemampuan rata-rata kelompok peserta tes. Maka bila kita jumpai suatu butir tes yang mempunyai tingkat kesukaran 0,45, maka interpretasinya ialah butir soal itu memiliki tingkat kesukaran 0,45 untuk kelompok peserta tes tersebut.
            Tingkat kesukaran butir soal tidaklah menunjukkan bahwa butir soal tertentu itu baik atau tidak. Tingkat kesukaran butir soal hanya menunjukkan bahwa butir soal itu sukar atau mudah untuk kelompok peserta tes tertentu. Butir soal hasil belajar yang terlalu sukar atau terlalu mudah tidak banyak memberi informasi tentang butir soal atau peserta tes. Untuk tes hasil belajar, tingkat kesukaran yang dianggap baik adalah bila berkisar 0,50. Dengan kata lain, makin dekat tingkat kesukaran suatu butir soal tes hasil belajar ke 0,50, makin baik butir soal tersebut bagi kelompok tertentu. Sebaliknya makin jauh tingkat kesukarannya dari 0,50 maka semakin kurang informasi yang kita peroleh tentang butir soal dan kelompok peserta tes.
            Untuk dapat menghitung tingkat kesukaran butir soal, maka perlu dibuat tabel skor hasil tes sebagai berikut :
Tabel 2.7 Skor Hasil Tes Membaca Pemahaman (N=10)
Nama Murid
Nomor Butir Soal
1
2
3
4
5
6
7
8
9
10
Jumlah
Febri
1
1
1
0
0
1
1
1
0
0
6
Rani
1
1
0
0
1
1
0
1
1
1
7
Rina
1
1
1
1
1
1
1
1
1
0
9
Dina
1
0
1
1
1
1
1
1
0
1
8
Dino
1
1
0
0
1
0
0
0
1
0
4
Doni
1
0
1
1
1
0
1
1
1
0
7
Rangga
1
1
1
1
1
1
1
1
1
1
10
Roni
1
1
1
0
1
1
0
1
1
0
7
Rima
1
1
0
0
0
0
1
0
1
0
4
Rini
1
1
1
0
0
0
1
1
0
0
5
Jumlah
10
8
7
4
7
6
7
8
7
3

P
1.0
0.8
0.7
0.4
0.7
0.6
0.7
0.8
0.7
0.3

Keterangan :
1 = jawaban benar
0 = jawaban salah
Dalam contoh ini butir soal hanya 10 buah
Contoh diatas memperlihatkan bahwa tingkat kesukaran soal nomor 1 adalah 10:10 = 1,0. Sedangkan butir soal nomor 10 tingkat kesukarannya adalah 3:10 =0,3. Jadi soal nomor 1 sangat mudah bagi kelompok peserta ini, sedangkan butir soal nomor 10 dapat dikategorikan sebagai soal yang sukar untuk kelompok peserta tes tersebut. Jika jumlah siswa besar (50 orang atau lebih) maka perlu dibuat pembagian 3 kelompok, yaitu kelompok atas, tengah dan bawah  untuk memudahkan analisis. Kelompok tengah tidak diikut sertakan dalam analisis butir soal.
5. Analisis Distraktor
            Berfungsi tidaknya pilihan pada tes objektif pilihan ganda perlu diketahui. Untuk menentukan berfungsi tidaknya pengecoh, diadakan analisis butir soal. Untuk keperluan analisis ini jawaban peserta ujian yang termasuk kelompok atas dan kelompok bawah yang dijadikan sumber informasi. Distribusi jawaban kedua kelompok ini untuk setiap butir dimasukkan dalam satu tabel seperti contoh contoh dibawah ini .


(a) Butir Soal No.1
Tabel 2.8 Contoh Distribusi Jawaban
Kelompok
Pilihan
A
B*
C
D
Atas
0
4
1
0
Bawah
1
2
1
1
Jumlah
1
6
2
1
Jawaban yang benar adalah B (diberi tanda bintang), kebanyakan peserta (pada kedua kelompok ini) memilih B. Pengecoh A,C dan D ada yang memilih terutama mereka yang masuk kelompok bawah. Dengan demikian, dapat disimpulkan bahwa pengecoh berfungsi sebagai jawaban yang salah. Jadi butir soal nomor 1 pengecoh  berfungsi karena dipilih/ diminta peserta tes dan kelompok atas lebih sedikit terpleset memilih pengecoh dibanding kelompok bawah.

(b) Butir Soal No.2
Tabel 2.9 Contoh Distribusi Jawaban
Kelompok
Pilihan
A
B*
C
D
Atas
0
1
1
3
Bawah
0
1
2
2
Jumlah
0
2
3
5

(c) Butir Soal No.3
Tabel 2.10  Contoh Distribusi Jawaban
Kelompok
Pilihan
A
B*
C
D
Atas
0
1
1
3
Bawah
0
1
2
2
Jumlah
0
2
3
5
            Contoh butir 2 dan 3 pengecoh tidak efektf karena pengecoh A tidak ada yang memilih dan pengecoh D kelompok atas lebih banyak yang terpleset daripada kelompok bawah.



C.  Penggunaan Tingkat Reliabilitas dalam Pegambilan Keputusan
Menurut Gronlund&Linn (1990:101)  Reliabilitas tinggi dibutuhkan pada saat
1.      Keputusan tersebut sangat penting
2.      Merupakan keputusan akhir
3.      Keputusan tidak dapat dirubah
4.      Keputusan tidak dapat dikonfirmasi ulang
5.      Keputusan terfokus pada individu
6.      keputusan memiliki konsekuensi jangka panjang
dalam hal ini misalnya penyaringan mahasiswa baru, menerima atau menolak dan sebagainya. sedangkan reliabilitas yang rendah dapat ditoleransi ketika:
2.      keputusan yang dibuat pada tahapan awal
3.      keputusan dapat dirubah
4.      keputusan dapat dikonfirmasi dengan data yang lain
5.      keputusan terfokus pada kelompok
6.      keputusan memiliki efek sementara
Dalam hal ini misalnya ketika mereview kegiatan pembelajaran dikelas.

0 Response to "TELAAH SUMBER RELIABILITAS INSTRUMEN, ANALISIS BUTIR DAN TEKNIK PENGUJIANNYA"

Post a Comment