#Marsigit2019 #Marsigit #Philosophy
Draf Proposal Tesis Berdasarkan Persoalan Filosofis
Pembelajaran Matematika di Sekolah
Oleh:
Hanifah Nabila Hendral
19701251003
Dosen Pengampu: Prof. Dr. Marsigit, M.A.
KUALITAS SOAL UJIAN AKHIR SEMESTER MATEMATIKA MATEMATIKA KABUPATEN
BANTUL KELAS VIII TAHUN PELAJARAN 2014-2019
A.
Latar Belakang
Pemerintah Indonesia cukup gencar dalam
memperbaiki mutu pendidikan Indonesia. Peningkatan mutu pendidikan adalah usaha
yang selalu diupayakan dengan terus menerus agar pendidikan yang berkualitas
dapat tercapai (Lestari, et al., 2019). Undang-Undang Nomor 20 Tahun 2003
tentang Sistem Pendidikan Nasional, pasal 1 angka 1 menyatakan bahwa pendidikan
adalah usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses
pembelajaran agar siswa secara aktor mengembangkan potensi dirinya untuk
memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian,
kecerdasan, akhlak mulia, serta keterampilan yang diperlukan dirinya,
masyarakat, bangsa dan negara.
Peranan guru dalam meningkatkan mutu pendidikan
nasional sangat diperlukan. Guru sebagai pendidik perlu menciptakan suasana
belajar yang menyenangkan dan mengembangkan potensi siswa agar mencapai tujuan
yang diinginkan.
Salah satu kompetensi pendagogik guru adalah
melakukan evaluasi atas proses dan hasil belajar. Guru harus dapat menyusun
alat penilaian yang sesuai dengan tujuan pembelajaran untuk mencapai kompetensi
tertentu dan menganalisa hasil penilaian. Sesuai dengan Undang-Undang Sistem
Pendidikan Nasional Tahun 2003 pasal 58 ayat 1 menyatakan “evaluasi hasil
belajar peserta didik dilakukan oleh pendidik untuk memantau proses, kemajuan,
dan perbaikan hasil belajar peserta didik secara berkesinambungan.
Penilaian adalah komponen penting dalam proses
pembelajaran (Pawluk et al., 2018 & Mansyur et al., 2019). Dengan meningkatkan kualitas pembelajaran dan
sistem penilaiannya maka kualitas pendidikan akan meningkat. Sistem
Pembelajaran yang baik akan menghasilkan kualitas belajar yang baik dan
kualitas pembelajaran dapat dilihat dari hasil penilaiannya (Mansyur, Rasyid,
Suratno, 2015).
Dalam melakukan penilaian untuk mengukur hasil
belajar siswa dibutuhkan adanya alat penilaian salah satunya ialah tes pilihan
ganda (Al Muhaissen et al., 2019 & Burud et al., 2019). Tes pilihan ganda yang dibuat harus mampu
mengukur tingkat kognitif dari taksonomi bloom (Al
Muhaissen et al., 2019 & Haladyna et al., 2002 & Burud et al., 2019).
Sebuah soal pilihan majemuk terdiri dari
pernyataan atau pertanyaan (stem) dan pilihan jawaban. Pilihan jawaban terdiri
atas kunci jawaban dan distraktor. Kunci jawaban adalah jawaban yang benar
sedangkan distraktor adalah jawaban yang tidak benar (Quaigrain & Arhin, 2017 & Istiyono, 2018). Distraktor yang bagus apabila dipilih paling
tidak <5% dari total peserta tes. (Testa et al., 2018). Menyusun soal pilihan ganda relatif sulit,
terutama dalam membuat distraktor yang baik. Distraktor yang dibuat harus masuk
akal sehingga dipilih oleh siswa yang tidak menguasai materi (Quaigrain & Arhin, 2017).
Kualitas tes tergantung pada kuliatas tiap
itemnya. Analisis item merupakan salah satu sarana untuk mengevaluasi kualitas
tes (Al Muhaissen et al., 2019). Analisis item terdiri dari 3 komponen;
tingkat kesukaran (DIF I), daya pembeda (DI) dan analisis distraktor (DE) ( Rezigalla et al., 2019). DIF I merupakan proporsi atau persentase
siswa yang menjawab benar (Azevedo et al., 2019 & Al Muhaissen et al., 2019). Daya pembeda (DI) kemampuan item untuk
membedakan antara siswa berkemampuan tinggi dan siswa berkemampuan rendah (Kumari & Niranjan, 2018 & Al Muhaissen et al., 2019).
Berdasarkan hasil survei
pendahuluan dengan melakukan wawancara pada ketua MGMP (Musyawarah Guru
Mata Pelajaran) kabupaten di temukan soal Ujian Akhir Sekolah (UAS) ataupun Ujian
Kenaikan Kelas (UKK) yang digunakan di
Sekolah SMP Kabupaten Bantul dibuat oleh MGMP.
Untuk alurnya adalah, MGMP membuat soal kemudian di berikan kepada MKKS
(Musyawarah Kerja Kepala Sekolah) untuk di koreksi kemudian di berikan
kepercetakan untuk di cetak dalam skala kecil kemudian di kembalikan kembali ke
MGMP untuk di revisi kembali, setelah direvisi soal akan diberikan kepada MKKS
untuk di koreksi kemudian di berikan kepada percetakan untuk di cetak dalam
skala besar dan di sebar ke seluruh sekolah neger dan swasta di Kabupaten Bantul.
Pada saat survey,peneliti menemukan bahwa
perangkat tes yang dibuat oleh MGMP
tersebut belum melalui prosedur pembuatan tes yang telah ditetapkan, sebab
setelah perangkat tes selesai dibuat, perangkat tes langsung digunakan untuk
ujian akhir semester (UAS). Perangkat tes tersebut juga belum diketahui
karakteristik pada masing-masing butirnya, karena tidak dilakukan analisis
secara kualitatif (teoritis) dan secara kuantitatif (empiris).
Tujuan dari penelitian ini
adalah untuk mengidentifikasi kekurangan-kekurangan perangkat tes tersebut dan
dalam rangka memperbaiki pembelajaran. Hasil analisis perangkat tes dapat
digunakan untuk mempersiapkan bank soal pada mata pelajaran matematika di SMP.
Analisis butir soal juga bermanfaat untuk memperkaya butir-butir soal yang
berkualitas, sehingga semakin banyak butir yang dimasukkan ke dalam bank soal.
B.
Rumusan Masalah
Berdasarkan pembatasan masalah tersebut, maka
rumusan masalah dalam penelitian ini adalah sebagai berikut.
1. Bagaimana
hasil analisis kualitas butir soal UAS Matematika kelas VIII SMP Negeri
Kabupaten Bantul secara kualitatif ?
2. Bagaimana
hasil analisis kualitas butir soal UAS Matematika kelas VIII SMP Negeri
Kabupaten Bantul secara kuantitatif?
3. Berapa butir soal UAS Matematika kelas VIII di Kabupaten
Bantul yang diterima masuk kedalam bank soal ?
C.
Landasan Teori
1.
Evaluasi, Pengukuran dan Penilaian
Pendidikan sangat berkaitan erat dengan evaluasi. Hal ini karena
pendidikan adalah sebuah program, dimana melibatkan sejumlah komponen yang
bekerja sama untuk mencapai suatu tujuan (Purwanto, 2014:1). Untuk mengetahui apakah
program tersebut dapat mencapai tujuan tersebut maka di perlukan adanya
evaluasi. Evaluasi didefinisikan sebagai proses mengumpulkan informasi untuk
mengetahui pencapaian belajar kelas atau kelompok (Mardapi, 2008: 9). Tahapan
dalam evaluasi meliputi pengumpulan data, analisis data, dan menafsirkan hasil
(Istiyono, 2018:19). Dalam evaluasi pendidikan ada empat komponen yang saling
terkait dan merupakan satu kesatuan yang tidak terpisahkan, artinya kegiatan
evaluasi harus melibatkan ketiga kegiatan lainnya, yaitu penilaian, pengukuran
dan tes (non tes) (Mansyur, 2019:6).
Evaluasi pengajaran dapat dikategorikan menjadi dua, yaitu evaluasi
sumatif dan evaluasi formatif. Evaluasi formatif adalah evaluasi yang dilakukan
pada setiap akhir pembahasan suatu pokok bahasan/ topik (Mansyur, 2019:14) dan
bertujuan untuk memperbaiki proses belajaer mengajar (Mardapi, 2008: 11).
Sedangkan evaluasi sumatif adalah evaluasi yang dilakukan pada setiap akhir
satuan waktu yang didalamnya mencangkup lebih dari satu pokok bahasan (Mansyur, 2019:14) dan bertujuan untuk
menetapkan tingkat keberhasilan peserta didik (Mardapi, 2008: 11).
Penilaian adalah kegiatan mengumpulkan informasi atau data bukti
hasil belajar peserta didik kemudian menafsirkannya (Istiyono, 2018:16).
Penilaian berfokus pada individu , yaitu prestasi belajar yang dicapai individu
(Mardapi, 2008: 6). Penilaian memiliki prinsip diantaranya akurat, ekonomis dan
mendorong peningkatan kualitas pembelajaran (Mardapi, 2012: 14). Akurat yang dimaksud mempunyai arti bahwa penilaian yang
dilakukan harus tepat dan tidak banyak mengandung kesalahan. Ekonomis berarti
bahwa penilaian yang dilakukan tidak memerlukan biaya yang banyak, sedangkan
yang dimaksud mendorong peningkatan kualitas pembelajaran adalah penilaian
tesebut dilakukan tidak hanya semata-mata untuk menilai saja tetapi juga harus
meningkatkan kualitas pembelajaran. Menurut (Chittenden, 1991: 22-31) kegiatan
penilaian dalam proses pembelajaran perlu diarahkan pada empat hal:
a.
Penelusuran, yaitu kegiatan yang dilakukan
untuk menelusuri apakah proses pembelajaran telah berlangsung sesuai dengan
yang direncanakan atau tidak.
b.
Pengecekan, yaitu untuk mencari informasi
apakah terdapat kekurangan-kekurangan pada peserta didik selama proses
pembelajaran.
c.
Pencarian, yaitu untuk mencari dan menemukan
penyebab kekurangan yang muncul selama proses pembelajaran berlangsung.
d.
Penyimpulan, yaitu untuk menyimpulkan tentang
tingkat pencapaian belajar yang telah dimiliki peserta didik.
Pengukuran merupakan suatu proses pemberian
angka kepada suatu atribut atau karakteristik tertentu yang dimiliki oleh
orang, hal, atau objek tertentu menurut aturan atau formulasi yang jelas
(Mansyur, 2019:25). Penentuan angka merupakan usaha untuk menentukan
karakteristik suatu objek, salah satunya adalah karakteristik individu
(Mansyur, 2019:26). Dalam menentukan karakteristik individu, pengukuran yang dilakukan
sedapat mungkin mengandung kesalahan yang kecil (Mardapi, 2004). Kesalahan yang
terjadi biasanya disebabkan oleh alat ukur, cara mengukur dan keadaan objek
yang diukur (Mansyur, 2019:26). Kesahihan alat ukur bisa dilihat dari kisi-kisi
alat ukur. Kisi-kisi ini berisi tentang materi yang diujikan, bentuk soal,
tingkat berpikir yang terlibat, bobot soal dan cara penskoran (Mansyur,
2019:27).
Menurut (Kusaeri & Suprananto, 2012: 5) menyatakan pengukuran memiliki beberapa
karakteristik, yaitu (1) pengukuran merupakan perbandingan antara atribut yang
diukur dengan alat ukurnya, (2) hasil pengukuran bersifat kuantitatif atau
berupa angka, (3) hasil pengukuran bersifat deskriptif. (Miller, 2008: 2) menyatakan bahwa informasi dari pengukuran
dapat digunakan untuk, 1) memantau kemajuan peserta didik, 2) membantu peserta
didik dengan rencana masa depannya (karir), 3) mengklasifikasikan dan
menempatkan peserta didik berdasarkan kepentingan, bakat, dan kesiapan, 4)
menilai program pendidikan, 5) memperbaiki kurikulum, dan 6) menentukan
pengajaran yang efisien.
2.
Tes
Tes merupakan sejumlah pertanyaan yang memiliki
jawaban yang benar atau salah. Hasil tes merupakan informasi tentang
karakteristik seseorang atau sekelompok orang. Tes merupakan salah satu cara
untuk mengestimasi besarnya tidak kemampuan manusia secara tidak langsung
melalui respon seseorang terhadap sejumlah pertanyaan (Mansyur, 2019:30).
Menurut (Mardapi, 2008: 68) tujuan tes adalah untuk:
1) mengetahui tingkat kemampuan peserta didik,
2) mengukur pertumbuhan dan perkembangan peserta didik, 3) mendiagnosa
kesulitan belajar, 4) mengetahui hasil pengajaran, 5) mengetahui hasil belajar,
6) mengetahui pencapaian kurikulum, 7) mendorong peserta didik belajar, 8)
mendorong pendidik mengajar yang lebih baik dan peserta didik belajar lebih
baik.
Beberapa bentuk tes yang dapat digunakan dalam
lembaga pendidikan menurut (Mardapi, 2008: 71-84)
a.
Tes lisan di kelas
Pertanyaan
lisan dapat digunakan untuk mengetahui taraf serap peserta didik untuk masalah
yang berkaitan dengan kognitif. Pertanyaan lisan yang diajukan di kelas harus
jelas, dan semua peserta didik harus diberi kesempatan yang sama.
b.
Bentuk benar salah
Tes
benar salah adalah bentuk tes yang terdiri atas sejumlah pertanyaan yang
bernilai benar dan salah. Tes bentuk benar salah terdiri dari dua macam, yaitu
tes benar salah dengan pembetulan, dan tes benar salah tanpa pembetulan.
c.
Bentuk pilihan ganda
Tes
bentuk pilihan ganda adalah tes yang jawabannya dapat diperoleh dengan memilih
alternatif jawaban yang telah disediakan. Dalam tes pilihan ganda ini, bentuk
tes terdiri atas pertanyaan (pokok soal), alternatif jawaban yang mencangkup
kunci jawaban dan pengecoh.
d.
Bentuk uraian objektif
Pengerjaan
soal ini melalui suatu proses atau langkah-langkah tertentu. Setiap langkah ada
skornya. Objektif disini dalam arti hasil penskorannya apabila diperiksa oleh
beberapa pendidik dalam bidang studi tersebut hasilnya akan sama.
e.
Bentuk uraian non-objektif
Bentuk tes
ini dikatakan non-objektif karena penilaian yang dilakukan cenderung dipengaruhi
subjektivitas dari penilain.
f.
Bentuk jawaban singkat
Bentuk
jawaban singkat ditandai dengan adanya tempat kosong yang yang disediakan bagi
pengambil tes untuk menuliskan jawabannya sesuai dengan petunjuk. Ada tiga
jenis soal bentuk ini, yaitu: jenis pertanyaan, jenis melengkapi atau isian,
dan jenis identifikasi atau asosiasi.
g.
Bentuk menjodohkan
Soal
bentuk menjodohkan atau memasangkan terdiri dari suatu premis, suatu daftar
kemungkinan jawaban, dan suatu petunjuk
untuk menjodohkan masing-masing premis itu dengan satu kemungkinan jawaban.
h.
Unjuk kerja/ performans
Proses
mengumpulkan data dengan cara pengamatan yang sistematik untuk membuat
keputusan tentang individu.
i.
Portofolio
Portofolio
adalah kumpulan dari tugas-tugas peserta didik. Penilaian dengan portofolio
memerlukan kemampuan membaca yang baik. Hal yang penting pada penilaian
portofolio adalah mampu mengukur kemampuan membaca dan menulis yang lebih luas,
peserta didik menilai kemajuannya sendiri, mewakili sejumlah karya seseorang.
3.
Analisis Butir Soal Secara Kualitatif
Analisis butit tes secara kulitatif dilakukan
dengan menganalisis aspek materi, aspek konstruksi dan aspek bahasa. Analisis
ini juga sering disebut analisis secara teoritik. Analisis konstruk dimaksudkan
sebagai penelaahan yang berkaitan dengan prinsip-prinsip pengukuran dan teknik
penulisan butir soal (Kurniawan & Mutaqimah, 2009).
Menurut
(Mardapi, 2008: 137) menyatakan:
Aspek
materi berkaitan dengan substansi keilmuan yang ditanyakan serta tingkat
berpikir yang terlibat. Aspek konstruksi berkaitan dengan teknik penulisan
soal, baik bentuk objektif, maupun yang non-objektif. Bentuk objektif bisa
berupa tes pilihan dan tes uraian. Aspek bahasa berkaitan dengan
kekomunikatifan/kejelasan hal yang ditanyakan.
(Subali, 2016:38) menyatakan bahwa telaah item tes dilakukan
oleh (1) bukan oleh penulis item tes dan (2) dilakukan oleh pakar yang
menguasai isi/ materi yang diujikan. Berikut disajikan tabel analisis
kualitatif untuk tes bentuk pilihan ganda (Multiple Choice).
Tabel 1. Telaah
item tes bentuk pilihan ganda (Subali, 2016: 42-43)
No
|
Aspek
|
Nomor Item
|
a.
|
Aspek
materi/substansi
|
1
|
2
|
3
|
4
|
Dst
|
1
|
Item sesuai
dengan indikator
|
|
|
|
|
|
2
|
Pernyataan/
pertanyaan dan jawaban kunci terumuskan dengan benar
|
|
|
|
|
|
3
|
Materi/substansi
yang ditanyakan sesuai dengan tujuan pengukuran (untuk tujuan pengukuran
hasil belajar, tujuan pengukuran untuk seleksi, atau tujuan pengukuran untuk
konfirmatori)
|
|
|
|
|
|
4
|
Materi/substansi
yang ditanyakan sesuai dengan jenjang, jenis sekolah dan tingkatan kelas
|
|
|
|
|
|
b.
|
Aspek
konstruksi
|
|
|
|
|
|
1
|
Pokok soal (stem)
dirumuskan dengan jelas
|
|
|
|
|
|
2
|
Pokok soal
dan pilihan dirumuskan dengan tegas
|
|
|
|
|
|
3
|
Pokok soal
tidak memberi petunjuk/ mengarah kepada pilihan jawaban yang benar
|
|
|
|
|
|
4
|
Pokok soal
tidak mengandung pernyataan negatif ganda jika terpaksa menggunakan kata
negatif, harus digarisbawahi atau dicetak lain
|
|
|
|
|
|
5
|
Pilihan
jawaban homogen
|
|
|
|
|
|
6
|
Hindari
adanya alternatif jawaban: “seluruh jawaban di atas benar” atau “tak satu
jawaban di atas yang benar” dan yang sejenisnya
|
|
|
|
|
|
7
|
Panjang
alternatif/ pilihan jawaban relatif sama (jangan ada yang sangat panjang dan
ada yang sangat pendek)
|
|
|
|
|
|
8
|
Pilihan
jawaban dalam bentuk angka/ waktu diurutkan
|
|
|
|
|
|
9
|
Uraian kasus/
wacana, gambar, tabel atau grafik benar-benar berfungsi
|
|
|
|
|
|
10
|
Hanya ada
satu jawaban yang benar
|
|
|
|
|
|
11
|
Antar item
tidak bergantung satu sama lain
|
|
|
|
|
|
c.
|
Aspek bahasa
|
|
|
|
|
|
1
|
Rumusan
kalimat soal komunikatif
|
|
|
|
|
|
2
|
Kalimat
menggunakan bahasa yang baik dan benar, sesuai dengan jenis bahasanya
|
|
|
|
|
|
3
|
Rumusan
kalimat tidak menimbulkan penafsiran ganda atau salah pengertian
|
|
|
|
|
|
4
|
Menggunakan
bahasa/ kata yang umum (bukan bahasa lokal atau bahasa serapan baru yang
belum dikenal oleh seluruh testi)
|
|
|
|
|
|
5
|
Rumusan soal
tidak mengandung kata-kata yang dapat menyinggung perasaan testi
|
|
|
|
|
|
Telaah butir oleh para ahli
merupakan bentuk validitas dari sebuah instrumen. Butir yang dinyatakan baik
dalam telaah butir adalah butir yang valid yang dapat digunakan dalam tes.
Sebaliknya, butir yang dinyatakan tidak baik adalah butir yang tidak valid dan
harus diperbaiki atau diganti. Dalam penelitian ini akan digunakan validitas
isi dengan telaah butir soal didukung dengan validitas isi menggunakan indeks Aiken’s.
4.
Analisis Butir Secara Kuantitatif
Analisis kuantitatif dilakukan terhadap tes
maupun terhadap item tes. Analisis tes untuk mengetahui reliablitas tes,
sedangkan analisis item tes untuk mengetahui kualitas setiap item tes yang
bersangkutan (Subali, 2016:51). Analisis item tes yang dimaksudkan adalah
tingkat kesukaran, daya pembeda dan parameter butir soal ditinjau dari peluang
untuk menebak atau menjawab dengan benar suatu soal dan berfungsi tidaknya
pilihan jawaban (Mansyur, 2019: 179).
Tes dikatakan berkualitas tinggi apabila tes
itu mampu mengukur secara tepat dan hasil pengukurannya dapat diandalkan.
Dengan kata lain tes perlu memenuhi syarat validitas dan reliabilitas (Subali,
2016:51).
Suprata (2004) dalam (Mansyur, 2019:179)
menyatakan:
Salah satu tujuan dilakukannya analisis adalah untuk
meningkatkan kualitas soal, yaitu apakah suatu soal (1) dapat diterima karena
telah didukung oleh data statistik yang memadai, (2) diperbaiki, karena
terbukti terdapat beberapa kelemahan, atau bahkan (3) tidak digunakan sama
sekali karena terbukti secara empiris tidak berfungsi sama sekali.
a.
Validitas isi
Suatu alat ukur dinyatakan shahi (valid), jika
alat ukur tersebut benar-benar mampu memberikan informasi empirik sesua dengan
apa yang diukur (Subali, 2016:51). Validitas suatu alat ukur adalah sejauh mana
alat ukur itu mampu mengukur apa yang seharusnya diukur (Allen & Yen, 1979: 79). Tipe valisitas secara tradisional dapat
digolongkan dalam tiga kategori, yaitu validitas isi (content validity),
validitas konstak (construct validity) dan validitas berdasarkan
kriteria (criterion-related validity) (Azwar, 2019: 41-42).
Validitas isi merupakan validitas yang
diestimasi lewat pengujian terhadap kelayakan atau relevansi isi tes melalui
analisis rasional oleh panel yang berkompeten atau melalui judgment. Menurut Kartowagiran (2012) validitas isi
suatu instrumen adalah sejauh mana butir-butir dalam instrumen itu mewakili
komponen-komponen dalam keseluruhan kawasan isi objek yang hendak diukur dan sejauh
mana butir-butir itu mencerminkan ciri perilaku yang hendak diukur.
b.
Reliabilitas
Reliabilitas berkaitan dengan dengan konsistensi. Suatu alat ukur
dinyatakan reliabel/ andal jika memberikan hasil yang sama pada berkali-kali
pengulangan pengukuran (Subali, 2016:60).
Berdasarkan cara memperoleh data, reliabilitasi
suatu instrumen alat ukur dapat dogolongkan menjadi tiga, yaitu konsistensi
internal, stabilitas dan antar penilai. Cara estimasi reliabilitas dengan
metode konsistensi internal, hanya memerlukan satu kali penyajian tes saja,
dikenal dengan nama single-trial administration, oleh karena itu
masalah-masalah yang timbul akibat penyajian yang berulang dapat dihindari.
Pendekatan dalam melakukan estimasi reliabilitas dengan konsistensi internal ada
tiga, yaitu klasik parallel, tau-ekuivalen, dan konginerik. Masing-masing
pendekatan menggunakan persyaratan yang berbeda, yaitu sesuai dengan
karakteristik data (Mardapi, 2017: 54).
c.
Teori tes klasik (Classical Test Theory)
Berdasarkan pendekatan teori tes klasik,
karakteristik butir meliputi tingkat kesukaran (p), daya pembeda (d), dan
efektivitas distraktor (Istiyono, 2018: 252).
Teori tes klasik menggunakan model matematika
sederhana yang menunjukkan hubungan antara skor amatan (X), skor sebenarnya
(T), dan skor kesalahan (E). Model ini ditulis sebagai persamaan....(i)
X = T + E ................. (i)
Teori tes klasik memiliki kelemahan-kelemahan
(Hambleton, dkk, 1991 dan Lord, 1980), diantaranya:
(1)
Statistik butir tes sangat tergantung pada
karakteristik subjek yang dites
(2)
Taksiran kemampuan peserta tes sangat
tergantung pada butir tes yang diujikan
(3)
Kesalahan baku penaksiran skor berlaku untuk
semua peserta tes, sehingga kesalahan baku pengukuran tiap peserta dan butir
tidak ada
(4)
Informasi yang disajikan terbatas pada menjawab
benar atau salah saja tidak memperhatikan pola jawaban peserta tes
(5)
Asumsi tes paralel susah dipenuhi
Walaupun memiliki banyak kelemahan tetapi masih
banyak yang menggunakannya karena tidak menuntut responsen besar (lebih 100)
dan mudah mengaplikasikannya (Istiyono, 2018: 252).
Asumsi dalam Teori Tes Klasik menurut Allen
& Yen, 1979 meliputi:
(1)
Instrumen yang digunakan hanya untuk mengukur
satu dimensi. Teknik statistika yang digunakan untuk mengetahui jumlah dimensi
yang diukur adalah analisis faktor
(2)
Tidak terdapat hubungan antara skor murni dan
skor kesalahan
(3)
Tidak terdapat hubungan antara kesalahan pengukuran
pertama dengan kesalahan pengukuran kedua
(4)
Tidak terdapat hubungan antara skor murni pada
pengukuran pertama dengan kesalahan pada pengukuran kedua
(5)
Tidak terdapat hubungan antara skor murni pada
pengukuran kedua dengan kesalahan pada pengukuran pertama
(6)
Rata-rata kesalahan pengukuran pada populasi
adalah 0
Parameter
pada teori tes klasik
1)
Daya beda
Daya beda (diskriminasi) suatu butir tes adalah
kemampuan suatu butir untuk membedakan antara peserta tes yang berkemampuan
tinggi dan berkemampuan rendah (Istiyono, 2018: 253). Ada empat macam teknik
korelasi yang biasa digunakan untuk menghitung daya pembeda, yaitu: teknik
point biserial, teknik biserial, teknik phi dan teknik tetrachoric.
Daya pembeda dinyatakan dengan indeks berkisar
antara -1 sampai dengan 1 (Mehrens & Lehman, 1991: 162). Kriteria Daya pembeda dapat dikategorikan
menjadi; tidak baik (), cukup (), baik (), sangat baik () dan jika nilai negatif
maka masuk kedalam kategori tidak baik (Al Muhaissen et al.,
2019). Jika negatif maka siswa kemampuan rendah menjawab
pertanyaan lebih benar daripada siswa dengan kemampuan tinggi (Kumari & Niranjan, 2018).
2)
Indeks Kesukaran/ Tingkat Kesukaran
Tingkat Kesukaran merupakan proporsi atau
persentase siswa yang menjawab benar (Azevedo et al., 2019 & Al Muhaissen et al., 2019 & (Reynols et al., 2010). Besarnya indeks korelasi berkisar antara 0
sampai 1. Makin tinggi besaran indeks korelasi maka butir soal tersebut semakin
mudah. Dan semakin kecil angka indeks korelasi maka butir soal tersebut semakin
sulit (Istiyono, 2018: 254). Tingkat
Kesukaran dikategorikan sangat sulit (Tingkat Kesukaran < 0,30), baik (), dan
sangat mudah (Tingkat Kesukaran > 0,7) (Pande et al., 2013 & Garg et al., 2019).
3)
Efektivitas Distraktor
Dalam setiap tes tedapat pertanyaan dan
alternatif jawaban dimana salah satu dari alternatif jawaban adalah kunci
jawaban dan yang lainnya dalah distraktor (pengecoh). Efektivitas distraktor (FD) adalah seberapa baik pilihan yang salah
tersebut dapat mengecoh peserta tes yang memang tidak mengetahui kunci jawaban
yang tersedia (Istiyono, 2018: 254-255). Sebuah distraktor dikatakan
berfungsi dengan baik jika dipilih oleh >5% atau lebih peserta didik dan
distraktor dikatakan tidak berfungsi dengan baik (NFD) jika dipilih <5% (Burud et al., 2019).
d.
Teori tes modern
Karena teori tes klasik memiliki kekurangan,
maka para ahli psikologi dan pendidik mengembangkan sebuah model pengukuran
yang dapat meminimalkan kekurangan-kekurangan yang ada. Model pengukuran tersebut
adalah teori respon butir (Item Response Theory).
Terdapat dua postulat dari teori tes modern
atau biasa disebut teori respon butir (Hambleton et al., 1991:7) yaitu:
(1)
hasil kerja seorang peserta tes pada suatu
butir soal dapat diprediksi (atau dijelaskan) dari suatu jenis faktor-faktor
yang disebut sifat-sifat, sifat-sifat laten, atau kemampuan
(2)
hubungan antara hasil kerja peserta tes pada
suatu butir tes dengan sifat-sifat yang mendasarinya dapat dideskripsikan oleh
fungsi yang meningkatkan yang bersifat monotonic yang disebut dengan fungsi
karakteristik butir (item characteristic function atau item characteristic
curve-ICC). Fungsi ini menjelaskan jika taraf sifat-sifat (kemampuan)
meningkat, maka probabilitas menjawab benar pada suatu tes juga meningkat.
Analisis item tes dilakukan menggunakan teori
respon butir dengan model logistik 3 parameter (3 PL). Pada model ini
menggunakan tiga parameter antara lain adalah parameter tingkat kesulitan butir
(), daya pembeda butir () dan kebetulan menjawab butir dengan benar
atau pseudo guessing (). Parameter pseudo guessing adalah
parameter faktor kebetulan menjawab dengan benar dimana pada model ini tidak
sama dengan nol (Istiyono, 2018: 261). Maka dapat dikatakan siswa dengan
kemampuan rendah memiliki peluang untuk menjawab dengan benar.
Model logitik tiga parameter memiliki persamaan
sebagai berikutL
..................(ii)
Keterangan:
=
probabilitas peserta tes yang berkemampuan menjawab butir i dengan benar
=
parameter kemampuan yang terletak diantara -4 sampai +4
= parameter
tingkat kesukaran butir i
=
paramter daya pembeda butir i
=
peluang tebakan benar butir i
=
Parameter tambahan bernilai 1,7
Kriteria butir soal menurut (Hambleton et al.,
1991 dalam Istiyono, 2018:262-263) adalah:
(1)
soal yang baik adalah model setiap soal yang
sesuai dengan model jika nilai chi kuadrat empiris butir yang tidak melebihi
nilai khi kuadrat teoritis (nilai p > 0,05), memiliki nilai daya pembeda
berkisar 1, peluang menebak kecil, dan tingkat kesukaran berada diantara nilai -2,00
sampai +2,00
(2)
soal yang cukup baik adalah soal yang sesuai
model jika nilai chi kuadrat empiris butir yang tidak melebihi nilai chi
kuadrat teoritis (nilai p > 0,05) dan salah satu kriteria soal yang baik
tidak terpenuhi
(3)
soal yang belum dapat digambarkan adalah soal
yang tidak sesuai dengan model yang digambarkan jika nilai chi kuadrat empiris
butir lebih besar dari nilai chi kuadrat teoritis ( nilai p < 0,05)
model
|
Kriteria
|
baik
|
Cukup baik
|
Belum dapat digambarkan
|
1 PL
|
Nilai p > 0,05;
-2 b + 2
|
Nilai p > 0,05;
b < -2 atau b > 2
|
Nilai p < 0,05
(uji-chi-square)
|
2 PL
|
Nilai p > 0,05;
a 0,5;
-2 b + 2
|
Jika salah satu kriteria soal baik tidak
terpenuhi
|
Nilai p < 0,05
|
3 PL
|
Nilai p > 0,05
a 0,5;
-2 b +
2;
c 1/n
|
Jika salah satu kriteria soal baik tidak
terpenuhi
|
Nilai p < 0,05
|
5.
Bank Soal
Bank soal merupakan kumpulan item-item tes yang
telah diuji sebelumnya. Menurut (Depdikbud, 1995) bank soal merupakan suatu kumpulan butir-butir
soal yang telah diketahui karakteristiknya dan telah dinyatakan valid serta
reliabel. Karkteristik butir tesebut meliputi tingkat kesulitan, reliablitas,
validitas dan ketentuan lainnya (Retnawati, 2014: 63-64). Bank soal dibutuhkan untuk menunjang kegiatan
penilaian dengan adanya bank soal guru dapat menggunakan butir-butir yang ada
di bank soal.
Bank soal bukanlah sekedar kumpulan soal atau
pertanyaan, namun merupakan butir-butir soal yang telah terkalibrasi sehingga
dapat digunakan untuk menyediakan informasi mengenai trait peserta tes (Chang, 2005). Bank soal yang dikembangkan dengan teori
respon butir, program tes dapat dibuat lebih fleksibel dan sesuai. Hal ini
disebabkan karena karakteristik butir perangkat tes pada teori respon butir
tidak bergantung pada karakteristik peserta tes pada saat kalibrasi
(Anggriyani, 2018:34).
Menurut (Wood & Skurnik, 1969:8) tujuan pembuatan bank soal yaitu:
a.
Memberikan informasi yang objektif tentang
karakteristik pemeriksaan/ penskoran yang digunakan
b.
Digunakan dalam ujian berbasis sekolah
c.
Membiasakan pendidik membuat perangkat tes,
terutama pandangan bahwa perangkat tes harus dibuat berdasarkan blueprint
d.
Mengklarifikasikan prestasi yan berlaku secara
universal sehingga pendidik menjadi lebih sadar dalam pembuatan tes, menguji
apa, mengapa dan untuk apa tes tersebut dibuat
e.
Mendeteksi dan melatih bakat menulis butir
sehingga bank soal akan berisi butir-butir yang berkualitas baik.
Dalam penelitian ini, persiapan bank soal
sibuat dengan menggunakan cara manual. Format bank soal diambil dari
(Anggriyani, 2018:37) yang disajikan pada gambar berikut
Gambar
1. Format Bank Soal
D.
Metodologi
A.
Jenis
Penelitian
Penelitian ini menggunakan pendekatan
kuantitatif dengan metode deskriptif eksploratif untuk mengetahui perangkat tes
ujian akhir semester matematika SMP di kabupaten Bantul. Tujuan yang ingin
dicapai adalah untuk memperoleh butir-butir soal yang memenuhi kriteria
validitas dan reliabilitas sehingga dapat dimasukkan dalam bank soal.
Penelitian ini menggunakan telaah secara
teoritis oleh expert judgment dan penelaahan butir soal dilanjutkan dari
hasil respon jawaban siswa SMP kelas VIII secara empiris dengan bantuan ITEMAN
4.3 untuk teori tes klasik dan bantuan program komputer BILOG untuk teori
respon butir.
B.
Tempat
dan Waktu Penelitian
Penelitian ini dilaksanakan di Kabupaten
Bantul. Alokasi waktu untuk penelitian ini adalah dari bulan Desember 2019 sampai
selesai.
C.
Subjek
dan Objek Penelitian
Subjek dari penelitian ini adalah semua siswa
kelas VIII yang mengerjakan soal UAS dari sekolah yang menjadi populasi
penelitian yang telah ditentukan. Objek dalam penelitian ini adalah instrumen
tes dan lembar jawaban siswa. lembar jawaban siswa yang digunakan dalam
penelitian ini diperoleh dari 11 SMP di Kabupaten Bantul.
D.
Variabel
Penelitian
Variabel yang digunakan dalam penelitian ini
adalah sebagai berikut:
1.
Tingkat Kesukaran, yaitu proporsi atau
persentase siswa yang menjawab benar
2.
Daya Pembeda adalah kemampuan suatu butir untuk
membedakan antara peserta tes yang berkemampuan tinggi dan berkemampuan rendah
3.
Efektifitas Pengecoh, yaitu sebuah distraktor dikatakan berfungsi dengan baik jika
dipilih oleh >5% atau lebih peserta didik dan distraktor dikatakan tidak
berfungsi dengan baik (NFD) jika dipilih <5%
E.
Validitas dan Reliabilitas Instrumen
Validasi instrumen dengan
menggunakan validasi Aiken untuk menilai kevalidan instrumen lembar telaah
butir yang digunakan ahli untuk menelaah butir soal. Reliabilitas atau
keandalan merupakan koefisien yang
menunjukkan tingkat konsistensi hasil pengukuran sebuah instrumen. Perhitungan
koefisien reliabilitas instrumen lembar telaah oleh para ahli dalam penelitian
ini menggunakan ICC (Interclass Correlation Coefficients). Estimasi
nilai reliabilitas kekonsistenan antar rater menggunakan skala Fleiss’ Kappa.
Apabila nilai Kppa < 0,40 maka reliabilitasnya dikategorikan redah, Kappa
diantara 0,40 sampai 0,75 maka reliabilitasnya dikategorikan menengah, dan
apabila nilai Kappa > 0,75 maka reliabilitas dinyatakan tinggi (Gwet, 2012:
125).
F.
Teknik dan Instrumen Pengumpulan Data
Teknik pengumpulan data dalam penelitian ini
adalah dokumentasi. Data yang didapatkan dioalah berdasarkan teori tes klasik
dan teori respon butir. Sedangkan instrumen pengumpulan data yang digunakan
adalah lembar jawaban siswa.
G.
Teknik
Analisis Data
Dalam
penelitian ini teknik analisis data meliputi:
1.
Analisis Kualitatif
Telaah butir soal yang disusun merupakan
penilaian (judgement) pada setiap butir soal dengan kriteria dari aspek
materi, konstruksi dan bahasa. Telaah dilakukan oleh Tim Pedoman Umum
Pengembangan Penilaian. Penelaah terdiri dari lima orang, sehingga penilaian
dikategorikan baik jika dipilih oleh semua orang penelaah, cukup baik dan tidak
baik apabila didukung oleh minimal tiga penelaah
Tabel 2..Kategori Pengambila Kesimpulan Hasil
Telaah
Sumber: (Charismana & Aman, 2016)
Keputusan penerimaan butir soal didukung oleh hasil telaah para ahli
dengan ketentuan sebagai berikut:
a.
Baik, apabila keseluruhan kriteria penelaahan
butir pada aspek materi, konstruksi dan bahasa semuanya sesuai kaidah yang
ditentukan, dan didukung oleh semua penelaah.
b.
Cukup baik, apabila keseluruhan kriteria
penelaahan butir pada aspek materi sesuai dengan kaidah yang ditentukan,
sebanyak-banyaknya ada satu kriteria pada aspek konstruksi dan satu kriteria
pada aspek bahasa yang tidak sesuai dengan kaidah yang ditentukan, minimal
didukung oleh dua orang penelaah.
c.
Tidak baik, apabila kunci jawaban salah, atau
terdapat kriteria pada aspek materi tidak sesuai dengan yang ditentukan, lebih
dari satu kriteria pada aspek konstruksi dan lebih dari satu kriteria pada
aspek bahasa yang tidak sesuai dengan kaidah yang telah ditetapkan, minimal
didukung oleh dua orang penelaah.
2.
Analisis Kuantitatif
Analisis kuantitatif dilakukan dengan dua cara
yaitu dengan teori tes klasik dengan program iteman 4.3 dan teori respon butir
dengan program bilog.
a.
Tes teori klasik
Data dianalisis dengan program iteman 4.3 untuk
mengestimasi besarnya tingkat kesukaran, daya pembeda dan efektifitas
distraktor dengan ketentuan berikut.
1)
Tingkat Kesukaran dikategorikan sangat sulit
(Tingkat Kesukaran < 0,30), baik (), dan
sangat mudah (Tingkat Kesukaran > 0,7)
2)
Kriteria Daya pembeda dapat dikategorikan
menjadi; tidak baik (), cukup (), baik (), sangat baik () dan jika nilai negatif
maka masuk kedalam kategori tidak baik
3)
Sebuah distraktor dikatakan
berfungsi dengan baik jika dipilih oleh >5% atau lebih peserta didik dan
distraktor dikatakan tidak berfungsi dengan baik (NFD) jika dipilih <5%
b.
Teori respon butir
Data dianalisis dengan program
Bilog MG. Analisis data dengan program Bilog MG akan menunjukkan hasil sebagai berikut.
1)
Slope menunjukkan daya pembeda
2)
Threshold menunjukkan tingkat kesukaran
3)
Asmtote menunjukkan tebakan semua
4)
Outfit butir soal meyatakan ketidakcocokan respons
terhadap tingkat kesukaran
5)
Point biserial butir
soal menyatakan koefisien korelasi antara jawban siswa pada setiap butir soal
dari seluruh siswa dan skor total.
References
Al Muhaissen, S. A., Ratka, A., Akour, A., &
AlKhatib, H. S. (2019). Quantitative analysis of single best answer multiple
choice questions in pharmaceutics. Currents in Pharmacy Teaching and
Learning, 11(3), 251–257. https://doi.org/10.1016/j.cptl.2018.12.006
Allen, M. ., & Yen, W. . (1979). Introduction
to Measurement Theory. Belmont, CA: Wadsworh, Inc.
Azevedo, J. M., Oliveira, E. P., & Beites, P.
D. (2019). Using Learning Analytics to evaluate the quality of multiple-choice
questions: A perspective with Classical Test Theory and Item Response Theory. International
Journal of Information and Learning Technology, 36(4), 322–341.
https://doi.org/10.1108/IJILT-02-2019-0023
Azwar, S. (2019). Reliabilitas dan Validitas.
Yogyakarta: Pustaka Pelajar.
Burud, I., Nagandla, K., & Agarwal, P. (2019).
Impact of distractors in item analysis of multiple choice questions. International
Journal of Research in Medical Sciences, 7(4), 1136–1139.
https://doi.org/10.18203/2320-6012.ijrms20191313
Chang, C.-C. (2005). Developing Tailored
Instrumens: Item Banking and Computerized Adaptive Assessment. Evaluation
and Program Planning Journal, 24, 251–215.
Charismana, D. ., & Aman, A. (2016). Analisis
Kualitas Tes Ujian Akhir Semester PPKN SMP di Kabupaten Kudus. Jurnal
Evaluasi Pendidikan, 4((1)), 1–9.
Depdikbud. (1995). Petunjuk Pelaksanaan
Pengembangan Bank Soal di Wilayah. Jakarta: Balitabang.
Garg, R., Kumar, V., & Maria, J. (2019).
Analysis of multiple choice questions from a formative assessment of medical
students of a medical college in Delhi , India, 7(1), 174–177.
Haladyna, T. M., Downing, S. M., & Rodriguez,
C. (2002). Applied Measurement in Education A Review of Multiple-Choice
Item-Writing Guidelines for Classroom Assessment. Applied Measurement in
Education, 15(3), 309–333. https://doi.org/10.1207/S15324818AME1503
Hambleton, R. K., Swaminathan, H., & Rogers,
H. J. (1991). Fundamentals of Item Response Theory. Newbury Park: Sage
Publications.
Kumari, P., & Niranjan, R. (2018). ARE
POSTGRADUATE MEDICAL ENTRANCE EXAMINATIONS REALLY DIFFICULT? - ITEM ANALYSIS OF
MCQs FOR DOCTOR OF MEDICINE IN INDIA. Journal of Evolution of Medical and
Dental Sciences, 7(46), 4956–4959.
https://doi.org/10.14260/jemds/2018/1103
Kurniawan, E., & Mutaqimah, E. (20009). Penilaian.
Jakarta: Depdiknas.
Kusaeri, & Suprananto. (2012). Pengukuran
dan Penilaian Pendidikan. Yogyakarta: Graha Ilmu.
Mansyur, Rasyid, H., & Suratno. (2019). Asesmen
Pembelajaran di Sekolah. Yogyakarta: Pustaka Pelajar.
Mardapi, D. (2008). Teknik Penyusunan Instrumen
Tes dan Non Tes. Yogyakarta: Mitra Cendikia Press.
Mardapi, D. (2012). Pengukuran, penilaian, dan
evaluasi pendidikan edisi 2. Yogyakarta: Nuha Medika.
Mardapi, D. (2017). Pengukuran, penilaian, dan
evaluasi pendidikan. Yogyakarta: Parama Publishing.
Mehrens, W. A., & Lehman, I. J. (1991). Measurement
and evaluation in education and psychology. Harcourt Brace Jovanovich.
Belmont, CA: Wadsworth/ThomsonLearning.
Miller, P. . (2008). Measurement and teaching.
Indiana: Partick W. Miller & Associates.
Pande, S. S., Pande, S. R., Parate, V. R., Nikam,
A. P., & Agrekar, S. H. (2013). Correlation between difficulty &
discrimination indices of MCQs in formative exam in Physiology. Asian
Journal of Medical Education, 7(1), 45–50. Diambil dari
http://seajme.md.chula.ac.th/articleVol7No1/OR6_Sushma.pdf
Pawluk, S. A., Shah, K., Minhas, R., Rainkie, D.,
& Wilby, K. J. (2018). A psychometric analysis of a newly developed summative,
multiple choice question assessment adapted from Canada to a Middle Eastern
context. Currents in Pharmacy Teaching and Learning, 10(8),
1026–1032. https://doi.org/10.1016/j.cptl.2018.05.003
Purwanto. (2014). Evaluasi Hasil Belajar.
Yogyakarta: Pustaka Pelajar.
Quaigrain, K., & Arhin, A. K. (2017). Using
reliability and item analysis to evaluate a teacher-developed test in
educational measurement and evaluation. Cogent Education, 4(1),
1–11. https://doi.org/10.1080/2331186X.2017.1301013
Retnawati. (2014). Teori Respons Butir dan
Penerapannya. Yogyakarta: Parama Publishing.
Reynols, C. ., Livingston, R. B., & Willson,
V. (2010). Measurement and Assesment in Education. New Jersey: Pearson
Education, Inc.
Rezigalla, A. A., Ibrahim, E. K., & ElHussein,
A. B. (2019). item analysis: the impact of distractor efficiency on the
discrimination power of multiple choice items. research Square preprint,
1–14. https://doi.org/10.21203/rs.2.15899/v1
Subali, B. (2016). Pengembangan Tes Beserta
Penyelidikan Validitas Dan Reliabilitas Secara Empirik. Yogyakarta: UNY
Press.
Testa, S., Toscano, A., & Rosato, R. (2018).
Distractor efficiency in an item pool for a statistics classroom exam:
Assessing its relation with item cognitive level classified according to
Bloom’s taxonomy. Frontiers in Psychology, 9(AUG), 1–12.
https://doi.org/10.3389/fpsyg.2018.01585
Wood, R., & Skurnik, L. . (1969). Item
Banking: A Method for Producing School Based Examination and Nationally
Comparable Grades. England: National Foundation For Educational Research.