Wednesday, January 15, 2020

marsigit 2019 : judul tesis berdasarkan permasalahan filosofis pembelajaran matematika


Judul Tesis Berdasarkan Permasalahan Filosofis Pembelajaran Matematika



 



Disusun Oleh :

Hanifah Nabila Hendral                      19701251003

 Dosen Pengampu : Prof. Dr. Marsigit, M.A.





PROGRAM STUDI S-2 PENELITIAN DAN EVALUASI PENDIDIKAN
PROGRAM PASCASARJANA
UNIVERSITAS NEGERI YOGYAKARTA
2019

Tuesday, January 14, 2020

Prof Marsigit: Draf Proposal Tesis


Draf Proposal Tesis
Diajukan untuk Memenuhi Salah Satu Tugas Pada Mata Kuliah

Filsafat Ilmu dengan Dosen Pengampu : Prof. Dr. Marsigit, M.A.




 



Disusun Oleh : 
             Hanifah Nabila Hendral                   
 




PROGRAM STUDI S-2 PENELITIAN DAN EVALUASI PENDIDIKAN
PROGRAM PASCASARJANA
UNIVERSITAS NEGERI YOGYAKARTA
2019

Marsigit 2019 Filsafat Ilmu : Judul Tesis Berdasarkan Permasalahan Filosofis Pembelajaran Matematika

#Marsigit2019 #Marsigit #Philosophy #Hanifah #Marsigitphilosophy #Marsigithannifah
Judul Tesis Berdasarkan Permasalahan Filosofis Pembelajaran Matematika


Oleh: Hanifah Nabila Hendral
19701251003
Dosen Pengampu: Prof. Dr. Marsigit, M.A


1.      Pengembangan Intrumen Tes Bermuatan Pendidikan Karakter Untuk Mengukur Kemampuan Berpikir Kritis dalam Pembelajaran Matematika SMP Negeri Kelas VIII
2. Pengembangan Perangkat Pembelajaran Matematika dengan Pendekatan Problem Based Learning untuk Meningkat Keterampilan Berpikir Tingkat Tinggi
3.  Evaluasi Implementasi Penilaian Otentik Pada Pelajaran Matematika SMP di Kabupaten Bantul
4.   Evaluasi Implementasi Model Pembelajaran Problem Based Learning (PBL) Pada Pelajaran Matematika di SMA Kota Yogyakarta
5.  Kualitas Soal Ujian Akhir Semester Matematika Kabupaten Bantul Kelas VIII Tahun Pelajaran 2014-2019
6.  Evaluasi Pelaksanaan Pendidikan Karakter Pada Pembelajaran Matematika di SMP Kota Yogyakarta
7.   Diagnosis Kesalahan Konsep Matematika Materi Bilangan dan Aljabar Pada Siswa SMP di Kota Yogyakarta
8. Pembelajaran Matematika Menggunakan Metode Pictorial Riddle Dan Problem Solving Ditinjau Dari Kemampuan Berpikir Kritis dan Kemampuan Analisis Matematika Logika Matematika

Marsigit 2019 Filsafat Ilmu : Draf Proposal Tesis Berdasarkan Persoalan Filosofis Pembelajaran Matematika di Sekolah

#Marsigit2019 #Marsigit #Philosophy
Draf Proposal Tesis Berdasarkan Persoalan Filosofis Pembelajaran Matematika di Sekolah

Oleh: Hanifah Nabila Hendral
19701251003
Dosen Pengampu: Prof. Dr. Marsigit, M.A.
KUALITAS SOAL UJIAN AKHIR SEMESTER MATEMATIKA MATEMATIKA KABUPATEN BANTUL KELAS VIII TAHUN PELAJARAN 2014-2019

A.    Latar Belakang
Pemerintah Indonesia cukup gencar dalam memperbaiki mutu pendidikan Indonesia. Peningkatan mutu pendidikan adalah usaha yang selalu diupayakan dengan terus menerus agar pendidikan yang berkualitas dapat tercapai (Lestari, et al., 2019). Undang-Undang Nomor 20 Tahun 2003 tentang Sistem Pendidikan Nasional, pasal 1 angka 1 menyatakan bahwa pendidikan adalah usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran agar siswa secara aktor mengembangkan potensi dirinya untuk memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta keterampilan yang diperlukan dirinya, masyarakat, bangsa dan negara.
Peranan guru dalam meningkatkan mutu pendidikan nasional sangat diperlukan. Guru sebagai pendidik perlu menciptakan suasana belajar yang menyenangkan dan mengembangkan potensi siswa agar mencapai tujuan yang diinginkan.
Salah satu kompetensi pendagogik guru adalah melakukan evaluasi atas proses dan hasil belajar. Guru harus dapat menyusun alat penilaian yang sesuai dengan tujuan pembelajaran untuk mencapai kompetensi tertentu dan menganalisa hasil penilaian. Sesuai dengan Undang-Undang Sistem Pendidikan Nasional Tahun 2003 pasal 58 ayat 1 menyatakan “evaluasi hasil belajar peserta didik dilakukan oleh pendidik untuk memantau proses, kemajuan, dan perbaikan hasil belajar peserta didik secara berkesinambungan. 
Penilaian adalah komponen penting dalam proses pembelajaran (Pawluk et al., 2018 & Mansyur et al., 2019). Dengan meningkatkan kualitas pembelajaran dan sistem penilaiannya maka kualitas pendidikan akan meningkat. Sistem Pembelajaran yang baik akan menghasilkan kualitas belajar yang baik dan kualitas pembelajaran dapat dilihat dari hasil penilaiannya (Mansyur, Rasyid, Suratno, 2015).
Dalam melakukan penilaian untuk mengukur hasil belajar siswa dibutuhkan adanya alat penilaian salah satunya ialah tes pilihan ganda (Al Muhaissen et al., 2019 & Burud et al., 2019). Tes pilihan ganda yang dibuat harus mampu mengukur tingkat kognitif dari taksonomi bloom (Al Muhaissen et al., 2019 & Haladyna et al., 2002 & Burud et al., 2019).
Sebuah soal pilihan majemuk terdiri dari pernyataan atau pertanyaan (stem) dan pilihan jawaban. Pilihan jawaban terdiri atas kunci jawaban dan distraktor. Kunci jawaban adalah jawaban yang benar sedangkan distraktor adalah jawaban yang tidak benar (Quaigrain & Arhin, 2017 & Istiyono, 2018). Distraktor yang bagus apabila dipilih paling tidak <5% dari total peserta tes. (Testa et al., 2018). Menyusun soal pilihan ganda relatif sulit, terutama dalam membuat distraktor yang baik. Distraktor yang dibuat harus masuk akal sehingga dipilih oleh siswa yang tidak menguasai materi (Quaigrain & Arhin, 2017).
Kualitas tes tergantung pada kuliatas tiap itemnya. Analisis item merupakan salah satu sarana untuk mengevaluasi kualitas tes (Al Muhaissen et al., 2019). Analisis item terdiri dari 3 komponen; tingkat kesukaran (DIF I), daya pembeda (DI) dan analisis distraktor (DE) ( Rezigalla et al., 2019). DIF I merupakan proporsi atau persentase siswa yang menjawab benar (Azevedo et al., 2019 & Al Muhaissen et al., 2019). Daya pembeda (DI) kemampuan item untuk membedakan antara siswa berkemampuan tinggi dan siswa berkemampuan rendah (Kumari & Niranjan, 2018 & Al Muhaissen et al., 2019).
Berdasarkan hasil  survei  pendahuluan dengan melakukan wawancara pada ketua MGMP (Musyawarah Guru Mata Pelajaran) kabupaten di temukan soal Ujian Akhir Sekolah (UAS) ataupun Ujian Kenaikan Kelas (UKK)  yang digunakan di Sekolah SMP Kabupaten Bantul dibuat oleh MGMP.  Untuk alurnya adalah, MGMP membuat soal kemudian di berikan kepada MKKS (Musyawarah Kerja Kepala Sekolah) untuk di koreksi kemudian di berikan kepercetakan untuk di cetak dalam skala kecil kemudian di kembalikan kembali ke MGMP untuk di revisi kembali, setelah direvisi soal akan diberikan kepada MKKS untuk di koreksi kemudian di berikan kepada percetakan untuk di cetak dalam skala besar dan di sebar ke seluruh sekolah neger dan swasta di Kabupaten Bantul.
Pada saat survey,peneliti menemukan bahwa perangkat tes  yang dibuat oleh MGMP tersebut belum melalui prosedur pembuatan tes yang telah ditetapkan, sebab setelah perangkat tes selesai dibuat, perangkat tes langsung digunakan untuk ujian akhir semester (UAS). Perangkat tes tersebut juga belum diketahui karakteristik pada masing-masing butirnya, karena tidak dilakukan analisis secara kualitatif (teoritis) dan secara kuantitatif (empiris).
Tujuan dari penelitian ini adalah untuk mengidentifikasi kekurangan-kekurangan perangkat tes tersebut dan dalam rangka memperbaiki pembelajaran. Hasil analisis perangkat tes dapat digunakan untuk mempersiapkan bank soal pada mata pelajaran matematika di SMP. Analisis butir soal juga bermanfaat untuk memperkaya butir-butir soal yang berkualitas, sehingga semakin banyak butir yang dimasukkan ke dalam bank soal.

B.     Rumusan Masalah
Berdasarkan pembatasan masalah tersebut, maka rumusan masalah dalam penelitian ini adalah sebagai berikut.
1.      Bagaimana hasil analisis kualitas butir soal UAS Matematika kelas VIII SMP Negeri Kabupaten Bantul secara kualitatif ?
2.      Bagaimana hasil analisis kualitas butir soal UAS Matematika kelas VIII SMP Negeri Kabupaten Bantul secara kuantitatif?
3.      Berapa butir soal UAS Matematika kelas VIII di Kabupaten Bantul yang diterima masuk kedalam bank soal ?

C.     Landasan Teori
1.      Evaluasi, Pengukuran dan Penilaian
Pendidikan sangat berkaitan erat dengan evaluasi. Hal ini karena pendidikan adalah sebuah program, dimana melibatkan sejumlah komponen yang bekerja sama untuk mencapai suatu tujuan (Purwanto, 2014:1).  Untuk mengetahui apakah program tersebut dapat mencapai tujuan tersebut maka di perlukan adanya evaluasi. Evaluasi didefinisikan sebagai proses mengumpulkan informasi untuk mengetahui pencapaian belajar kelas atau kelompok (Mardapi, 2008: 9). Tahapan dalam evaluasi meliputi pengumpulan data, analisis data, dan menafsirkan hasil (Istiyono, 2018:19). Dalam evaluasi pendidikan ada empat komponen yang saling terkait dan merupakan satu kesatuan yang tidak terpisahkan, artinya kegiatan evaluasi harus melibatkan ketiga kegiatan lainnya, yaitu penilaian, pengukuran dan tes (non tes) (Mansyur, 2019:6).
Evaluasi pengajaran dapat dikategorikan menjadi dua, yaitu evaluasi sumatif dan evaluasi formatif. Evaluasi formatif adalah evaluasi yang dilakukan pada setiap akhir pembahasan suatu pokok bahasan/ topik (Mansyur, 2019:14) dan bertujuan untuk memperbaiki proses belajaer mengajar (Mardapi, 2008: 11). Sedangkan evaluasi sumatif adalah evaluasi yang dilakukan pada setiap akhir satuan waktu yang didalamnya mencangkup lebih dari satu pokok bahasan  (Mansyur, 2019:14) dan bertujuan untuk menetapkan tingkat keberhasilan peserta didik (Mardapi, 2008: 11).
Penilaian adalah kegiatan mengumpulkan informasi atau data bukti hasil belajar peserta didik kemudian menafsirkannya (Istiyono, 2018:16). Penilaian berfokus pada individu , yaitu prestasi belajar yang dicapai individu (Mardapi, 2008: 6). Penilaian memiliki prinsip diantaranya akurat, ekonomis dan mendorong peningkatan kualitas pembelajaran (Mardapi, 2012: 14). Akurat yang dimaksud mempunyai arti bahwa penilaian yang dilakukan harus tepat dan tidak banyak mengandung kesalahan. Ekonomis berarti bahwa penilaian yang dilakukan tidak memerlukan biaya yang banyak, sedangkan yang dimaksud mendorong peningkatan kualitas pembelajaran adalah penilaian tesebut dilakukan tidak hanya semata-mata untuk menilai saja tetapi juga harus meningkatkan kualitas pembelajaran. Menurut (Chittenden, 1991: 22-31) kegiatan penilaian dalam proses pembelajaran perlu diarahkan pada empat hal:
a.       Penelusuran, yaitu kegiatan yang dilakukan untuk menelusuri apakah proses pembelajaran telah berlangsung sesuai dengan yang direncanakan atau tidak.
b.      Pengecekan, yaitu untuk mencari informasi apakah terdapat kekurangan-kekurangan pada peserta didik selama proses pembelajaran.
c.       Pencarian, yaitu untuk mencari dan menemukan penyebab kekurangan yang muncul selama proses pembelajaran berlangsung.
d.      Penyimpulan, yaitu untuk menyimpulkan tentang tingkat pencapaian belajar yang telah dimiliki peserta didik.

Pengukuran merupakan suatu proses pemberian angka kepada suatu atribut atau karakteristik tertentu yang dimiliki oleh orang, hal, atau objek tertentu menurut aturan atau formulasi yang jelas (Mansyur, 2019:25). Penentuan angka merupakan usaha untuk menentukan karakteristik suatu objek, salah satunya adalah karakteristik individu (Mansyur, 2019:26). Dalam menentukan karakteristik individu, pengukuran yang dilakukan sedapat mungkin mengandung kesalahan yang kecil (Mardapi, 2004). Kesalahan yang terjadi biasanya disebabkan oleh alat ukur, cara mengukur dan keadaan objek yang diukur (Mansyur, 2019:26). Kesahihan alat ukur bisa dilihat dari kisi-kisi alat ukur. Kisi-kisi ini berisi tentang materi yang diujikan, bentuk soal, tingkat berpikir yang terlibat, bobot soal dan cara penskoran (Mansyur, 2019:27).
Menurut (Kusaeri & Suprananto, 2012: 5) menyatakan pengukuran memiliki beberapa karakteristik, yaitu (1) pengukuran merupakan perbandingan antara atribut yang diukur dengan alat ukurnya, (2) hasil pengukuran bersifat kuantitatif atau berupa angka, (3) hasil pengukuran bersifat deskriptif. (Miller, 2008: 2) menyatakan bahwa informasi dari pengukuran dapat digunakan untuk, 1) memantau kemajuan peserta didik, 2) membantu peserta didik dengan rencana masa depannya (karir), 3) mengklasifikasikan dan menempatkan peserta didik berdasarkan kepentingan, bakat, dan kesiapan, 4) menilai program pendidikan, 5) memperbaiki kurikulum, dan 6) menentukan pengajaran yang efisien.

2.      Tes
Tes merupakan sejumlah pertanyaan yang memiliki jawaban yang benar atau salah. Hasil tes merupakan informasi tentang karakteristik seseorang atau sekelompok orang. Tes merupakan salah satu cara untuk mengestimasi besarnya tidak kemampuan manusia secara tidak langsung melalui respon seseorang terhadap sejumlah pertanyaan (Mansyur, 2019:30). Menurut (Mardapi, 2008: 68) tujuan tes adalah untuk:
1) mengetahui tingkat kemampuan peserta didik, 2) mengukur pertumbuhan dan perkembangan peserta didik, 3) mendiagnosa kesulitan belajar, 4) mengetahui hasil pengajaran, 5) mengetahui hasil belajar, 6) mengetahui pencapaian kurikulum, 7) mendorong peserta didik belajar, 8) mendorong pendidik mengajar yang lebih baik dan peserta didik belajar lebih baik.

Beberapa bentuk tes yang dapat digunakan dalam lembaga pendidikan menurut (Mardapi, 2008: 71-84)
a.       Tes lisan di kelas
Pertanyaan lisan dapat digunakan untuk mengetahui taraf serap peserta didik untuk masalah yang berkaitan dengan kognitif. Pertanyaan lisan yang diajukan di kelas harus jelas, dan semua peserta didik harus diberi kesempatan yang sama.
b.      Bentuk benar salah
Tes benar salah adalah bentuk tes yang terdiri atas sejumlah pertanyaan yang bernilai benar dan salah. Tes bentuk benar salah terdiri dari dua macam, yaitu tes benar salah dengan pembetulan, dan tes benar salah tanpa pembetulan.
c.       Bentuk pilihan ganda
Tes bentuk pilihan ganda adalah tes yang jawabannya dapat diperoleh dengan memilih alternatif jawaban yang telah disediakan. Dalam tes pilihan ganda ini, bentuk tes terdiri atas pertanyaan (pokok soal), alternatif jawaban yang mencangkup kunci jawaban dan pengecoh.
d.      Bentuk uraian objektif
Pengerjaan soal ini melalui suatu proses atau langkah-langkah tertentu. Setiap langkah ada skornya. Objektif disini dalam arti hasil penskorannya apabila diperiksa oleh beberapa pendidik dalam bidang studi tersebut hasilnya akan sama.
e.       Bentuk uraian non-objektif
Bentuk tes ini dikatakan non-objektif karena penilaian yang dilakukan cenderung dipengaruhi subjektivitas dari penilain.
f.       Bentuk jawaban singkat
Bentuk jawaban singkat ditandai dengan adanya tempat kosong yang yang disediakan bagi pengambil tes untuk menuliskan jawabannya sesuai dengan petunjuk. Ada tiga jenis soal bentuk ini, yaitu: jenis pertanyaan, jenis melengkapi atau isian, dan jenis identifikasi atau asosiasi.
g.      Bentuk menjodohkan
Soal bentuk menjodohkan atau memasangkan terdiri dari suatu premis, suatu daftar kemungkinan jawaban,  dan suatu petunjuk untuk menjodohkan masing-masing premis itu dengan satu kemungkinan jawaban.
h.      Unjuk kerja/ performans
Proses mengumpulkan data dengan cara pengamatan yang sistematik untuk membuat keputusan tentang individu.
i.        Portofolio
Portofolio adalah kumpulan dari tugas-tugas peserta didik. Penilaian dengan portofolio memerlukan kemampuan membaca yang baik. Hal yang penting pada penilaian portofolio adalah mampu mengukur kemampuan membaca dan menulis yang lebih luas, peserta didik menilai kemajuannya sendiri, mewakili sejumlah karya seseorang.

3.      Analisis Butir Soal Secara Kualitatif
Analisis butit tes secara kulitatif dilakukan dengan menganalisis aspek materi, aspek konstruksi dan aspek bahasa. Analisis ini juga sering disebut analisis secara teoritik. Analisis konstruk dimaksudkan sebagai penelaahan yang berkaitan dengan prinsip-prinsip pengukuran dan teknik penulisan butir soal (Kurniawan & Mutaqimah, 2009).
 Menurut (Mardapi, 2008: 137) menyatakan:
Aspek materi berkaitan dengan substansi keilmuan yang ditanyakan serta tingkat berpikir yang terlibat. Aspek konstruksi berkaitan dengan teknik penulisan soal, baik bentuk objektif, maupun yang non-objektif. Bentuk objektif bisa berupa tes pilihan dan tes uraian. Aspek bahasa berkaitan dengan kekomunikatifan/kejelasan hal yang ditanyakan.
 (Subali, 2016:38) menyatakan bahwa telaah item tes dilakukan oleh (1) bukan oleh penulis item tes dan (2) dilakukan oleh pakar yang menguasai isi/ materi yang diujikan. Berikut disajikan tabel analisis kualitatif untuk tes bentuk pilihan ganda (Multiple Choice).
Tabel 1. Telaah item tes bentuk pilihan ganda (Subali, 2016: 42-43)
No
Aspek
Nomor Item
a.
Aspek materi/substansi
1
2
3
4
Dst
1
Item sesuai dengan indikator





2
Pernyataan/ pertanyaan dan jawaban kunci terumuskan dengan benar





3
Materi/substansi yang ditanyakan sesuai dengan tujuan pengukuran (untuk tujuan pengukuran hasil belajar, tujuan pengukuran untuk seleksi, atau tujuan pengukuran untuk konfirmatori)





4
Materi/substansi yang ditanyakan sesuai dengan jenjang, jenis sekolah dan tingkatan kelas





b.
Aspek konstruksi





1
Pokok soal (stem) dirumuskan dengan jelas





2
Pokok soal dan pilihan dirumuskan dengan tegas





3
Pokok soal tidak memberi petunjuk/ mengarah kepada pilihan jawaban yang benar





4
Pokok soal tidak mengandung pernyataan negatif ganda jika terpaksa menggunakan kata negatif, harus digarisbawahi atau dicetak lain





5
Pilihan jawaban homogen





6
Hindari adanya alternatif jawaban: “seluruh jawaban di atas benar” atau “tak satu jawaban di atas yang benar” dan yang sejenisnya





7
Panjang alternatif/ pilihan jawaban relatif sama (jangan ada yang sangat panjang dan ada yang sangat pendek)





8
Pilihan jawaban dalam bentuk angka/ waktu diurutkan





9
Uraian kasus/ wacana, gambar, tabel atau grafik benar-benar berfungsi





10
Hanya ada satu jawaban yang benar





11
Antar item tidak bergantung satu sama lain





c.
Aspek bahasa





1
Rumusan kalimat soal komunikatif





2
Kalimat menggunakan bahasa yang baik dan benar, sesuai dengan jenis bahasanya





3
Rumusan kalimat tidak menimbulkan penafsiran ganda atau salah pengertian





4
Menggunakan bahasa/ kata yang umum (bukan bahasa lokal atau bahasa serapan baru yang belum dikenal oleh seluruh testi)





5
Rumusan soal tidak mengandung kata-kata yang dapat menyinggung perasaan testi






Telaah butir oleh para ahli merupakan bentuk validitas dari sebuah instrumen. Butir yang dinyatakan baik dalam telaah butir adalah butir yang valid yang dapat digunakan dalam tes. Sebaliknya, butir yang dinyatakan tidak baik adalah butir yang tidak valid dan harus diperbaiki atau diganti. Dalam penelitian ini akan digunakan validitas isi dengan telaah butir soal didukung dengan validitas isi menggunakan indeks Aiken’s.
4.        Analisis Butir Secara Kuantitatif
Analisis kuantitatif dilakukan terhadap tes maupun terhadap item tes. Analisis tes untuk mengetahui reliablitas tes, sedangkan analisis item tes untuk mengetahui kualitas setiap item tes yang bersangkutan (Subali, 2016:51). Analisis item tes yang dimaksudkan adalah tingkat kesukaran, daya pembeda dan parameter butir soal ditinjau dari peluang untuk menebak atau menjawab dengan benar suatu soal dan berfungsi tidaknya pilihan jawaban (Mansyur, 2019: 179).
Tes dikatakan berkualitas tinggi apabila tes itu mampu mengukur secara tepat dan hasil pengukurannya dapat diandalkan. Dengan kata lain tes perlu memenuhi syarat validitas dan reliabilitas (Subali, 2016:51).
Suprata (2004) dalam (Mansyur, 2019:179) menyatakan:
Salah satu tujuan dilakukannya analisis adalah untuk meningkatkan kualitas soal, yaitu apakah suatu soal (1) dapat diterima karena telah didukung oleh data statistik yang memadai, (2) diperbaiki, karena terbukti terdapat beberapa kelemahan, atau bahkan (3) tidak digunakan sama sekali karena terbukti secara empiris tidak berfungsi sama sekali.

a.       Validitas isi
Suatu alat ukur dinyatakan shahi (valid), jika alat ukur tersebut benar-benar mampu memberikan informasi empirik sesua dengan apa yang diukur (Subali, 2016:51). Validitas suatu alat ukur adalah sejauh mana alat ukur itu mampu mengukur apa yang seharusnya diukur (Allen & Yen, 1979: 79). Tipe valisitas secara tradisional dapat digolongkan dalam tiga kategori, yaitu validitas isi (content validity), validitas konstak (construct validity) dan validitas berdasarkan kriteria (criterion-related validity) (Azwar, 2019: 41-42). 
Validitas isi merupakan validitas yang diestimasi lewat pengujian terhadap kelayakan atau relevansi isi tes melalui analisis rasional oleh panel yang berkompeten atau melalui judgment.   Menurut Kartowagiran (2012) validitas isi suatu instrumen adalah sejauh mana butir-butir dalam instrumen itu mewakili komponen-komponen dalam keseluruhan kawasan isi objek yang hendak diukur dan sejauh mana butir-butir itu mencerminkan ciri perilaku yang hendak diukur.

b.      Reliabilitas
Reliabilitas berkaitan dengan  dengan konsistensi. Suatu alat ukur dinyatakan reliabel/ andal jika memberikan hasil yang sama pada berkali-kali pengulangan pengukuran (Subali, 2016:60).
Berdasarkan cara memperoleh data, reliabilitasi suatu instrumen alat ukur dapat dogolongkan menjadi tiga, yaitu konsistensi internal, stabilitas dan antar penilai. Cara estimasi reliabilitas dengan metode konsistensi internal, hanya memerlukan satu kali penyajian tes saja, dikenal dengan nama single-trial administration, oleh karena itu masalah-masalah yang timbul akibat penyajian yang berulang dapat dihindari. Pendekatan dalam melakukan estimasi reliabilitas dengan konsistensi internal ada tiga, yaitu klasik parallel, tau-ekuivalen, dan konginerik. Masing-masing pendekatan menggunakan persyaratan yang berbeda, yaitu sesuai dengan karakteristik data (Mardapi, 2017: 54).

c.       Teori tes klasik (Classical Test Theory)  
Berdasarkan pendekatan teori tes klasik, karakteristik butir meliputi tingkat kesukaran (p), daya pembeda (d), dan efektivitas distraktor (Istiyono, 2018: 252).
Teori tes klasik menggunakan model matematika sederhana yang menunjukkan hubungan antara skor amatan (X), skor sebenarnya (T), dan skor kesalahan (E). Model ini ditulis sebagai persamaan....(i)
X = T + E ................. (i)
Teori tes klasik memiliki kelemahan-kelemahan (Hambleton, dkk, 1991 dan Lord, 1980), diantaranya:
(1)   Statistik butir tes sangat tergantung pada karakteristik subjek yang dites
(2)   Taksiran kemampuan peserta tes sangat tergantung pada butir tes yang diujikan
(3)   Kesalahan baku penaksiran skor berlaku untuk semua peserta tes, sehingga kesalahan baku pengukuran tiap peserta dan butir tidak ada
(4)   Informasi yang disajikan terbatas pada menjawab benar atau salah saja tidak memperhatikan pola jawaban peserta tes
(5)   Asumsi tes paralel susah dipenuhi

Walaupun memiliki banyak kelemahan tetapi masih banyak yang menggunakannya karena tidak menuntut responsen besar (lebih 100) dan mudah mengaplikasikannya (Istiyono, 2018: 252).
Asumsi dalam Teori Tes Klasik menurut Allen & Yen, 1979 meliputi:
(1)   Instrumen yang digunakan hanya untuk mengukur satu dimensi. Teknik statistika yang digunakan untuk mengetahui jumlah dimensi yang diukur adalah analisis faktor
(2)   Tidak terdapat hubungan antara skor murni dan skor kesalahan
(3)   Tidak terdapat hubungan antara kesalahan pengukuran pertama dengan kesalahan pengukuran kedua
(4)   Tidak terdapat hubungan antara skor murni pada pengukuran pertama dengan kesalahan pada pengukuran kedua
(5)   Tidak terdapat hubungan antara skor murni pada pengukuran kedua dengan kesalahan pada pengukuran pertama
(6)   Rata-rata kesalahan pengukuran pada populasi adalah 0

Parameter pada teori tes klasik
1)      Daya beda
Daya beda (diskriminasi) suatu butir tes adalah kemampuan suatu butir untuk membedakan antara peserta tes yang berkemampuan tinggi dan berkemampuan rendah (Istiyono, 2018: 253). Ada empat macam teknik korelasi yang biasa digunakan untuk menghitung daya pembeda, yaitu: teknik point biserial, teknik biserial, teknik phi dan teknik tetrachoric.
Daya pembeda dinyatakan dengan indeks berkisar antara -1 sampai dengan 1 (Mehrens & Lehman, 1991: 162). Kriteria Daya pembeda dapat dikategorikan menjadi; tidak baik (), cukup (), baik (), sangat baik () dan jika nilai  negatif maka masuk kedalam kategori tidak baik (Al Muhaissen et al., 2019).  Jika  negatif maka siswa kemampuan rendah menjawab pertanyaan lebih benar daripada siswa dengan kemampuan tinggi (Kumari & Niranjan, 2018).

2)      Indeks Kesukaran/ Tingkat Kesukaran
Tingkat Kesukaran merupakan proporsi atau persentase siswa yang menjawab benar (Azevedo et al., 2019 & Al Muhaissen et al., 2019 & (Reynols et al., 2010). Besarnya indeks korelasi berkisar antara 0 sampai 1. Makin tinggi besaran indeks korelasi maka butir soal tersebut semakin mudah. Dan semakin kecil angka indeks korelasi maka butir soal tersebut semakin sulit (Istiyono, 2018: 254).  Tingkat Kesukaran dikategorikan sangat sulit (Tingkat Kesukaran < 0,30), baik (),  dan sangat mudah (Tingkat Kesukaran > 0,7) (Pande et al., 2013 & Garg et al., 2019).

3)      Efektivitas Distraktor
Dalam setiap tes tedapat pertanyaan dan alternatif jawaban dimana salah satu dari alternatif jawaban adalah kunci jawaban dan yang lainnya dalah distraktor (pengecoh). Efektivitas distraktor (FD) adalah seberapa baik pilihan yang salah tersebut dapat mengecoh peserta tes yang memang tidak mengetahui kunci jawaban yang tersedia (Istiyono, 2018: 254-255). Sebuah distraktor dikatakan berfungsi dengan baik jika dipilih oleh >5% atau lebih peserta didik dan distraktor dikatakan tidak berfungsi dengan baik (NFD) jika dipilih <5% (Burud et al., 2019).

d.      Teori tes modern
Karena teori tes klasik memiliki kekurangan, maka para ahli psikologi dan pendidik mengembangkan sebuah model pengukuran yang dapat meminimalkan kekurangan-kekurangan yang ada. Model pengukuran tersebut adalah teori respon butir (Item Response Theory).
Terdapat dua postulat dari teori tes modern atau biasa disebut teori respon butir (Hambleton et al., 1991:7) yaitu:
(1)     hasil kerja seorang peserta tes pada suatu butir soal dapat diprediksi (atau dijelaskan) dari suatu jenis faktor-faktor yang disebut sifat-sifat, sifat-sifat laten, atau kemampuan
(2)     hubungan antara hasil kerja peserta tes pada suatu butir tes dengan sifat-sifat yang mendasarinya dapat dideskripsikan oleh fungsi yang meningkatkan yang bersifat monotonic yang disebut dengan fungsi karakteristik butir (item characteristic function atau item characteristic curve-ICC). Fungsi ini menjelaskan jika taraf sifat-sifat (kemampuan) meningkat, maka probabilitas menjawab benar pada suatu tes juga meningkat.

Analisis item tes dilakukan menggunakan teori respon butir dengan model logistik 3 parameter (3 PL). Pada model ini menggunakan tiga parameter antara lain adalah parameter tingkat kesulitan butir (), daya pembeda butir () dan kebetulan menjawab butir dengan benar atau pseudo guessing (). Parameter pseudo guessing adalah parameter faktor kebetulan menjawab dengan benar dimana pada model ini tidak sama dengan nol (Istiyono, 2018: 261). Maka dapat dikatakan siswa dengan kemampuan rendah memiliki peluang untuk menjawab dengan benar. 
Model logitik tiga parameter memiliki persamaan sebagai berikutL
..................(ii)

Keterangan:
 = probabilitas peserta tes yang berkemampuan menjawab butir i dengan benar
        = parameter kemampuan yang terletak diantara -4 sampai +4
       = parameter tingkat kesukaran butir i
       = paramter daya pembeda butir i
        = peluang tebakan benar butir i
        = Parameter tambahan bernilai 1,7

Kriteria butir soal menurut (Hambleton et al., 1991 dalam Istiyono, 2018:262-263) adalah:
(1)     soal yang baik adalah model setiap soal yang sesuai dengan model jika nilai chi kuadrat empiris butir yang tidak melebihi nilai khi kuadrat teoritis (nilai p > 0,05), memiliki nilai daya pembeda berkisar 1, peluang menebak kecil, dan tingkat kesukaran berada diantara nilai -2,00 sampai +2,00
(2)     soal yang cukup baik adalah soal yang sesuai model jika nilai chi kuadrat empiris butir yang tidak melebihi nilai chi kuadrat teoritis (nilai p > 0,05) dan salah satu kriteria soal yang baik tidak terpenuhi
(3)     soal yang belum dapat digambarkan adalah soal yang tidak sesuai dengan model yang digambarkan jika nilai chi kuadrat empiris butir lebih besar dari nilai chi kuadrat teoritis ( nilai p < 0,05)

model
Kriteria
baik
Cukup baik
Belum dapat digambarkan
1 PL
Nilai p > 0,05;
-2 b + 2
Nilai p > 0,05;
b < -2 atau b > 2
Nilai p < 0,05
(uji-chi-square)
2 PL
Nilai p > 0,05;
a 0,5;
-2 b + 2
Jika salah satu kriteria soal baik tidak terpenuhi
Nilai p < 0,05
3 PL
Nilai p > 0,05
a 0,5;
-2 b + 2;
c 1/n
Jika salah satu kriteria soal baik tidak terpenuhi
Nilai p < 0,05

5.      Bank Soal
Bank soal merupakan kumpulan item-item tes yang telah diuji sebelumnya. Menurut (Depdikbud, 1995) bank soal merupakan suatu kumpulan butir-butir soal yang telah diketahui karakteristiknya dan telah dinyatakan valid serta reliabel. Karkteristik butir tesebut meliputi tingkat kesulitan, reliablitas, validitas dan ketentuan lainnya (Retnawati, 2014: 63-64). Bank soal dibutuhkan untuk menunjang kegiatan penilaian dengan adanya bank soal guru dapat menggunakan butir-butir yang ada di bank soal. 
Bank soal bukanlah sekedar kumpulan soal atau pertanyaan, namun merupakan butir-butir soal yang telah terkalibrasi sehingga dapat digunakan untuk menyediakan informasi mengenai trait peserta tes (Chang, 2005). Bank soal yang dikembangkan dengan teori respon butir, program tes dapat dibuat lebih fleksibel dan sesuai. Hal ini disebabkan karena karakteristik butir perangkat tes pada teori respon butir tidak bergantung pada karakteristik peserta tes pada saat kalibrasi (Anggriyani, 2018:34).
Menurut (Wood & Skurnik, 1969:8) tujuan pembuatan bank soal yaitu:
a.       Memberikan informasi yang objektif tentang karakteristik pemeriksaan/ penskoran yang digunakan
b.      Digunakan dalam ujian berbasis sekolah
c.       Membiasakan pendidik membuat perangkat tes, terutama pandangan bahwa perangkat tes harus dibuat berdasarkan blueprint
d.      Mengklarifikasikan prestasi yan berlaku secara universal sehingga pendidik menjadi lebih sadar dalam pembuatan tes, menguji apa, mengapa dan untuk apa tes tersebut dibuat
e.       Mendeteksi dan melatih bakat menulis butir sehingga bank soal akan berisi butir-butir yang berkualitas baik.
Dalam penelitian ini, persiapan bank soal sibuat dengan menggunakan cara manual. Format bank soal diambil dari (Anggriyani, 2018:37) yang disajikan pada gambar berikut















     Gambar 1. Format Bank Soal

D.    Metodologi

A.    Jenis Penelitian
Penelitian ini menggunakan pendekatan kuantitatif dengan metode deskriptif eksploratif untuk mengetahui perangkat tes ujian akhir semester matematika SMP di kabupaten Bantul. Tujuan yang ingin dicapai adalah untuk memperoleh butir-butir soal yang memenuhi kriteria validitas dan reliabilitas sehingga dapat dimasukkan dalam bank soal.
Penelitian ini menggunakan telaah secara teoritis oleh expert judgment dan penelaahan butir soal dilanjutkan dari hasil respon jawaban siswa SMP kelas VIII secara empiris dengan bantuan ITEMAN 4.3 untuk teori tes klasik dan bantuan program komputer BILOG untuk teori respon butir.



B.     Tempat dan Waktu Penelitian
Penelitian ini dilaksanakan di Kabupaten Bantul. Alokasi waktu untuk penelitian ini adalah dari bulan Desember 2019 sampai selesai.

C.    Subjek dan Objek Penelitian
Subjek dari penelitian ini adalah semua siswa kelas VIII yang mengerjakan soal UAS dari sekolah yang menjadi populasi penelitian yang telah ditentukan. Objek dalam penelitian ini adalah instrumen tes dan lembar jawaban siswa. lembar jawaban siswa yang digunakan dalam penelitian ini diperoleh dari 11 SMP di Kabupaten Bantul.

D.    Variabel Penelitian
Variabel yang digunakan dalam penelitian ini adalah sebagai berikut:
1.      Tingkat Kesukaran, yaitu proporsi atau persentase siswa yang menjawab benar
2.      Daya Pembeda adalah kemampuan suatu butir untuk membedakan antara peserta tes yang berkemampuan tinggi dan berkemampuan rendah
3.      Efektifitas Pengecoh, yaitu sebuah distraktor dikatakan berfungsi dengan baik jika dipilih oleh >5% atau lebih peserta didik dan distraktor dikatakan tidak berfungsi dengan baik (NFD) jika dipilih <5%

E.     Validitas dan Reliabilitas Instrumen
Validasi instrumen dengan menggunakan validasi Aiken untuk menilai kevalidan instrumen lembar telaah butir yang digunakan ahli untuk menelaah butir soal. Reliabilitas atau keandalan merupakan  koefisien yang menunjukkan tingkat konsistensi hasil pengukuran sebuah instrumen. Perhitungan koefisien reliabilitas instrumen lembar telaah oleh para ahli dalam penelitian ini menggunakan ICC (Interclass Correlation Coefficients). Estimasi nilai reliabilitas kekonsistenan antar rater menggunakan skala Fleiss’ Kappa. Apabila nilai Kppa < 0,40 maka reliabilitasnya dikategorikan redah, Kappa diantara 0,40 sampai 0,75 maka reliabilitasnya dikategorikan menengah, dan apabila nilai Kappa > 0,75 maka reliabilitas dinyatakan tinggi (Gwet, 2012: 125).

F.     Teknik dan Instrumen Pengumpulan Data
Teknik pengumpulan data dalam penelitian ini adalah dokumentasi. Data yang didapatkan dioalah berdasarkan teori tes klasik dan teori respon butir. Sedangkan instrumen pengumpulan data yang digunakan adalah lembar jawaban siswa.

G.    Teknik Analisis Data
Dalam penelitian ini teknik analisis data meliputi:
1.      Analisis Kualitatif
Telaah butir soal yang disusun merupakan penilaian (judgement) pada setiap butir soal dengan kriteria dari aspek materi, konstruksi dan bahasa. Telaah dilakukan oleh Tim Pedoman Umum Pengembangan Penilaian. Penelaah terdiri dari lima orang, sehingga penilaian dikategorikan baik jika dipilih oleh semua orang penelaah, cukup baik dan tidak baik apabila didukung oleh minimal tiga penelaah

Tabel 2..Kategori Pengambila Kesimpulan Hasil Telaah
Sumber: (Charismana & Aman, 2016)
  Keputusan penerimaan butir soal didukung oleh hasil telaah para ahli dengan ketentuan sebagai berikut:
a.       Baik, apabila keseluruhan kriteria penelaahan butir pada aspek materi, konstruksi dan bahasa semuanya sesuai kaidah yang ditentukan, dan didukung oleh semua penelaah.
b.      Cukup baik, apabila keseluruhan kriteria penelaahan butir pada aspek materi sesuai dengan kaidah yang ditentukan, sebanyak-banyaknya ada satu kriteria pada aspek konstruksi dan satu kriteria pada aspek bahasa yang tidak sesuai dengan kaidah yang ditentukan, minimal didukung oleh dua orang penelaah.
c.       Tidak baik, apabila kunci jawaban salah, atau terdapat kriteria pada aspek materi tidak sesuai dengan yang ditentukan, lebih dari satu kriteria pada aspek konstruksi dan lebih dari satu kriteria pada aspek bahasa yang tidak sesuai dengan kaidah yang telah ditetapkan, minimal didukung oleh dua orang penelaah.
2.      Analisis Kuantitatif
Analisis kuantitatif dilakukan dengan dua cara yaitu dengan teori tes klasik dengan program iteman 4.3 dan teori respon butir dengan program bilog.
a.       Tes teori klasik
Data dianalisis dengan program iteman 4.3 untuk mengestimasi besarnya tingkat kesukaran, daya pembeda dan efektifitas distraktor dengan ketentuan berikut.
1)      Tingkat Kesukaran dikategorikan sangat sulit (Tingkat Kesukaran < 0,30), baik (),  dan sangat mudah (Tingkat Kesukaran > 0,7)
2)      Kriteria Daya pembeda dapat dikategorikan menjadi; tidak baik (), cukup (), baik (), sangat baik () dan jika nilai  negatif maka masuk kedalam kategori tidak baik
3)      Sebuah distraktor dikatakan berfungsi dengan baik jika dipilih oleh >5% atau lebih peserta didik dan distraktor dikatakan tidak berfungsi dengan baik (NFD) jika dipilih <5%
b.      Teori respon butir
Data dianalisis dengan program Bilog MG. Analisis data dengan program Bilog MG  akan menunjukkan hasil sebagai berikut.
1)      Slope menunjukkan daya pembeda
2)      Threshold menunjukkan tingkat kesukaran
3)      Asmtote menunjukkan tebakan semua
4)      Outfit butir soal meyatakan ketidakcocokan respons terhadap tingkat kesukaran
5)      Point biserial butir soal menyatakan koefisien korelasi antara jawban siswa pada setiap butir soal dari seluruh siswa dan skor total.
References
 Al Muhaissen, S. A., Ratka, A., Akour, A., & AlKhatib, H. S. (2019). Quantitative analysis of single best answer multiple choice questions in pharmaceutics. Currents in Pharmacy Teaching and Learning, 11(3), 251–257. https://doi.org/10.1016/j.cptl.2018.12.006
Allen, M. ., & Yen, W. . (1979). Introduction to Measurement Theory. Belmont, CA: Wadsworh, Inc.
Azevedo, J. M., Oliveira, E. P., & Beites, P. D. (2019). Using Learning Analytics to evaluate the quality of multiple-choice questions: A perspective with Classical Test Theory and Item Response Theory. International Journal of Information and Learning Technology, 36(4), 322–341. https://doi.org/10.1108/IJILT-02-2019-0023
Azwar, S. (2019). Reliabilitas dan Validitas. Yogyakarta: Pustaka Pelajar.
Burud, I., Nagandla, K., & Agarwal, P. (2019). Impact of distractors in item analysis of multiple choice questions. International Journal of Research in Medical Sciences, 7(4), 1136–1139. https://doi.org/10.18203/2320-6012.ijrms20191313
Chang, C.-C. (2005). Developing Tailored Instrumens: Item Banking and Computerized Adaptive Assessment. Evaluation and Program Planning Journal, 24, 251–215.
Charismana, D. ., & Aman, A. (2016). Analisis Kualitas Tes Ujian Akhir Semester PPKN SMP di Kabupaten Kudus. Jurnal Evaluasi Pendidikan, 4((1)), 1–9.
Depdikbud. (1995). Petunjuk Pelaksanaan Pengembangan Bank Soal di Wilayah. Jakarta: Balitabang.
Garg, R., Kumar, V., & Maria, J. (2019). Analysis of multiple choice questions from a formative assessment of medical students of a medical college in Delhi , India, 7(1), 174–177.
Haladyna, T. M., Downing, S. M., & Rodriguez, C. (2002). Applied Measurement in Education A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measurement in Education, 15(3), 309–333. https://doi.org/10.1207/S15324818AME1503
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park: Sage Publications.
Kumari, P., & Niranjan, R. (2018). ARE POSTGRADUATE MEDICAL ENTRANCE EXAMINATIONS REALLY DIFFICULT? - ITEM ANALYSIS OF MCQs FOR DOCTOR OF MEDICINE IN INDIA. Journal of Evolution of Medical and Dental Sciences, 7(46), 4956–4959. https://doi.org/10.14260/jemds/2018/1103
Kurniawan, E., & Mutaqimah, E. (20009). Penilaian. Jakarta: Depdiknas.
Kusaeri, & Suprananto. (2012). Pengukuran dan Penilaian Pendidikan. Yogyakarta: Graha Ilmu.
Mansyur, Rasyid, H., & Suratno. (2019). Asesmen Pembelajaran di Sekolah. Yogyakarta: Pustaka Pelajar.
Mardapi, D. (2008). Teknik Penyusunan Instrumen Tes dan Non Tes. Yogyakarta: Mitra Cendikia Press.
Mardapi, D. (2012). Pengukuran, penilaian, dan evaluasi pendidikan edisi 2. Yogyakarta: Nuha Medika.
Mardapi, D. (2017). Pengukuran, penilaian, dan evaluasi pendidikan. Yogyakarta: Parama Publishing.
Mehrens, W. A., & Lehman, I. J. (1991). Measurement and evaluation in education and psychology. Harcourt Brace Jovanovich. Belmont, CA: Wadsworth/ThomsonLearning.
Miller, P. . (2008). Measurement and teaching. Indiana: Partick W. Miller & Associates.
Pande, S. S., Pande, S. R., Parate, V. R., Nikam, A. P., & Agrekar, S. H. (2013). Correlation between difficulty & discrimination indices of MCQs in formative exam in Physiology. Asian Journal of Medical Education, 7(1), 45–50. Diambil dari http://seajme.md.chula.ac.th/articleVol7No1/OR6_Sushma.pdf
Pawluk, S. A., Shah, K., Minhas, R., Rainkie, D., & Wilby, K. J. (2018). A psychometric analysis of a newly developed summative, multiple choice question assessment adapted from Canada to a Middle Eastern context. Currents in Pharmacy Teaching and Learning, 10(8), 1026–1032. https://doi.org/10.1016/j.cptl.2018.05.003
Purwanto. (2014). Evaluasi Hasil Belajar. Yogyakarta: Pustaka Pelajar.
Quaigrain, K., & Arhin, A. K. (2017). Using reliability and item analysis to evaluate a teacher-developed test in educational measurement and evaluation. Cogent Education, 4(1), 1–11. https://doi.org/10.1080/2331186X.2017.1301013
Retnawati. (2014). Teori Respons Butir dan Penerapannya. Yogyakarta: Parama Publishing.
Reynols, C. ., Livingston, R. B., & Willson, V. (2010). Measurement and Assesment in Education. New Jersey: Pearson Education, Inc.
Rezigalla, A. A., Ibrahim, E. K., & ElHussein, A. B. (2019). item analysis: the impact of distractor efficiency on the discrimination power of multiple choice items. research Square preprint, 1–14. https://doi.org/10.21203/rs.2.15899/v1
Subali, B. (2016). Pengembangan Tes Beserta Penyelidikan Validitas Dan Reliabilitas Secara Empirik. Yogyakarta: UNY Press.
Testa, S., Toscano, A., & Rosato, R. (2018). Distractor efficiency in an item pool for a statistics classroom exam: Assessing its relation with item cognitive level classified according to Bloom’s taxonomy. Frontiers in Psychology, 9(AUG), 1–12. https://doi.org/10.3389/fpsyg.2018.01585
Wood, R., & Skurnik, L. . (1969). Item Banking: A Method for Producing School Based Examination and Nationally Comparable Grades. England: National Foundation For Educational Research.