Kuramsız Test Olur mu?

Ömer hocamdan aldığım Test ve Ölçek Geliştirme Sürecinde Madde Yapıları dersi kapsamında bazı ödevler hazırlıyorum. Bu ödevleri, hazırladıkça buraya koyayım ki hem sitenin içeriği genişlesin, hem de hatalarımı bularak beni uyarabilecek potansiyel kişi sayısı artsın.

Ölçme, gözlem yapma ve gözlem sonuçlarını diğerleri tarafından da anlaşılır bir şekilde ifade etme işidir. Bir masanın uzunluğunu gözlemleyip, bunu bir metreden uzun – bir metreden kısa; daha uzun – daha kısa ya da 150 cm şeklinde ifade etmek, gözlem sonuçlarımızı diğerlerinin de anlamasına olanak verir. İfade edişimizin kazandığı keskinlik doğrultusunda, ölçme sonuçları üzerinde yapılabilecek istatistiksel işlemler de farklılık göstermektedir.

Fiziksel özellikler için gözlem sonuçları daha duyarlı, daha keskin bir şekilde ifade edilebilirken, psikolojik özellikler için ne yazık ki aynı duyarlılıkta işlem yapmak mümkün değildir. Bunun nedeni ise hem dolaylı ölçme yapılması ve ölçülmek istenilen özelliğin değişken olması hem de ölçmek istenilen psikolojik özelliğin evrensel tanımının çoğu zaman yapılamamasıdır.

Kütle, uzunluk, sıcaklık gibi özelliklerin ölçülmesi için eşit kollu terazi, cetvel, termometre gibi ölçme araçları geliştirilmişken, psikolojik özelliklerin de ölçülmesi için bazı araçların geliştirilmiş olması doğaldır. Bu araçlar arasındaki fark, bir fiziksel özelliğin ölçülmesinde genelde birkaç evrensel ölçme aracı kullanılırken; bir psikolojik özelliğin ölçülmesinde birçok ölçme aracı kullanılabilmektedir.

Herhangi bir tutum nesnesine yönelik tutumu ölçen birbirinden farklı birçok ölçme aracı geliştirilebilir. Bu ölçme araçlarından elde edilen tutum puanları da birbirinden farklı olabilir. Ancak ölçülmek istenilen özellik aynı olduğundan, elde edilen puanlar arasındaki fark; termometre ile ölçülen fahrenhayt ve selsiyus dereceleri arasındaki fark gibidir. Ancak tutum fiziksel bir özellik olmadığı için, fahrenhayt ve selsiyus derecelerini birbirine dönüştürmedeki keskinlik ne yazık ki bu farklı tutum puanlarını birbirine çevirmede mevcut değildir. Bunun yerine, aynı özelliği ölçmek için geliştirilmiş iki farklı ölçme aracından elde edilmiş puanlar arasındaki ilişkiden (korelasyon) bahsedilir.

Peki, psikolojik özellikleri ölçmek için geliştirilen bir araç neye göre geliştirilmelidir?

Psikolojik bir test genellikle aşağıdaki aşamaların takip edilmesiyle geliştirilir (Crocker ve Algina, 1986; Baykul, 2000; Downing ve Haladyna, 2006):

  1. Test puanlarının hangi amaçla kullanılacağının belirlenmesi
  2. Test ile ölçülecek psikolojik özelliğin tanımlanması
  3. Amaca uygun test maddelerinin yazılması
  4. Yazılan maddelerin uzman görüşüne sunulması ve öneriler doğrultusunda düzeltmelerin yapılması
  5. Testin uygulanacağı gruba benzer bir grupta deneme uygulamasının yapılması
  6. Deneme uygulaması sonuçlarına göre nicel ve nitel madde analizlerinin yapılması
  7. Analizler doğrultusunda maddelerin düzeltilmesi, çıkartılması ya da teste madde eklenmesi
  8. Nihai testin oluşturulması, test ve madde istatistiklerinin hesaplanması

Testin standardize edilmesi düşünülüyorsa, test geliştirme aşamaları aşağıdaki gibi devam eder (Urbina, 2004):

  1. Testin uygulanacağı evreni temsil eden bir örneklem seçilmesi ve nihai form bu örneklem üzerinde uygulanması
  2.  Normlar belirlenerek testin detaylı bir el kitabının hazırlanması

Görülebileceği gibi test geliştirme sürecinin birden fazla aşamasında, yazılan maddeler içerisinden bir madde seçimi ya da madde düzeltmesi yapılmaktadır. Bu seçim ve düzeltmeler, uzman ya da deneme grubundaki bireylerin görüşleri dikkate alınarak yapılabileceği gibi test ve madde istatistikleri incelenerek de yapılabilir. Test ve madde istatistikleri ise testin hangi test kuramı ile geliştirildiği ile ilgilidir.

Temelde iki kuramdan bahsetmek mümkündür, bunlardan birincisi Klasik Test Kuramı (KTK), diğeri ise Madde-Tepki Kuramı (MTK)’dır. Bununla birlikte, Jöreskog tarafından KTK’nın altında Konjenerik Test Kuramı (KonTK) geliştirilmiştir (Yurdugül, 2005).

KTK, KonTK ve MTK bağlamında yapılacak madde analizleri, her madde için farklı sonuçlar ortaya koyabilir. Bir kurama göre testte kalması gereken maddenin, bir başka kurama göre testten çıkarılması gerekebilir. Çelen ve Aybek (2012) tarafından yapılan çalışmada, 40 maddeden oluşan öğretmen yapımı bir test, deneme uygulamasının ardından hem KTK hem de MTK’ya göre incelenmiştir. KTK’ya göre yapılan madde analizi sonucunda testten 5 maddenin çıkarılması / düzenlenmesi gerektiği görülürken, MTK’ya göre toplam 14 maddenin testten çıkarılması / düzenlenmesi gerektiği bulunmuştur. Görülebileceği gibi testin geliştirilmesinde seçilen kuram nihai formun yapısını doğrudan etkileyebilmektedir.

Madde seçiminin dışında, testin puanlanması aşamasında da hem nihai formda kalan madde sayısı nedeniyle, hem de puanlamanın farklılaşması nedeniyle testin geliştirildiği kuramın önemi büyüktür. KTK’ya göre yapılan bir puanlamada öğrenci için geçti kararı verilebilirken, MTK’ya göre yapılan puanlamada aynı öğrenci için kaldı kararı verilebilir.

Test geliştirme sürecinde herhangi bir kuramın benimsenmemesi durumunda, teste seçilecek maddeler yalnızca uzman ve deneme uygulamasına katılan birey görüşlerine göre gözden geçirilecektir. Ayrıca böyle bir durumda test geliştirildikten sonra, güvenilirlik kestiriminde madde kovaryansına dayanan yöntemler (Cronbach alfa, KR-20 vb.) yerine birden fazla uygulamaya dayanan yöntemlerin (test-tekrar test, paralel formlar vb.) kullanılması daha uygun olacaktır. Bunun nedeni, madde kovaryansına dayanan yöntemlerin madde güçlüğü gibi değerlerden etkilenmesidir. Madde güçlüğünün hesaplanması ise testin KTK ya da MTK’ya göre geliştirilmesine bağlıdır.

Test kuramı, yalnızca istatistikler sırasında önemli hale gelmez. Klasik test kuramının temel varsayımı olan X = T + E; yani gözlenen puanların, gerçek puan ve hata puanı barındırması varsayımını benimsememek pek mümkün görünmemektedir. Çünkü yalnızca psikolojik değil, fiziksel ölçmelerde bile ölçme sonucu küçük de olsa bir miktar hata barındırmaktadır. Test geliştiricisinin kuramdan kaynaklanan bu durumu göz ardı ettiği düşünülürse, yaptığı tüm ölçmeleri hatasız olarak yaptığını söylemek durumunda kalacaktır. Bu da beraberinde 1.00 güvenilirlik katsayısını getirecektir. Ancak, test-tekrar test ile ölçme sonuçlarının tekrar edilebilirliği sınandığında, ölçme sonuçlarına bir miktar hata karıştığı ortaya çıkacaktır.

Sonuç olarak, test geliştiricisi bir test geliştirmeye karar verdiyse; testini hangi test kuramına göre geliştireceğini belirlemelidir. Testini oluşturacak maddeleri bu kuramlara göre seçip seçmemeye karar vermeli, testinin puanlamasını ve psikometrik özelliklerinin belirlenmesini de buna göre yapmalıdır.

Kaynaklar

Baykul, Y. (2000). Eğitimde ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması. ÖSYM Yayınları: Ankara.

Crocker, L., Algina, J. (1986). Introduction to Classical & Modern Test Theory. Holt, Rinehart and Winston Inc: Orlando, Florida.

Çelen, Ü., Aybek, E.C. (2012). Öğrenci Başarısının Öğretmen Yapımı Bir Testle Klasik Test Kuramı ve Madde Tepki Kuramı Yöntemiyle Elde Edilen Puanlara Göre Karşılaştırılması. 3. Ulusal Eğitimde ve Psikolojide Ölçme ve Değerlendirme Kongresi. 19-21 Eylül 2012. Bolu.

Downing, S., Haladyna, T.M. (2006). Handbook of Test Development. Lawrance Erlbaum Assoc.: Mahwah, New Jersey.

Urbina, S. (2004). Essentials of Psychological Testging. John Wiley & Sons: Hoboken, New Jersey.

Yurdugül, H. (2005). Konjenerik Test Kuramı ve Konjenerik Madde Analizi: Tek Boyutlu Çoktan Seçmeli Testler Üzerine Bir Uygulama. Ankara Üniversitesi Eğitim Bilimleri Fakültesi Dergisi. 38(2). 21-47.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Time limit is exhausted. Please reload CAPTCHA.