avatar

Трудность теста и тестовых заданий

Опубликовал в блог Оценка знаний: наука и практика
0
В предыдущей статье были рассмотрены девять принципов разработки содержания педагогических тестов. В фокусе этой статьи — десятый принцип: возрастающая трудность заданий теста.

Если педагогический тест определить кратко как систему заданий равномерно возрастающей трудности, то станет понятно, что трудность заданий является важнейшим, скажем так, тест образующим показателем. Немало руководителей школ считают, что их учителя в состоянии «придумать» за короткое время могут сколько угодно «тестов». На самом же деле можно придумать довольно много заданий в тестовой форме. А совсем не тесты, а только задания. Их нельзя включать в настоящий тест до тех пор, пока не станет известной мера их трудности, а также и другие характеристики. Мера трудности проверяется эмпирически. Из этого требования становится понятной обязательность предварительной эмпирической проверки каждого задания, до начала тестирования. В процессе проверки многие задания не выдерживают предъявляемых к ним требований, и потому не включаются в тест. Первое требование к тестовым заданиям: в тесте задания должны различаться по уровню трудности, что вытекает из данного ранее определения теста и рассматриваемого принципа.

Внимательный читатель вероятно уже уловил различия в лексике трех как бы «незаметно» введенных здесь основных понятий теории педагогических измерений: понятие педагогического теста, задания в тестовой форме и тестового задания. Требования к первому из них уже было рассмотрено в статье «Определение педагогического теста» (УШ № 30, август 1999г.).

Требования ко второму понятию лучше ввести сейчас, сделав это хотя бы кратко перечислив их, для того чтобы не отвлечься от основной темы статьи. К заданиям в тестовой форме предъявляются следующие требования:
  • краткость;
  • технологичность;
  • правильность формы;
  • правильность содержания
  • логическая форма высказывания;
  • одинаковость правил оценки ответов;
  • наличие определенного места для ответов;
  • одинаковость инструкции для всех испытуемых;
  • правильность расположения элементов задания;
  • адекватность инструкции форме и содержанию задания
Аванесов В.С. Основы педагогической теории измерений // Педагогические Измерения, 1, 2004г. С. 17.

Подробное истолкование этих требований последует в следующих статьях, а сейчас хотелось бы обратить внимание читателя на то, что здесь нет требования известной трудности задания, в то время как к тесту и к тестовому заданию такое требование предъявляется. Из размышления над этим и ранее опубликованным материалом можно сделать два вывода. Первый — что в тесте нет места заданиям с неизвестной мерой трудности. И второй — что не все предлагаемые задания в тестовой форме могут стать тестовыми заданиями: это разные понятия. В первом понятии самыми существенными являются требования содержания и формы. К тестовым же заданиям в первую очередь предъявляется требование известной трудности, то, что явно не требуется у заданий в тестовой форме. Можно повторить, что задания имеют шанс стать тестовыми только после эмпирической проверки меры их трудности, на типичных группах испытуемых.

Показатель трудности теста и тестовых заданий является содержательным и формальным одновременно. Содержательным, потому что в хорошем тесте трудность может зависеть только от трудности содержания заданий и от уровня подготовленности самих испытуемых. В то время как в плохом тесте на результаты начинают заметно влиять форма заданий (особенно если она не адекватна содержанию), плохая организация тестирования, если имеются возможности списывания, утечки информации. Особого упоминания в этой связи заслуживает вредная практика нацеленной подготовки учащихся единому государственному экзамену. Педагогов, занимавшихся таким делом, министр образования России 1907 года И.Толстой называл натаскивателями. Но педагоги виноваты менее всего. Виновата ошибочная система «егирования», которая подталкивает к такой ошибочной практике. Каков контроль, таково и образование.

Формальная составляющая сторона показателя трудности возникает при рассмотрении тестирования как процесса противоборства испытуемого с предлагаемым ему заданием. Получаемый при этом исход полезно рассматривать как результатменно такого противоборства. При упрощенном истолковании каждого случая предъявления задания часто, но совсем ен обязательно рассматриваются два исхода: победа испытуемого при правильном решении задания, где он получает один балл, или поражение, за что даётся ноль баллов. Оценка результата противоборства зависит от соотношения уровня знания тестируемого к уровню трудности задания, от избранной единицы измерения знаний и от заранее принятого правила (конвенции) — что считать «победой» испытуемого, и допустима ли ничья, если говорить языком спорта.

Принцип возрастающей трудности используется при изложении содержания многих учебников и пособий, особенно по тем учебным дисциплинам, которые построены по кумулятивному принципу, что означает: знание последующих элементов курса в явном виде зависит от знания предыдущих учебных элементов. Такое построение присуще учебникам по математике, логике, иностранным языкам, статистике, техническим и многим другим наукам. В них ранее изученные понятия активно используются в последующих темах. Поэтому изучать такие дисциплины нужно только с самого начала, и без пробелов.

Большинство авторов, особенно зарубежных, не делают различий между понятиями «трудность» и «сложность». Многие разработчики тестов — то же. Однако есть работы, в которых эти понятия определяются различно. Например, А.Н.Захаров и А.М.Матюшкин отмечают, что степень трудности учебного задания не совпадает с его сложностью. Степень сложности учебного материала характеризуется реальной (объективной) насыщенностью учебного задания и формой его изложения, а степень трудности всегда предполагает соотнесение подлежащего усвоению учебного материала с ранее усвоенным учебным материалом и интеллектуальными возможностями учащихся (1).

Л.Н. Ланда объяснял трудность учебной задачи тем, что учащиеся часто не знают тех операций, которые надо производить, чтобы найти решение. Если систему операций для решения некоторого класса задач назвать методом решения, то, по его мнению, трудность связана с незнанием метода, с незнанием, как нужно думать в процессе решения, как и в какой последовательности надо действовать с условиями задачи (2). Возникающие затруднения объясняются тем, что педагог часто старается дать знания о содержании изучаемого и значительно меньше заботится о том, как надо думать, рассуждать (там же). Подобное истолкование пересекается с идеей о связи сложности задания с числом операций, которые необходимо совершить для достижения успеха. Эти определения трудности и сложности являются, по большей части, психологическими; они полезны при психологическом анализе содержания тестовых заданий.

Традиционной мерой трудности каждого задания долгие годы была доля правильных ответов в группе испытуемых, изображаемая символом pj, где индекс j указывает на номер интересующего задания (1, 2 и т. д.). Например, если правильные ответы испытуемых на третье задание теста оценивать одним баллом, а неправильные — нулем, то значение показателя p3 можно найти из элементарного отношения:

p3 = R3/N,
где R3 означает число правильных ответов на данное задание, а N — общее число испытуемых в группе. Общая формула расчета доли правильных ответов на любое задание (j) имеет соответственно вид

pj = Rj/ N
Показатель pj. долго использовался в качестве меры трудности в так называемой классической теории тестов (3). Позже была осознана содержащаяся в ней смысловая неточность: ведь увеличение значения pj указывает не на возрастание трудности, а, наоборот, на возрастание легкости, если можно использовать такое слово. Поэтому в последние годы с показателем трудности заданий стали ассоциировать противоположную статистику — долю неправильных ответов (qj). Эта доля вычисляется из отношения числа неправильных ответов (Wj- от англ слова Wrong — неправильный) к числу испытуемых (N):

qj = Wj/ N

Естественным образом принимается, что pj + qj = 1. В классической теории тестов многие годы рассматривались только эмпирические показатели трудности. В новых вариантах психологических и педагогических теорий тестов больше внимание стало уделяться характеру умственной деятельности учащихся в процессе выполнения тестовых заданий различных форм (4).

Содержание теста не может быть только легким, средним или трудным. Здесь в полной мере проявляется известная мысль о зависимости результатов применяемого метода. Легкие задания теста создают только видимость наличия знаний у учащихся, потому что ими проверяются минимальные знания. В этой связи можно заметить, что ориентация федерального органа управления образованием на проверку минимального уровня знаний не дает, и не может, даже по определению, дать представление о реальном уровне знаний, т.е. дать ту информацию, которая давно уже нужна обществу и органам управления. Искажает результаты тестирования и подбор заведомо трудных заданий, в результате чего у большинства школьников оказываются заниженные баллы. Ориентация на трудные задания нередко рассматривается как средство усиления мотивации к учебе. Однако это средство действует неоднозначно. Одних трудные задания могут подтолкнуть к учебе, других — оттолкнуть от нее. Подобная ориентация искажает результаты и в итоге, снижает качество педагогического измерения. Если тест построен строго из заданий возрастающей трудности, то этим открывается путь к созданию одной из самых интересных шкал измерения — шкалы Л. Гутмана.

При определении теста уже отмечалось, что все задания теста, хотелось бы подчеркнуть, независимо от содержания тем, разделов и от учебных дисциплин, располагаются в порядке возрастающей трудности. Распространенная, до недавнего времени, рекомендация включать в тест больше заданий средней трудности, оправдана с точки зрения определения надежности измерения по формулам т.н. классической теории тестов. Существующие в этой теории методы оценки надежности теста дают снижение надежности при включении в тест легких и трудных заданий. В то же время увлечение заданиями одной только средней трудности приводит к серьезной деформации содержания теста: последний теряет способность нормально отображать содержание изучаемой дисциплины, в которой всегда есть легкий и трудный материал. Таким образом, в погоне за абстрактной теоретически высокой надежностью теряется содержательная валидность тестовых результатов. Стремление же поднять валидность результатов теста нередко сопровождается снижением их точности. Этот феномен в теори известен как парадокс теоретика американской психометрики Ф.Лорда

Если тестируется слабая, по подготовленности, группа учащихся, то оказывается, что трудные задания теста просто не работают, потому что ни один учащийся не может правильно на них ответить. Такие задания из дальнейшей обработки данных изымаются. В адаптивных контролирующих системах они не предлагаются. Содержание теста для слабых учащихся будет заметно отличаться от содержания теста для сильных учащихся. У последних, наоборот, не работают легкие задания, так как все знающие испытуемые на легкие задания отвечают правильно. Таким образом, содержание традиционного теста существенным образом варьирует в зависимости от уровня подготовленности тех групп учащихся, на измерение знаний которых нацелен тест.

Оптимальное отображение содержания учебного материала в тестовые задания требуемого уровня трудности предполагает возможность выбора подходящей формы. Содержание теста выражается в одной из четырех основных форм заданий. Это: 1) задания с выбором одного или нескольких правильных ответов из числа предложенных; 2) задания открытой формы, где ответ испытуемый дописывает сам, в отведенном для этого месте; 3) задания на установление соответствия, и 4) задания на установление правильной последовательности действий.

Литература
  1. Захаров А.И., Матюшкин А.М. Проблемы адаптивных систем обучения // Кибернетика и проблемы обучения. — М.: Прогресс, 1970.- 389с.
  2. Ланда Л.Н. Алгоритмизация в обучении. М., Просвещение, 1966
  3. Gulliksen H. Theory of Mental Tests. N — Y. Wiley. 1950 — 486 p. и мн. др.
  4. Tatsuoka, K.K. Item construction and psychometric models appropriate for constructed response. Prinston, N-J, 1993. — 56 pp; Frederiksen, N., Mislevy R.J., Bejar I. J. (Eds). Test theory for a new generations of tests. Lawrence Erlbaum Ass. Publ. 1993, Hillsdale, N-J, 404pp. и др.

Продолжение >>


Автор:


В.С. Аванесов — д.п.н., профессор. Главный редактор научно-методического журнала «Педагогические Измерения»

Опубликовано в газете «Управление школой» № 40, октябрь, 1999г.
0 комментариев RSS
Нет комментариев
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.