Євтєєв, Володимир Миколайович. "Нотатки про комп’ютерне тестування." Theory and methods of e-learning 3 (February 10, 2014): 88–95. http://dx.doi.org/10.55056/e-learn.v3i1.322.
Abstract:
Где лгут и себе и друг другу,и память не служит уму,история ходит по кругуиз крови – по грязи – во тьму.И. Губерман Людину з царини тварин виділила не праця, не розвиток мови і не інші дуже важливі, але все ж другорядні чинники. Головним чинником переможної еволюції людини є накопичення, зберігання і негенетичний спосіб передачі знань про себе і навколишнє середовище. Саме для цього необхідно було розвивати мову, об’єм черепу і прямоходіння, щоб використовувати накопичені знання, тобто працювати. Щоб зрозуміти, як інформаційні технології впливають на суспільний уклад, розглянемо три епохальні винаходи. Десь близько півтори тисяч років до нашої ери почали з’являтись фонетичні алфавіти, які значно спрощували складні писемні технології з використанням ієрогліфів. Все настільки спрощувалось, що засвоїти писемність отримала змогу навіть дитина. Наступний епохальний винахід відбувся приблизно п’ятисотого року вже нашої ери. Це був винахід позиційних систем числення. Наприклад, до цього часу в Європі панувала непозиційна римська система числення, для якої алгоритми арифметичних дій були дуже складні з великою кількістю виключень з правил, тому для того, щоб вміти виконувати арифметичні розрахунки, необхідно було закінчувати університет. І, нарешті, ще через півтори висячи років винайшли персональний комп’ютер. Звичайно обчислювальні пристрої існували і раніше, але з’явились кавоварки, які розмовляють, в’язальні машини і кухонні комбайни, які необхідно програмувати і таке інше. Тепер пересічний громадянин, хоче він того чи ні, повинен засвоювати новий для нього алгоритмічний спосіб мислення так само, як щойно описані винаходи не тільки надавали нові можливості, але й вимагали засвоєння нових вмінь читати, писати і рахувати. Вже давно неписьменна людина є не тільки не бажаною, але й несе в собі певну загрозу суспільству. На жаль, досі не всі зрозуміли, що персональні комп’ютери – це не чергова «друкарська машинка», що це значно серйозніше.Зовнішнє незалежне оцінювання (ЗНО) виникло під гаслами боротьби з корупцією. Корупція в черговий раз перемогла, але ЗНО все ж таки дало корисні результати. Вперше ми отримали більш-менш об’єктивну оцінку стану освіти. Не дивлячись на шалені спроби, не вдалося повністю приховати реальні результати. По-перше, зсув оцінки на 100 балів може справити враження лише на тих, хто геть не розуміє, що таке обчислення. Наприклад, якщо успішність 50%, то додавання 100 балів може перетворити ці бали на 150 і, враховуючи, що тепер максимальна сума балів дорівнює 200, ми отримаємо загальну оцінку 150/200=75%. Кому потрібні подібні числові кульбіти? По-друге, навіщо потрібно натягувати реально виміряний розподіл результатів на геть недоречний в цьому випадку нормальний розподіл. Зрозуміло, що нормальний розподіл виникає, коли середнє значення зумовлене однією причиною, а відхилення від нього випадкові й незалежні. Коли студент шукає відповідь на завдання, він використовує декілька механізмів: просто вгадування, банальну ерудицію (побутовий досвід), знання і навіть помилково сформовані поняття (на жаль, буває і таке). Можливі й композиції наведених механізмів пошуку відповідей. Наприклад, за допомогою власного досвіду відсікається частина запропонованих відповідей і тим самим збільшується ймовірність, а далі йде просте вгадування.Існують два типи тестів, які мають відношення до освіти. Це тести для визначення здібностей і тести на визначення досягнень у навчанні. Перші цікаві більше для наукової діяльності, а використання їх для практичної діяльності, м’яко кажучи, дискусійне. Але тести на досягнення в навчанні мають суто практичне значення. Однак ці типи тестів сильно відрізняються один від одного. По-перше, діапазоном вимірювання. Наприклад, як вказати межі геніальності? А діапазон вимірювання тестів на досягнення завжди обмежений об’ємом навчальної програми. По-друге, на форму закону розподілу результатів вимірювання здібностей повинен впливати лише об’єктивний стан речей, а на форму закону розподілу тестів на досягнення може впливати і завжди впливає технологія (методика) навчання, яка не є об’єктивною причиною. До речі, форма закону розподілу результатів тестування на здібності не зобов’язана бути симетричною, як то прийнято в багатьох досить поширених теоріях тестування. Так, наприклад, якщо можна допустити, що кількість народжуваних із задатками геніїв приблизно однаково з кількістю народжуваних з задатками суперйолопів, то при вимірюванні у зрілому віці цей баланс, напевно, не зберігається. Дійсно, не всі діти з задатками геніальності зможуть розвинути їх в повній мірі. На те є дуже багато причин, при цьому відсоток тих, кому вдалося досягти максимального результату, буде складати значно менше, ніж 50. Те ж саме можна сказати про тих, хто зумів вибратись із дуже неприємних задатків і стати нормальною людиною. Таким чином, врешті решт суперйолопів буде значно більше, ніж геніїв.Оцінка в навчанні грає роль оберненого зв’язку і тому ні в якому разі не можна її спотворювати різними заохочувальними й іншими виховними змістами. Необхідно повернутися до попередньої практики, коли використовувались дві окремі оцінки: оцінка за навчання і оцінка за старанність. На жаль, п’ятибальна система оцінки була спочатку спотворена, а потім взагалі відкинута. Оцінка «задовільно» означала, що учень відтворив 100% навчального матеріалу. Оцінка «добре» відповідала осмисленому використанню знань для практичних завдань. І, нарешті, оцінка «відмінно» виставлялась у разі використання знань у нестандартних (в тих, які не згадувались у процесі навчання) випадках. Оцінка «незадовільно» виставлялась у всіх інших випадках, окрім тих, коли учень не міг або був не здатним, або не хотів навчатись. Для такої ситуації використовували оцінку «дуже погано» з обов’язковим повторним навчанням. Сучасна дванадцятибальна шкільна і, певною мірою, семибальна система вищих навчальних закладів відповідають лише градації сірого, тобто інтервалу від «незадовільно» до «задовільно» п’ятибальної системи. Слід згадати ще одну ваду сучасної системи оцінювання. Це плутанина коду оцінки з кількісною характеристикою. Мова йде про так звану середню оцінку або показник якості навчання. Якщо ми закодуємо числом «1» яблуню, числом «2» – вишню і числом «3» сливу і якщо далі з’ясується, що половина дерев у саду це яблуні, а половина – сливи, ми ж не будемо стверджувати, що у нас гарний вишневий садок? І ще гірше, якщо ми станемо оцінювати якість художнього твору за середнім кодом літер, які використані для його написання.Однією з головних вад комп’ютерного тестування є практична неможливість використати в тесті завдання, що вимагають неформальної перевірки експертом-людиною. Щодо неможливості корегувати завдання під час опитування, то це скоріше є перевагою комп’ютерного тестування, ніж його недоліком. До переваг комп’ютерного тестування слід віднести формальність, тобто незалежність від людського фактору проведення і оцінювання.Зупинимося на труднощах складання завдань для тестування. Перша перепона при розробці завдання – це визначення складності завдання. Добре відомо, що використання часу, необхідного для виконання завдання, не може бути критерієм його складності. Однак і популярний спосіб визначення складності за допомогою пробного тестування теж не витримує критики. Дійсно, якщо студента ретельно тренували бачити повний диференціал, то для нього знаходження деяких інтегралів буде дуже легким завданням, у випадку ж якщо студенту лише повідомляли про повний диференціал, але не тренували його розпізнавати, подібне завдання буде значно складнішим. Можна продовжувати подібні приклади, але і так зрозуміло, що технологія навчання радикальним способом впливає на складність виконання тестових завдань. Оскільки результати тестування мають бути незалежними від методики навчання, то зрозуміло, що використання пробного тестування для оцінки складності завдань не слід використовувати. Комп’ютерний тест – це інструмент для вимірювання. Як і будь-який прилад, він має певний діапазон, у якому він працює достеменно. Це означає, що частину балів студент може набрати, не володіючи знаннями, а просто вгадуючи відповідь. Щоб корегувати оцінку тестування, слід визначити кількість балів, яку студент може набрати, просто вгадуючи, відняти її від отриманої оцінки завдання і при визначенні підсумкової оцінки за тест провести нормування того, що залишилось, на максимальний бал тесту. При складанні завдань належить всіляко зменшувати ймовірність вгадувань. Наприклад, якщо відповідь подається у вигляді числа, то не бажано формулювати завдання у вигляді запитання з переліком можливих варіантів відповіді, а пропонувати студенту ввести число з клавіатури. Бажано відходити від практики використання завдань тільки з однією вірною відповіддю. Студент повинен сам вирішувати, скільки запропонованих відповідей він повинен вибрати: одну, дві, декілька, всі або навіть жодної. При такому підході перевіряються не тільки знання, а й впевненість у них.Рівень освіти знижується. В цьому легко переконатися, запропонувавши студентам завдання, наприклад, з посібників 30-літьої давнини для підготовки абітурієнтів. З багатьох причин необхідно створювати загальний для країни банк тестових завдань. Щоб завдання не старіли, їх треба робити багатоваріантними, тобто варіантів завдання повинно бути так багато, що запам’ятовувати без розуміння кожний з них окремо було б недоцільно. До того ж кожний варіант повинен вирішувати одну й ту саму дидактичну задачу, тобто повинен перевіряти знання конкретного теоретичного положення навчальної програми. Такий банк можна було б використовувати як для підготовки, так і для безпосередньо тестування. При наявності такого банку тестових завдань стане можливим реальне порівняння результатів тестування за різні роки, тоді як зміна завдань кожного року несе велику загрозу зменшення рівня складності. Звісно, таку базу необхідно доповнювати і розширювати на предмет все більшого і якісного охоплення навчального матеріалу. Однак слід дуже ретельно пильнувати і не дозволяти спрощення вимог до складності завдань. Необхідно уніфікувати підсумковий контроль у процесі навчання, і комп’ютерне тестування для цього на часі.Треба щиро сказати, що занепад освіти зумовлений суб’єктивним фактором, а саме недолугим і недалекоглядним керівництвом. Підтвердимо цей висновок наступними тезисами.Перша системна помилка полягає в тому, що замовник, виконавець і приймальник ‑ це одна й та ж установа, а саме МОНмолодьспорту. Якщо виконавця відокремити від замовника, то можна було б конкретніше з’ясувати, яку якість навчання можна вимагати вид виконавця і за яке фінансування. Це дуже непросте з’ясування, бо з одного боку ‑ грошей завжди не вистачає, а з другого ‑ розвиток суспільства напряму залежить від якості освіти.Друга системна вада управління освітою зумовлена недосконалістю теоретичної педагогіки. Наприклад, розглянемо теорію tabula rasa щодо освіти. Офіціальна педагогіка дуже ретельно критикує першу тезу цієї теорії, стверджуючи що «чистих дошок» не існує, але геть не розглядає другу тезу, яка стверджує, що якщо на «дошці» є вільне місце, то там можна написати що завгодно. А чи це так? Ні в кого не виникає заперечень, що процес навчання ‑ це інформаційний процес. Якщо це так, то для інформаційного процесу необхідно мати три структурні одиниці: передавач, канал і приймач. При цьому передавачів і каналів може бути декілька, а приймач один – учень. Саме на ньому відображається результат навчання і саме він є ключовою структурною одиницею в навчанні. Запитайте студента: «Що важливіше: знання чи диплом?». Ви отримаєте цілком обґрунтовану відповідь: «Звичайно ‑ знання, маючи їх завжди можна скласти іспити і отримати диплом». Але ж чому, деякі студенти попри всяку гідність вимолюють неадекватно завищені оцінки? Справа в тому, що крім недосконалостей теорії, існує варварське невігластво керівної ланки. Наприклад, варварський вираз: «Ви не учню ставите негативну оцінку, ви її собі ставите!», або більш хитромудрий: «Якщо студента відраховано з третього курсу, то гроші, які витрачені на його навчання ‑ це нецільове використання коштів». Чому саме платять хабар за вступ до навчального закладу, якщо майбутній студент справжній телепень? Тоді ж треба буде платити за кожний залік, за кожний іспит і кожну контрольну або курсову роботу. А якщо зустрінеться викладач, який не бере хабарів? Дуже довгий і ризикований ланцюжок. Чи не простіше піти і одразу купити диплом? Відповідь на ці запитання проста. Управління освітою відбувається з використанням недолугих і до того ж суперечливих показників. Наприклад, показник успішності, так званий показник якості, геть технологічно необґрунтований показник відношення кількості викладачів до кількості студентів, штучне обмеження кількості стипендіатів, і таке інше. За кожним з цих показників стоїть певна проблема керівної установи. Наприклад, популістський закон підвищення розміру стипендії без підвищення стипендіального фонду. До чого призводить цей суперечливий клубок вимог до керівництва навчального закладу і врешті-решт до викладачів? Негативні оцінки стають винятковим явищем. Тоді, якщо студент веде себе тихо, ходить на заняття, але нічого не вчить, він має свою чергову задовільну оцінку і, «відмотавши» певний строк, отримує диплом. Якби ж можна було перенести хоча б трохи відповідальності за результат навчання на студента, як того вимагає інформаційний характер процесу навчання, і при цьому використати незалежне від людського фактора комп’ютерне тестування, то можливо було б подолати описане ганебне явище.Нарешті, третя системна біда – невтримна вакханалія оптимізації і новаторства. Справа в тому, що оптимізація може бути дуже шкідливою, коли система знаходиться у збудженому нестійкому стані [1] тим, що оптимізаційні дії посилюють нестійкий стан і приводять до катастрофи. Як це не дивно, але діяльність вчителів-«новаторів» може наносити більше шкоди, ніж користі. Інновації можуть бути дуже локально корисними і шкідливими у загальносистемному сенсі. Так, багато століть учнів не спонукали зазубрювати таблицю додавання на кшталт таблиці множення, а замість цього дуже старанно привчали до виконання алгоритму переходу через розряд. Така методика сприяла глибшому розумінню того, як працює позиційна система числення. В наш час все більше вчителів змушують школярів заучувати таблицю додавання, що дійсно прискорює навчання швидкому рахуванню, але повністю знищує розуміння будови позиційної системи числення. Наступний приклад стосується викладання мови. Тенденція полягає в тому, що збільшується навчальний час на написання творів за рахунок навчання робити перекази. В результаті такого підходу учні не вміють писати доповідні, вести лабораторні журнали і взагалі пояснювати щось письмово. Замість цього вони списують з книжок незрозумілий у їхньому віці опис глибинних страждань Лариси Косач.Розглянемо деякі проблеми оптимізації з використання діаграми потенціального рельєфу рівня навчання. На рис. 1 локально стійкі стани мають номери: 1, 3, 5 і 6. Зрозуміло, що освіта може бути ефективною лише в стійких станах. Для того, щоб поліпшити ситуацію, систему треба перевести зі стійкого стану 1 до стійкого стану 3. Будемо збуджувати систему у стані 1 доти, поки система стане здатна сама переходити від збудженого стану 1 до збудженого стану 3 і навпаки. Потім, коли система буде знаходитись у збудженому стані 3, різко увімкнемо гальма, тобто використаємо відповідні стандарти, щоб система «охолола» до стійкого стану 3.Гальма ‑ це незмінний на певний час рівень тестування набутих знань. Якщо потроху знижувати рівень тестів, скажімо для покращення деяких показників, то система сама собою опиниться знов у стані 1. Описаний революційний спосіб оптимізації системи самий простий, однак він не завжди доступний. Наприклад, для переходу від стану 3 достану 5 такий спосіб не підходить. Дійсно, якщо поступово збільшувати збудженість стану 3, ми не досягнемо потрібного рівня і ймовірніше за все опинимося в стані 1. Для того, щоб перевести систему зі стійкого стану 3 до стійкого стану 5, необхідно швидко, протягом однієї чверті періоду коливань системи, збудити систему до необхідного рівня і зробити реформу, тобто змінити «правила гри», і знову увімкнути гальма, але вже на іншому вищому рівні. На рисунку такий перехід позначений штриховою лінією. Тепер зрозуміло, чому так важливо мати дієвий інструмент стабілізації системи. Комп’ютерне тестування, взагалі кажучи, відповідає вимогам для такого інструмента.