Франчук, Наталія Петрівна. "Стан та перспективи технологій машинного перекладу тексту". Theory and methods of e-learning 3 (13 лютого 2014): 319–25. http://dx.doi.org/10.55056/e-learn.v3i1.356.
Анотація:
На сьогоднішній день існує багато компаній у всьому світі, що займаються розробкою систем машинного перекладу (СМП), за допомогою яких здійснюється переклад на різні мови світу. Серед них можна виділити такі: SYSTRAN (США, systransoft.com), Langenscheidt (Німеччина, langenscheidt.de), Transparent Language (США, transparent.com), LANGUAGE ENGINEERING CORPORATION (США, lec.com), Translation Experts (США, tranexp.com), Linguatec (Німеччина, linguatec.net), SDL (Великобританія, sdl.com), STAR (Швейцарія, star-group.net), ATRIL (США, atril.com), Alis Technologies (Канада, alis.com).Вивчення джерел щодо комп’ютерних технологій перекладу й опрацювання текстів свідчить, що проблеми перекладу і розпізнавання образів за допомогою машини тісно пов’язані із проблемами штучного інтелекту і кібернетикою. Проблеми створення штучної подібності людського розуму для вирішення складних завдань і моделювання розумової діяльності вивчаються досить давно. Вперше ідею штучного інтелекту висловив Р. Луллій у XIV столітті, коли він намагався створити машину для вирішення різноманітних задач з основ загальної класифікації понять. А у XVIII столітті Г. Лейбніц і Р. Декарт розвили ці ідеї, запропонувавши універсальні мови класифікації всіх наук [1].Ці ідеї лягли в основу теоретичних розробок у галузі створення штучного інтелекту. Проте розвиток штучного інтелекту як наукового напряму став можливим лише після створення електронних обчислювальних машин (ЕОМ). Це сталося у 40-ві роки ХХ століття.Термін «штучний інтелект» був запропонований в 1956 р. на семінарі, присвяченому розробці логічних завдань з аналогічною назвою у Стенфордському університеті. Штучний інтелект – розділ комп’ютерної лінгвістики та інформатики, де розглядаються формалізація проблем та завдань, які нагадують завдання, виконувані людиною. При цьому у більшості випадків алгоритм розв’язування завдання невідомий наперед. Точного визначення цієї науки немає, оскільки у філософії не вирішене питання про природу і статус людського інтелекту. Немає і точного критерію досягнення комп’ютером «розумності», хоча стосовно штучного інтелекту було запропоновано низку гіпотез, наприклад, тест Тьюринга або гіпотеза Ньюела-Саймона [2].Після визначення штучного інтелекту як самостійного розділу науки відбувся його поділ за двома основними напрямками: нейрокібернетика і кібернетика «чорного ящика». Розпізнавання образів – традиційний напрямок штучного інтелекту, близький до машинного навчання і пов’язаний з нейрокібернетикою. Кожному об’єкту відповідає матриця ознак, за якою відбувається його розпізнавання. Машинний переклад належить до кібернетики «чорного ящика», головним принципом якого є принцип, протилежний нейрокібернетиці, а саме: немає значення, як побудований «розумовий» пристрій – головне, щоб на задані вхідні дії він реагував, як людський мозок.Слід зазначити, що сьогодні науковці розглядають штучний інтелект як один з напрямків інформатики, метою якого є розробка апаратно-програмних засобів, за допомогою яких можна користувачу-непрограмісту ставити і вирішувати завдання, що традиційно вважаються інтелектуальними [2].З другої половини 1960-х рр., коли людство вступило в епоху комп’ютерних технологій, використання комп’ютерів звільнило людей від багатьох видів рутинної роботи, будь то трудомісткі обчислення чи пошук необхідних елементів в різних базах даних. При цьому слід мати на увазі, що принципова відмінність комп’ютерних технологій від будь-яких виробничих технологій полягає саме в тому, що в одному випадку технології не можуть бути безупинні, тому що вони поєднують роботу рутинного типу (скажімо, оперативний облік) і роботу творчу, яка не піддається поки що формалізації (прийняття рішень), а в іншому випадку функція виробництва безупинна і відображає строгу послідовність всіх операцій для випуску продукції (конвеєризація процесу).Переклади текстів з однієї мови на іншу можна віднести до рутинної роботи, але тільки частково. Дійсно, з одного боку, в роботі будь-якого перекладача є досить велика кількість елементів формалізму, хоча, з іншого боку, у даний час жоден серйозний переклад не може бути виконаний зовсім формально.Усі переклади можна розділити на технічні і літературні. Межа між ними є дуже «розмитою» (проміжне положення займають, наприклад, переклади ділових листів). Особливістю технічних перекладів є необхідність у першу чергу знати стандарти фахових понять. Специфіка ж літературного перекладу полягає в тому, що потрібно одержати текст, за художньою цінністю максимально близький до оригіналу. Якість виконання з використанням комп’ютера технічних і літературних перекладів у теперішній час зовсім різна: технічні переклади є якісніші, ніж літературні. Останній факт особливо відчутний при перекладі віршованих форм тут використання комп’ютера практично неможливе: його використання поступається поетам-перекладачам.Переклад текстів одна з перших функцій, яку людина спробувала виконати за допомогою комп’ютера. Всього через кілька років після створення перших ЕОМ з’явилися і програми машинного перекладу. Датою народження машинного перекладу як галузі досліджень прийнято вважати 1947 р. Саме тоді У. Уівер [3] (який написав трохи пізніше, у 1949 р., разом із К. Шенноном книгу з основ теорії інформації), написав лист Н. Вінеру, «батькові кібернетики», порівнявши в цьому листі завдання перекладу із завданням дешифрування текстів.Завдання дешифрування до цього часу вже вирішувалися (і небезуспішно) на електромеханічних пристроях. Більше того, перша діюча ЕОМ за назвою Colossus-1, сконструйована в Англії в 1942-43 рр. знаменитим математиком і логіком А. Тьюрінгом, автором теоретичного автомата «машина Тьюрінга», разом з Х. А. Ньюменом, використовувалася під час війни для розшифровування секретних німецьких кодів. Оскільки ЕОМ Colossus-1, як і всі перші обчислювальні машини, конструювалася і використовувалася головним чином для військових цілей, відомості про неї стали відомі набагато пізніше її введення в експлуатацію. У 1944 р. Г. Айкен сконструював обчислювальну машину МАРК-1 на електромеханічних елементах і установив її в Гарвардському університеті. Ця машина також використовувалася для виконання завдань дешифрування. Відзначимо також, що завдання дешифрування доводилося і доводиться нерідко вирішувати не тільки військовим, але також археологам і історикам при спробах прочитати рукописи давніми, забутими мовами [4].Після листа У. Уівера Н. Вінерові відбувся ряд гострих наукових дискусій, потім були виділені гроші на дослідження. Сам Н. Вінер, що вільно розмовляв 13-тьма мовами, довгий час оцінював можливості комп’ютерного перекладу дуже скептично. Він, зокрема, писав: «...що стосується проблеми механічного перекладу, то, відверто кажучи, я боюся, що межі слів у різних мовах занадто розпливчасті, а емоційні й інтернаціональні слова займають занадто велике місце в мові, щоб який-небудь напівмеханічний спосіб перекладу був багатообіцяючим... В даний час механізація мови... уявляється мені передчасною» [5, 152]. Однак, всупереч скепсису Вінера і ряду інших вчених зі світовими іменами, у 1952 р. відбулася перша міжнародна конференція з машинного перекладу. Організатором цієї конференції був відомий ізраїльський математик І. Бар-Хіллел. Він прославився в першу чергу застосуванням ідей і методів математичної логіки в різних напрямках досліджень з теорії множин і основ математики, але видав також ряд робіт із загальної теорії мови, математичної лінгвістики, автоматичного перекладу і теорії визначень (у СРСР була дуже популярна монографія «Основи теорії множин», написана І. Бар-Хіллелом разом з А. А. Френкелом) [3].Незабаром після конференції 1952 р. був досягнутий ряд успіхів у академічних дослідженнях, які, у свою чергу, стимулювали комерційний інтерес до проблеми машинного перекладу. Вже в 1954 р. знаменита фірма IBM разом із Джорджтаунським університетом (США) зуміла показати першу систему, що базується на словнику з 250-ти слів і 6-ти синтаксичних правилах. За допомогою цієї системи забезпечувався переклад 49-ти заздалегідь відібраних речень. Вже до 1958 р. у світі існували програмні системи для машинного перекладу технічних текстів, найдосконаліша з яких була розроблена в СРСР і мала запас 952 слова.В період з 1954 р. по 1964 р. уряд і різні військові відомства США витратили на дослідження в галузі машинного перекладу близько 40 млн. доларів. Однак незабаром «запаморочення від успіхів» змінилося повною зневірою, що доходила практично до повного заперечення здійсненності машинного перекладу. До подібного висновку прийшли на основі звіту, виконаного спеціальним комітетом із прикладної лінгвістики (ALPAC) Національної Академії наук США. У звіті констатувалося, що використання систем автоматичного перекладу не зможе забезпечити прийнятну якість у найближчому майбутньому. Песимізм ALPAC був обумовлений, головним чином, невисоким рівнем розвитку комп’ютерної техніки того часу. Справді, труднощі роботи з перфокартами і величезними комп’ютерами I-го і II-го поколінь (на електронних лампах чи транзисторах) були чималими. Саме з цих причин перші проекти не дали істотних практичних результатів. Однак були виявлені основні проблеми перекладу текстів природною мовою: багатозначність слів і синтаксичних конструкцій, практична неможливість опису семантичної структури світу навіть в обмеженій предметній галузі, відсутність ефективних формальних методів опису лінгвістичних закономірностей [6].До поширення персональних комп’ютерів машинний переклад міг бути швидше цікавим об’єктом наукових досліджень, ніж важливою сферою застосування обчислювальної техніки. Причинами цього були:висока вартість часу роботи ЕОМ (з огляду на той факт, що кожну обчислювальну машину обслуговувала велика група системних програмістів, інженерів, техніків і операторів, для кожної машини було потрібне окреме, спеціально обладнане приміщення і т.п., «комп’ютерний час» був дуже і дуже дорогим);колективне використання ресурсів комп’ютера. Це часто не дозволяло негайно звернутися до електронного помічника, зводячи нанівець найважливішу перевагу машинного перекладу перед звичайним його оперативність.За результатами звіту ALPAC дослідження з комп’ютерного перекладу припинилися на півтора десятка років через відсутність фінансування. Однак у цей же час відбувся якісний стрибок у розвитку обчислювальної техніки за рахунок переходу до технологій інтегральних схем. ЕОМ III-го покоління на інтегральних схемах, що використовувалися у 1960-ті роки, до кінця 1960-х початку 1970-х років стали витіснятися машинами IV-го покоління на великих інтегральних схемах. Нарешті, у 1970 р. М. Е. Хофф (Intel) створив перший мікропроцесор, тобто інтегральну схему, придатну для виконання функції великої ЕОМ. До середини 1970-х років з’явилися перші комерційно розповсюджувані персональні комп’ютери (ПК) на базі 8-розрядних мікропроцесорів фірми Intel. Це була на той час комп’ютерна революція.Саме поява ПК стала сильним додатковим стимулом для вдосконалювання комп’ютерного перекладу (особливо після створення комп’ютерів Apple II у 1977 р. і IBM PC у 1981 р.). Поновленню досліджень з комп’ютерного перекладу сприяло також підвищення рівня розвитку техніки і науки взагалі. Так, у 1970-ті рр. одержала поширення система автоматизованого перекладу SYSTRAN. Протягом 1974-75 рр. система була використана аерокосмічною асоціацією NASA для перекладу документів проекту «Союз-Аполлон». До кінця 1980-х років за допомогою цієї системи перекладали з кількох мов вже близько 100 000 сторінок щорічно. Розвитку комп’ютерного перекладу сприяло ще і зростання інтересу дослідників і проектувальників до проблеми штучного інтелекту (тут явно переважали лінгвістичні аспекти) і комп’ютерного пошуку даних [7].Починаючи з 1980-х рр., коли вартість машинного часу помітно знизилась, а доступ до них можна було одержати в будь-який час, машинний переклад став економічно вигідним. У ці і наступні роки удосконалювання програм дозволило досить точно перекладати багато видів текстів. 1990-ті рр. можна вважати справжньою «епохою Відродження» у розвитку комп’ютерного перекладу, що пов’язано не тільки з широкими можливостями використання ПК і появою нових технічних засобів (у першу чергу сканерів), але і з появою комп’ютерних мереж, зокрема глобальної мережі Internet.Наприклад, створення Європейської Інформаційної Мережі (EURONET DIANA) стимулювало роботи зі створення систем автоматизованого перекладу. У 1982 р. було оголошено про створення європейської програми EUROTRA, метою реалізації якої була розробка системи комп’ютерного перекладу для всіх європейських мов. Спочатку проект оцінювався в 12 млн. доларів США, але вже в 1987 р. фахівці визначили сумарні витрати по цьому проекту більш ніж у 160 млн. доларів [4].Використання глобальної мережі Internet об’єднало мільйони людей, що говорять різними мовами, у єдиний інформаційний простір. Домінує, природно, англійська мова, але: є користувачі, які нею зовсім не володіють чи володіють дуже слабко; існує безліч Web-сторінок, написаних не англійською мовою.Для полегшення перегляду Web-сторінок, описаних незнайомою користувачеві мовою, з’явилися додатки до браузерів, за допомогою яких здійснюється переклад обраних користувачем фрагментів Web-сторінки або всієї Web-сторінки, що переглядається. Для цього досить лише скопіювати частину тексту та вставити його у відповідне поле або «натиснути» на спеціальну кнопку меню. Прикладом такого комп’ютерного перекладача є програмний засіб WebTransSite фірми «Промт», створений на базі програмного засобу Stylus, який можна використовувати в різних браузерах (Netscape Navigator, Internet Explorer, Mozilla Firefox, Opera та ін.) або, наприклад, Google Translate – це сервіс компанії Google, за допомогою якого можна автоматично перекладати слова, фрази та Web-сторінки з однієї мови на іншу. В системі Google використовується власне програмне забезпечення для перекладу на основі статистичного машинного перекладу. З вересня 2008 р. підтримуються й переклади українською мовою. Користувач уводить текст, поданий мовою оригіналу, та вказує мову, якою цей текст потрібно подати.Проблемами машинного перекладу в теперішній час займається ряд відомих компаній, таких як SYSTRAN Software Inc., Logos Corp., Globalink Inc., Alis Technologies Inc., Toshiba Corp., Compu Serve, Fujitsu Corp., TRADOS Inc., Промт та інші. З’явилися також компанії, що спеціалізуються на машинному перекладі, зокрема компанія SAP AG, яка є європейським лідером у розробці програмного забезпечення і протягом багатьох років використовує системи машинного перекладу різних виробників при локалізації своїх програмних продуктів. Існує і служба машинного перекладу при комісії Європейського Союзу (обсяг перекладу в комісії перевищує 2,5 млн. сторінок щорічно; переклади всіх документів виконуються оперативно 11-тьма офіційними мовами, забезпечують їх 1100 перекладачів, 100 лінгвістів, 100 менеджерів і 500 секретарів) [8].Проблемам комп’ютерного перекладу значна увага науковців приділяється в галузі лінгвістики, зокрема в Україні у Київському державному університеті лінгвістики, дуже міцною є лінгвістична школа Санкт-Петербурга та Москви. Не можна не згадати такі праці, як фундаментальна монографія Ф. Джорджа «Основи кібернетики» [5], Дж. Вудера «Science without properties», О. К. Жолковського «О правилах семантического анализа», Ю. М. Марчука «Проблемы машинного перевода», Г. С. Цейтіна, М. І. Откупщикової та ін. «Система анализа текста с процедурным представлением словарной информации» [6] та інші, в яких сформульовані основні принципи і проблеми практичної реалізації машинного перекладу. Ці монографії містять цікавий фактичний матеріал і можуть бути корисні педагогу в побудові курсу лекцій з комп’ютерних технологій перекладу й опрацювання текстів.Протягом багатьох років науковці в галузях лінгвістики, кібернетики, інформатики вели інтенсивні пошуки моделей і алгоритмів людського мислення і розробок програм, але так сталося, що жодна з наук – філософія, психологія, лінгвістика – не в змозі запропонувати такого алгоритму. Таким чином, штучний інтелект як «генератор знань» [9, 139] ще не створений, машинний переклад є частково структурованим завданням, а тому втручання людини в створення досконалих перекладів буде потрібне завжди і її треба, як слід, цього навчати.