СИСТЕМЫ МАШИННОГО ПЕРЕВОДА > Полезные советы
Тысяча полезных мелочей    

СИСТЕМЫ МАШИННОГО ПЕРЕВОДА

СИСТЕМЫ МАШИННОГО ПЕРЕВОДА

Карасев И.В. Артюшина Е.А. Статья в формате PDF 266 KB

Системы машинного перевода (МП) используются для обработки текста, при этом выделяют 2 типа систем: электронные словари и программы-переводчики.

Электронные словари оптимизируют процесс понимания иноязычных слов. Программы-переводчики производят более или менее адекватный перевод иностранных текстов, при этом необходимо участие человека в процессе перевода. По существу, системы МП выдают не перевод, а «подстрочник», который требует дальнейшей литературной обработки, достигающей для художественного текста 100 % всего объема, причем смысл порой полностью изменяется. Для технических текстов существует проблема неоднозначности слов для разных предметных областей.

Идея МП впервые пришла в голову еще в середине 19 века англичанину Чарльзу Бэббиджу, впервые разработавшему проект цифровой аналитической машины. В 1948 году было предложено правило разбиения слова на основу и окончание, которое продолжает активно использоваться современными системами МП.

В СССР работы, связанные с МП начались в 70-е годы под руководством проф. Белоногова.
В 1996 году первая российская система МП получила патент и была зарегистрирована под названием Retrans. В 1991 г. основана российская компания ПРОМТ, которая занимается исследованиями в области прикладной лингвистики, разработки технологий и систем МП для европейских языков.

Основная сложность систем МП состоит в том, что естественные языки плохо поддаются формализации. Сегодня существует 3 подхода к процессу МП: перевод, основанный на правилах; статистический перевод; подход Translation Memory.

Для перевода по правилам используется алгоритм, напоминающий процесс мышления человека, заключающийся в последовательности действий над входным предложением:

- морфологический анализ - поиск частей речи, определение входных словоформ (рода, числа, падежа, спряжения);

- поиск идиом, фразеологизмов для данной предметной области и исключение их из дальнейшего анализа;

- синтаксический анализ - разбор структуры, нахождение члeнов предложения - подлежащего, сказуемого, дополнения, обстоятельства. При этом общепризнанно, что системе МП легче переводить английский текст, так как в нем порядок слов в предложении жестко фиксируется. Русский язык поддерживает свободный порядок слов в предложении, что значительно усложняет процесс его формализации;

- лексический анализ - отделение однозначных входных слов (лексем) от многозначных (имеющих несколько переводных эквивалентов);

- грамматический анализ - доопределение грамматической информации с учетом данных выходного языка;

- синтез выходного предложения (перевода).

Статистический метод МП заключается в анализе колоссального массива параллельных текстов и выборе для перевода наиболее часто совпадающие варианты. Никаких грамматических правил в программу не заложено. На основе такой технологии построен сервис от компании Google - отдельные словосочетания при статистическом переводе получаются более точными и изящными, но грамматика хромает: иногда предложения настолько несогласованны, что невозможно понять их смысл.

Технология Translation Memory использует правила перевода и сравнивает входной документ с текстами из постоянно пополняющейся базы переводов. Находя совпадения, программа предлагает ранее одобренный вариант.

Признавая существующие недостатки производители систем МП подчеркивают, что их программы не ориентированы на создание художественного текста. И заменить человека они не смогут даже в долгосрочной перспективе - пока не будет создан полноценный искусственный интеллект. Но системы МП являются хорошим подспорьем для специалистов различных профилей, нуждающихся в оперативных переводах иноязычной информации.

Список литературы

  1. Соколова С.  Как переводит компьютер. - http://www.promt.ru/company. technology /articles/article_sokolova.php.
  2. Селегeй В. Электронные словари и компьютерная лексикография. - http://www.lingvoda.ru/transforum/articles/selegey_a1.asp.


РОЛЬ ЛИНГВИСТИКИ В РАЗВИТИИ НАУЧНЫХ ЗНАНИЙ

РОЛЬ ЛИНГВИСТИКИ В РАЗВИТИИ НАУЧНЫХ ЗНАНИЙ Статья в формате PDF 135 KB...

05 05 2026 2:52:34

РОЛЬ SE В ТЕЧЕНИИ ЭНДОТОКСИКОЗА ПРИ ГНОЙНО-ВОСПАЛИТЕЛЬНЫХ ЗАБОЛЕВАНИЯХ В ГИНЕКОЛОГИИ

Важнейшим фактором поддержания селенового статуса организма является феномен эндогенного регулирования, который проявляется как в здоровом организме, так и при различных заболеваниях. Клинические исследования гинекологических больных с гнойно-воспалительными заболеваниями позволили установить, что снижение иммунной защиты организма часто сопровождается снижением уровня селена в сыворотке крови. Обследовано 46 больных (18-37 лет). Бактериологическое типирование подтвердило присутствие: Chlamidia trachomonatis; Ureaplasma urealiticum; St. epidermidis; грам (-) флоры; грам (+) флоры; смешанной флоры; E. Colli; дрожжевых клеток; трихомонад. Интервал концентрации селена в сыворотке крови составил 32,0-89,5мкг/л. Средний показатель 64,8 ± 6,3 мкг/л (при норме 115-120 мкг/л). Показатель уровня селена в сыворотке крови доноров г.Пензы составил 81,0 ± 11,7 мкг/л. Была проведена оценка влияния селенодефицита на течение и прогноз эндотоксикоза. Таким образом, авторегулирование антиоксидантного гомеостаза в организме можно рассматривать как функцию иммунитета, а воздействие фармакологических препаратов как один из методов регулирования селенового статуса населения. ...

02 05 2026 23:45:17

ПОВЫШЕНИЕ КПД РЕМЕННЫХ ПЕРЕДАЧ

ПОВЫШЕНИЕ КПД РЕМЕННЫХ ПЕРЕДАЧ Статья в формате PDF 261 KB...

01 05 2026 2:21:27

Локация на основе теории всплесов

Локация на основе теории всплесов Статья в формате PDF 122 KB...

22 04 2026 22:27:23

ЗНАЧЕНИЕ ТВОРЧЕСТВА Р. ГАМЗАТОВА, КАК ВАЖНОЕ СРЕДСТВО ЭСТЕТИЧЕСКОГО ВОСПИТАНИЯ ШКОЛЬНИКОВ

ЗНАЧЕНИЕ ТВОРЧЕСТВА Р. ГАМЗАТОВА, КАК ВАЖНОЕ СРЕДСТВО ЭСТЕТИЧЕСКОГО ВОСПИТАНИЯ ШКОЛЬНИКОВ В статье рассматриваются проблемы эстетического воспитания школьников, какую роль может играть в эстетическом воспитании подрастающего поколения творчество Расула Гамзатова. ...

08 04 2026 0:18:31

Еще:
Поддержать себя -1 :: Поддержать себя -2 :: Поддержать себя -3 :: Поддержать себя -4 :: Поддержать себя -5 :: Поддержать себя -6 :: Поддержать себя -7 :: Поддержать себя -8 :: Поддержать себя -9 :: Поддержать себя -10 :: Поддержать себя -11 :: Поддержать себя -12 :: Поддержать себя -13 :: Поддержать себя -14 :: Поддержать себя -15 :: Поддержать себя -16 :: Поддержать себя -17 :: Поддержать себя -18 :: Поддержать себя -19 :: Поддержать себя -20 :: Поддержать себя -21 :: Поддержать себя -22 :: Поддержать себя -23 :: Поддержать себя -24 :: Поддержать себя -25 :: Поддержать себя -26 :: Поддержать себя -27 :: Поддержать себя -28 :: Поддержать себя -29 :: Поддержать себя -30 :: Поддержать себя -31 :: Поддержать себя -32 :: Поддержать себя -33 :: Поддержать себя -34 :: Поддержать себя -35 :: Поддержать себя -36 :: Поддержать себя -37 :: Поддержать себя -38 ::