Большая история про малые языки

Россия в интернете была многоязычной с самого начала. И дело не только в неизбежном переключении между русским и английским в ранние годы существования сети. Речь именно о языках народов России. Уже в 1990-е в интернете делали сайты на татарском, общались на башкирском, чувашском и других крупных национальных языках.
Сегодня лингвистический ландшафт сети ещё разнообразнее. Языков России в интернете — не меньше 40. Вы можете почитать Википедию на вепсском (хотя у этого языка всего-то три с небольшим тысячи носителей), кулинарные рецепты на луговом марийском (365 тысяч носителей) или паблики с мемами на якутском (450 тысяч носителей).
А если вы не знаете язык, но вам очень нужно прочитать запись в таком паблике, то к вашим услугам — машинный перевод. Например, Яндекс умеет переводить с того же якутского. Ещё из языков России в Яндекс.Переводчике есть, например, татарский, башкирский, удмуртский, чувашский, луговой и горный марийский. Но делать машинный перевод для таких сравнительно небольших языков сложнее, чем для пар «русский — английский» или «русский — немецкий». Приходится изобретать технические хитрости, а ещё — опираться на помощь локальных энтузиастов. Давайте разберёмся, в чём тут сложность и как с ней справляются.

Перейти