Почему трудно быть IT-гуру?

  • Каждые два дня в мире человечество создает столько же новой информации, сколько было создано от начала цивилизации до 2003 года. При этом наибольшая ее часть сохраняется и передается в виде текстов на естественном языке. Скорости и возможности передачи способствует развитие Интернета и появление большого числа технических устройств, поддерживающих естественно-языковые интерфейсы. Мы уже не представляем себе жизни без многоязычного информационного поиска, машинного перевода, распознавания речи и т.д., - того, что так облегчает нашу жизнь с ее бешеным темпом. Однако российские IT-компании, работающие на мировом рынке языковых технологий, все чаще сталкиваются с проблемой нехватки ценных кадров. Талантливые студенты либо занимаются «чистой» наукой, либо уезжают получать дополнительные знания за границу, где потом остаются работать. Тем, кто остается, после вузов требуется дополнительное время на обучение навыкам, необходимым для полноценного участия в реальных проектах по разработке лингвистических технологий. Иными словами, в нашей стране фактически не выпускаются специалисты в этой области, а в мировых научных исследованиях недостаточно представлен русский язык. Executive.ru беседует с Владимиром Селегеем, директором по лингвистическим исследованиям ABBYY и заведующим кафедрами компьютерной лингвистики в Российском государственном гуманитарном университете (РГГУ) и в Московском физико-техническом институте (МФТИ), и с Максимом Кронгаузом, директором Института лингвистики РГГУ, о том, какой спектр проблем, связанный с компьютерной лингвистикой, существует в России? В чем состоит сложность обучить хорошего специалиста? Какие конкурентные преимущества может получить бизнес от развития технологии компьютерной лингвистики? И в каких областях ждать прорыва?

  • Executive.ru: Что подразумевает под собой компьютерная лингвистика?

Vladimir_Selegey.jpgВладимир Селегей: Это область научных исследований и практических разработок, связанная с созданием компьютерных методов и технологий решения различных задач обработки текстов на естественном языке. От относительно простых задач (например, всем уже привычной проверки орфографии) до самых амбициозных задач, требующих от компьютера «понимания» текста.


Krongaus.jpg

Максим Кронгауз: Компьютерная лингвистика понимается очень по-разному. Я бы отметил две ее интерпретации. Одна научная: это решение научных лингвистических задач с помощью компьютера. Вторая – скорее, коммерческая: это программы, моделирующие языковую и коммуникативную деятельность человека, например, перевод, проверка орфографии, распознавание речи и т. д.


Executive.ru: Во сколько вы оцениваете мировой рынок компьютерной лингвистики? Какая доля приходится на Россию?

В.С.: Трудно говорить о едином рынке собственно компьютерно-лингвистических технологий, поскольку они входят в состав разных более крупных технологических комплексов, и сложно оценить их объем независимо. Например, к таковым относятся огромные по объему (в десятки и даже в сотни миллиардов долларов) рынки информационных услуг, информационного поиска, информационной безопасности, делового перевода и локализации и т.д. Можно только уверенно сказать, что с каждым годом объем этого «распределенного» рынка растет, чему способствует растущее влияние Интернета и появление новых и новых технических устройств, важнейшей частью которых являются естественно-языковые интерфейсы.

Что касается вклада России, то он, к сожалению, пока весьма мал и связан, в основном, с деятельностью отдельных успешных на мировых рынках российских компаний, таких как «Яндекс», ABBYYили «Лаборатория Касперского».

Executive.ru: Как вы оцениваете качество российских специалистов по компьютерной лингвистике? Специалист в этой сфере – кто он, гуманитарий или инженер?

В.С.: К сожалению, в России до недавнего времени отсутствовала система подготовки специалистов в области компьютерной лингвистики. Те немногие специалисты мирового уровня, которые имеются в России, стали таковыми не в результате специального обучения в университетах, а в ходе реализации отдельных научных и коммерческих проектов. Не удивительно, что многие талантливые российские студенты продолжают образование в европейских и американских магистратурах по компьютерной лингвистике. Как правило, они получают хорошие предложения по окончании учебы и не возвращаются в Россию.

Это приводит к целому спектру связанных проблем. В России слабо развивается соответствующее научное направление – та самая питательная почва для появления нужных людей и оригинальных продуктивных идей, без которых сложно добиться успеха и российским коммерческим компаниям, работающим в сфере интеллектуальных информационных технологий. В результате лишается адекватной технологической поддержки и русский язык, потерявший статус мирового языка в сфере компьютерных технологий. Решить эти проблемы сегодня можно только соединив усилия вузов, готовых учить студентов компьютерной лингвистике, и коммерческих компаний, в которых работают наиболее опытные специалисты и эксперты в этой области.

Особенность состоит еще и в том, что компьютерная лингвистика, по своей сути, область междисциплинарная: серьезные проекты требуют участия в них как лингвистов, так и инженеров. И те, и другие имеют все основания называться компьютерными лингвистами, но их подготовка базируется на двух совершенно разных системах образования. Поэтому готовить специалистов нужно и в технических, и в гуманитарных вузах. Такое решение было принято в 2012 году в Российском государственном гуманитарном университете и в Московском физико-техническом институте: при поддержке компании ABBYY были одновременно открыты сразу две кафедры компьютерной лингвистики. Программа обучения на кафедрах такова, что позволит лингвистам и инженерам уже во время учебы получить навыки эффективного ведения совместных проектов. Специализация «Компьютерная лингвистика» в РГГУ основывается на базовой дисциплине «Фундаментальная и прикладная лингвистика». Дополнительно к глубокой лингвистической подготовке студенты будут получать знания, необходимые для успешной работы по созданию технологий в области автоматического анализа текста. Специализация «Компьютерная лингвистика» в МФТИ основана на глубоком инженерном образовании. В то же время здесь студенты будут получать необходимые знания по лингвистике, чтобы понимать специфику объекта при создании лингвистических технологий.

М.К.: Оценка качества в данном случае слишком абстрактная вещь. Непонятно, с чем сравнивать и какими критериями руководствоваться. Факт состоит в том, что в России создаются вполне качественные корпуса текстов, программы поиска в интернете, распознавания текста, перевода и т.д. Обычно специалисты по компьютерной лингвистике в России работают с русским языком, и это отчасти затрудняет их отъезд. Возможно, кто-то и уезжает, но это точно не носит массового характера. Для специалистов в этой области много работы, и она прилично оплачивается (в сравнении, скажем, с обычными лингвистами). Сравнивать с ситуацией в других странах не возьмусь.

Я полагаю, что в этой области грань между гуманитарием и инженером размывается. Тем не менее, мы пока говорим о параллельной подготовке гуманитариев в РГГУ и инженеров в МФТИ с дальнейшим их участием в общих проектах.

Executive.ru: В чем сложность обучить хорошего специалиста?

В.С.: Компьютерно-лингвистическое образование, как уже было сказано, это некоторая надстройка над фундаментальным инженерно-математическим и лингвистическим образованием. Успехи отдельных российских компаний демонстрируют, что это фундаментальное образование – очень высокого уровня. Просто необходимые дополнительные знания российские специалисты вынуждены получать не в университетах, а в компаниях. К чему это приводит, уже говорилось выше. Если перенести этот процесс в университеты, российская система образования с ее стремлением к фундаментальности знаний будет давать специалистов, которые будут составлять серьезнейшую конкуренцию на мировой компьютерно-лингвистической сцене.

М.К.: В России пока просто нет такого образования.Мы учим обычных лингвистов со знанием математики и программирования. Компьютерными же лингвистами они становятся, решая соответствующие задачи в различных IT-компаниях. Для нас всегда было важно, что компьютерные компании охотно берут к себе наших выпускников, то есть нашего лингвистического образования достаточно в качестве базы. Теперь же мы открываем магистратуру, то есть вторую образовательную ступень, куда будут поступать, прежде всего, бакалавры-лингвисты. Тут обучение и профессиональная деятельность будут объединены, и учебные дисциплины можно рассматривать как развернутый комментарий к проектной деятельности. Лекторами будут практики, хорошо понимающие, что именно нужно знать сегодня студентам для работы. Это стало возможным только благодаря помощи известных IT-компаний, принявших участие в создании кафедры.

Executive.ru: Самый очевидный способ применения компьютерной лингвистики ― автоматический перевод с одного языка на другой. Подобные сервисы есть у Google, с недавних пор и у российского Yandex. Недавно Apple представила голосового помощника Siri в своем смартфоне. Какие еще конкурентные преимущества может получить бизнес от развития технологии компьютерной лингвистики? В каких областях ждать прорыва?

В.С.: Компьютерная лингвистика создает технологии, применимые в самых разных областях человеческой деятельности, в частности, там, где естественный язык используется как средство коммуникации, хранения информации и знаний. Не будет преувеличением сказать, что естественный язык используется практически везде, от телекоммуникаций до медицины.

Что касается прорыва, то мы ожидаем его в тех областях, где решение задачи требует, чтобы компьютер приблизился к пониманию текста. Помимо уже рассмотренных задач можно упомянуть, например, задачи обучения иностранным языкам, которые сегодня рассматриваются в мире как одни из самых приоритетных. Сегодня можно сказать, что практически достигнут предел качества и надежности в решении задач обработки естественного языка, основанном на простых моделях. Чтобы двигаться вперед, нужно использовать более сложные модели. Это именно тот путь, который выбрали в ABBYY. Система понимания, анализа и перевода текстов на естественных языках ABBYY Compreno, над которой мы работаем, основана именно на идее анализа смысла текстов. Мы рассчитываем, что эта технология позволит решать целый ряд прикладных задач в области интеллектуального многоязычного поиска, классификации документов, перевода, извлечения знаний и т.п. на новом уровне надежности и качества. И чем более сложные модели будут востребованы, тем актуальнее будет задача подготовки высококвалифицированных специалистов, владеющих фундаментальными знаниями в области языка и инженерных технологий, понимающих друг друга и умеющих эффективно взаимодействовать в решении задач анализа естественного языка.

М.К.: Мы постепенно делегируем наши лингвистические способности компьютеру, чтобы он выполнял за нас разного рода работу. Очевидно, что в поиске слов и текстов программы значительно превосходят человека, а, например, в переводе пока уступают ему (если мы говорим о квалифицированном специалисте). Тем не менее, и программы перевода уже сейчас помогают неспециалистам. Одно из важнейших направлений – это моделирование диалоговых способностей. Если раньше компьютер использовался для улучшения или облегчения диалога между людьми (автоматический перевод – хороший пример такого инструмента), то сегодня на первый план выходит диалог человека непосредственно с компьютером. Этот диалог постоянно усложняется. Компьютер учится давать справки, советы, рекомендации и даже просто развлекать человека, что, учитывая неопределенность задачи, особенно трудно. Это, возможно, самое важное направление компьютерной лингвистики.

Фото: freeimages.com


Эта публикация была размещена на предыдущей версии сайта и перенесена на нынешнюю версию. После переноса некоторые элементы публикации могут отражаться некорректно. Если вы заметили погрешности верстки, сообщите, пожалуйста, по адресу correct@e-xecutive.ru
Комментарии
Оставлять комментарии могут только зарегистрированные пользователи
Обсуждение статей
Все комментарии
Новости образования
В Казани стартует классический курс Mini MBA

23 ноября 2018 в Казани стартует обучение по программе Mini MBA. Организатором обучения станет Русская Школа Управления.

МИРБИС запускает интенсивный курс переподготовки руководителей

Курс с акцентом на стратегии и финансах компании, проектами и стажировкой стартует 22 ноября.

WU Executive Academy расширила направления стажировок в странах Азии и Америки

Для студентов Global Executive MBA открыта новая возможность – побывать в рамках международных стажировок в Буэнос-Айресе и Гонконге.

В МИРБИСе стартуют программы МВА в модульном формате обучения

Обучение по программам МВА начнется 12 и 16 ноября. Программы подойдут менеджерам из регионов РФ и стран СНГ.

Дискуссии
Все дискуссии
Цифры и факты
Москва станет велосипедной

Тренд дня: Москва потратит 743,1 млн руб. на развитие велотранспорта.

«Яндекс.Такси» заработает в Израиле

Факт дня: «Яндекс.Такси» будет работать в Израиле под брендом Yango.

«Вкуссвилл» идет в школу

Компания дня: «Вкусвилл» ведет переговоры со школами Москвы об установке вендинговых автоматов.

«Цифра» оцифрует промышленность

Цифра дня: «Дочка» Реновы покупает разработчика промышленного софта за 2 млрд..