Жизнь в ABBYY

Время одиноких гениев прошло

1_5683cd5e7bd15_zahod

Кто же создает технологии ABBYY? Какие они, эти люди? Анатолий Старостин, компьютерный лингвист и музыкант, рассказал Перпетуму (pptm.ru) о том, как совмещать науку и творчество, заставить компьютер «учиться» и приблизить появление искусственного интеллекта.

Много интересных подробностей, фотографии и видео – под катом. Приглашаем в пост!

– Кто такой компьютерный лингвист и чем он отличается от лингвиста обычного?

Как классического лингвиста, так и компьютерного интересует одно и то же явление – естественный язык. Классического лингвиста оно интересует в принципе, он пытается как можно глубже понять и объяснить это явление.

У компьютерных лингвистов интерес к естественному языку обычно более прикладной. Моделируя естественный язык на компьютере, они обычно решают некоторую практическую задачу: машинный перевод, информационный поиск, диалог с компьютером в рамках предметной области и так далее.

Где-то в бесконечности классический и компьютерный лингвисты встречаются, так как первые движутся в сторону все большей формализации их теорий, а вторые учатся эти теории воплощать в виде компьютерных моделей, что позволяет им решать все более сложные практические задачи.

– Для чего сегодня нужна компьютерная лингвистика?

Это очень актуальная наука. Текстов с каждым годом все больше. И я говорю не только про художественные тексты, это еще и патенты, научные статьи, новости, инструкции. Любые алгоритмы и методы, которые позволяют эту информацию обрабатывать автоматически, с каждым годом все ценнее. А компьютерная лингвистика – ключ к таким алгоритмам.

— Расскажите подробнее о своей работе в ABBYY.

В ABBYY я с 2010 года. Я был руководителем группы семантического анализа, моя задача заключалась в создании системы извлечения информации под управлением модели предметной области.

– Что это значит?

Если вкратце, то мы создавали специальный движок, которые извлекал информацию в соответствии с онтологией заказчика. Онтология – это схема предметной области, эдакая картина мира, описывающая то, что мы хотим извлекать из текстов. Для ее представления используется удобный язык OWL. Потом специальные люди (онтоинженеры) пишут на специальном формальном языке правила, с помощью которых движок может извлекать нужную информацию из текстов. Чтобы онтологические правила могли применяться, тексты должны сначала пройти стадию так называемого семантико-синтаксического анализа. Для этого используется лингвистическая технология ABBYY Compreno, разрабатываемая в ABBYY уже много лет.

Строго говоря, движок, который я разрабатываю, тоже является частью Compreno. Compreno применяется не только для извлечения информации. Могу привести в качестве примера наш проект с оцифровкой всего Льва Толстого. Благодаря технологиям распознавания текстов и помощи тысяч волонтеров сегодня в сети можно бесплатно скачать все произведения писателя, включая редкие дневники и письма. Но это не все. После получения электронного текста с помощью Compreno его можно анализировать.

В этом кайф фундаментальных разработок – в некоторый момент у тебя появляется инструмент, с помощью которого ты можешь решать огромное множество задач. Это к вопросу, что многие удивляются, зачем ABBYY потратила столько лет на Compreno.

2_5683d48ad639e_1

– Насколько я понимаю, сейчас вы больше ушли в науку?

Да, год назад мою роль изменили. Сказали, что я хорошо работаю на научном поприще и теперь буду возглавлять группу исследований технологий извлечения информации.

Группа маленькая, нас всего трое: я, онтоинженер и программист. Мы занимаемся машинным обучением и разрабатываем перспективные алгоритмы, связанные с извлечением информации. Машинное обучение – это когда есть некоторые размеченные данные и нужно их «скармливать» компьютеру, чтобы он учился…

– То есть если взять тетрадку и выделить в предложениях подлежащее и сказуемое, как в школе, а затем «скормить» ее компьютеру…

Лучше скормить десять или сто тетрадок. Предварительно решив, что именно компьютер будет видеть в этих тетрадках (буквы, слова, морфологические характеристики слов). Тогда уже в 11-й (101-й) тетрадке компьютер сможет сам понять, где подлежащие, а где сказуемые. В машинном обучении человек сам не учит машину, он лишь придумывает систему признаков, используя которую определенный алгоритм может научиться.

Например, система машинного обучения может с точностью близкой к ста процентам определять по слову его часть речи. В качестве признаков она при этом будет использовать очень простые вещи: слова слева и справа, окончания, большие и маленькие буквы. Другая популярная задача машинного обучения – выделение в текстах упоминаний именованных сущностей (персон, организаций, локаций и т.п.)

Мы в исследовательской группе решаем ее и ставим задачи несколько более сложные. К примеру, пытаемся выделять сущности с атрибутами. То есть не просто заставить машину искать упоминание персон в тексте, а различать где фамилия, а где – отчество. Или выделять отношения между сущностями (это еще сложнее): «продал», «купил», «развелся».

3_5683d520dd837_7

– Есть ли предел у таких исследований? Учить машину ведь можно бесконечно.

Тут все довольно непросто. Если думать про это глубоко, то разумеется путь бесконечный или крайне долгий. И надо представлять, что в конце этого пути. А в конце, видимо, какие-то разумные машины, искусственный интеллект и прочие фантастические вещи, где машины будут использовать естественный язык также эффективно, как человек. Такое будущее кажется мне вполне реальным, но далеким. Я даже не уверен, что только методы компьютерной лингвистики нас туда приведут.

– Можно ли как-то ускорить процесс обучения компьютеров?

Я часто слышу мнение, что мощности компьютеров уже настолько возросли, что сейчас возможны любые прорывы. Но мой личный опыт и кругозор показывают, что для перехода на следующий уровень в задачах, связанных с компьютерной лингвистикой и уже граничащих с искусственным интеллектом, нужны прорывные алгоритмические и архитектурные решения.

4_5683d57077109_5

Все мечты об искусственном интеллекте, который с тобой разговаривает и тебя понимает, упираются в то, что никто не понимает, как составить «техническое задание» по созданию большого искусственного интеллекта. Сейчас мы наблюдаем бульон из кучи простых задач, для которых придумано много интеллектуальных методов, и у нас с разных сторон возникают иллюзии искусственных интеллектов, а как сделать настоящий никто пока не знает.

В этом смысле я рекомендую понаблюдать за тем, что делает математик и программист Стивен Вольфрам, и за его Wolfram Language. Это вот вдаль смотрящая штука.

Wolfram Language – универсальная система программирования, разработанная в 2013 году. Она позволяет работать с базами данных, изображениями, аудио- и видеозаписями. Также с ее помощью можно создавать графики, таблицы и пользовательские интерфейсы любого вида. При этом многие команды в Wolfram Language допустимо выполнять на естественном языке, а код такой команды может занять всего несколько слов.

– Может, нужен гений, эдакий Тьюринг, который сделает открытие? Как было показано в фильме «Игра в имитацию»…

Мне кажется, что время таких энтузиастов, которые вдвоем-втроем делали офигенную систему, постепенно уходит. История с Тьюрингом маловероятна. Многое держится на уже построенных технологиях, а не на гениальности отдельного исследователя. Нет, это хорошо, если такой гений есть. Его нужно обязательно брать и окружать командой. Мне кажется, что в будущем в области искусственного интеллекта будут конкурировать не одинокие гении, а крупные системы. У ABBYY в этом смысле есть шансы.

– А что приблизит нас к созданию искусственного интеллекта?

Искусственный интеллект не может существовать в вакууме, он должен взаимодействовать с реальностью, воспринимать звуки, запахи, тактильные ощущения и, конечно, взаимодействовать с людьми на естественном языке. В будущем произойдет сращивание компьютерной лингвистики и других областей науки (робототехники, компьютерного зрения и т.п.).

Наверное, для того, чтобы это произошло, должен возникнуть очень масштабный научный проект, с большим финансированием, в котором примет участие большое количество исследователей со всего мира. По масштабу проект должен быть сопоставим с проектом создания адронного коллайдера.

5_5683d69a39502_9

– Как попасть в вашу исследовательскую группу? И где сейчас лучше учиться на компьютерного лингвиста?

Я нередко даю задания своим студентам – у ABBYY есть кафедры компьютерной лингвистики в МФТИ и в РГГУ. Туда можно поступить. Кроме того есть Школа анализа данных в Яндексе, там тоже хорошо. Наконец, есть магистратура в Высшей школе экономики, оттуда тоже приходят толковые люди.

– Что они должны уметь?

Они должны уметь программировать, ориентироваться в математике и лингвистике. У них должен быть здравый смысл в голове. И желание что-то делать, чего-то добиться. Современный мир предоставляет молодым людям очень много возможностей «сливать энергию в унитаз». Я предпочитаю работать с людьми, которые умеют сопротивляться этому и хорошо концентрируются на задачах. Глаза должны гореть.

– А вы почему выбрали для себя компьютерную лингвистику?

Трудно сказать. В первую очередь, это, конечно, влияние папы. Папа был особый человек, про него можно отдельную статью писать. Он (Сергей Старостин – прим. Перпетума) по профессии исторический лингвист, реконструировал древние языки. Сам говорил на большом количестве языков, написал много книг.

Когда компьютеры стали доступны он понял, что хочет создавать большую базу данных по всем языкам мира. Поскольку он был человек довольно самоуверенный и не любил просить помощи у кого-то, он решил сам научиться программировать. Еще в конце 80-х он ходил в какую-то лабораторию и осваивал компьютеры. А потом его выпустили в Америку и он привез оттуда первый компьютер. X86, это даже еще не 286.

Программировать он научился быстро и за 15 лет написал свою собственную инструментальную среду Starling, с которой и по сей день работают специалисты по сравнительно-историческому языкознанию. Сейчас папы уже нет в живых и мой старший брат продолжает его дело.

Таким образом, у меня с детства были перед глазами компьютеры и лингвистика. Неудивительно, что случился симбиоз.

Забавно, что лет до 14 я совсем не хотел всем этим заниматься. Бунтовал, играл на гитаре. А потом меня все равно как-то затянуло. Поступил на ВМиК МГУ и в результате подхватил ту часть папиных интересов, в которой он был не профессионал, и попытался стать в ней профессионалом.

6_5683d717930bf_10

– Помимо этого вы еще и музыкант.

Музыкой я увлекаюсь как-то неприлично давно, лет с двенадцати. Это случилось в биологическом походе. Сначала песни бардовские, но бэкграунд был битловский, опять же от папы – он очень любил Beatles. Потом и электрогитара появилась. А дальше начались группы. Всегда музыкальный тандем у нас был с моим другом журналистом Алексеем Яблоковым, с которым мы учились в одной школе.

В РГГУ (я там не учился, просто в гости ездил) мы играли рок-н-ролл и каверы в группе «Механизм прост». Потом студенческий театр МГУ, где у нас уже появилась собственная группа «Граппа». Играли тогда уже свою, немного джазовую музыку.

Потом мы затеяли вместе проект на 10 лет, который назывался ВДНХ. Разработали стиль «корпоративный рок» – это такая музыка, которая предназначена для того, чтобы звучать исключительно на корпоративах. У нас были отличные песни: про нефть, хипстеров, лобстеров, трясогузок. Видимо, слишком много иронии и сарказма там было, почему-то никто нас особенно на корпоративы не приглашал. Вся эта стилистика мне до сих пор симпатична, но по ряду причин группа ВДНХ была закрыта полтора года назад.

Наш новый проект с Алексеем называется «Большое спасибо». Мы с Алексеем в этот раз решили сменить подход: если раньше мы все исполняли сами вместе с друзьями и уровень был любительским, то теперь мы пробуем перейти на следующую ступень. Впервые в жизни мы собрали коллектив профессиональных музыкантов и дали им наш материал. Эта музыка менее стебная, чем проект ВДНХ. Хотя часть песен туда будет вливаться. Посмотрим, что получится.

7_5683d7729aa8e_11

– Сколько времени занимает работа и музыка?

Безусловно, работа в IT –  мое основное дело. В профессиональной музыке я себя целиком никогда не видел. Иногда я думаю – а что, если сейчас проект «Большое спасибо» расправит крылья и полетит, что я буду делать? Ну скорее всего останусь на втором плане, продолжу сочинять тексты и песни. Тут сложно предсказывать, но ясно, что достижениями в области искусственного интеллекта и компьютерной лингвистики я буду гордиться больше чем музыкальными.

– Порыв в науке и в творчестве – разные вещи?

У меня точно разные. В науке –­ может быть поэтому я и не гениальный ученый, а просто ученый – ты работаешь постепенно, медленно. Все растянуто на месяцы, результат накапливается. А в музыке все не так. Тем она мне и нравится, потому что есть ощущение вот этой наживы, мгновенного результата. Живешь себе живешь, приехал куда-то, и что-то такое оп… и возникло. А в науке магии, по моим ощущениям, меньше. Но многие со мой, наверное, поспорят.

Автор материала: Елена Барышева

Фото и видео: Григорий Собченко

Источник: http://pptm.ru/hero/vremya-odinokix-geniev-proshlo