Компьютерная филология. Связь лингвистики и информатики. Западные ученые: Йорик Вилкс, Грегори Грефенштетт, Грэвил Корбетт, Джон Кэролл, Диана Маккарти, Луис Маркес, Дан Молдован, Йоаким Нивре, Виктор Раскин, Эдуард Хови

Компьютерные лингвисты занимаются разработкой алгоритмов распознавания текста и звучащей речи, синтезом искусственной речи, созданием систем семантического перевода и самим развитием искусственного интеллекта (в классическом смысле слова - как замена человеческому - он вряд ли когда-нибудь появится, но зато возникнут различные экспертные системы, основанные на анализе данных).

Алгоритмы распознавания речи будут все больше использоваться в быту - у «умных домов» и электронных приборов не будет пультов и кнопок, а вместо них будет использоваться голосовой интерфейс. Эта технология оттачивается, но вызовов еще много: компьютеру сложно распознать человеческую речь, потому что разные люди говорят очень по-разному. Поэтому, как правило, системы распознавания работают хорошо либо когда они натренированы на одного диктора и уже подстроены под его особенности произношения, либо когда количество фраз, которые может распознать система, ограничено (как, к примеру, в голосовых командах для телевизора).

У специалистов по созданию программ семантического перевода впереди еще много работы: на данный момент неплохие алгоритмы разработаны только для перевода на английский и с английского. Тут много проблем - разные языки по-разному устроены в семантическом плане, это различается даже на уровне построения фраз, и не все смыслы одного языка можно передать с помощью семантического аппарата другого. Кроме того, программа должна различать омонимы, правильно распознавать части речи, выбрать правильное значение многозначного слова, подходящее к контексту.

Синтез искусственной речи (например, для домашних роботов) - тоже кропотливая работа. Сложно сделать так, чтобы искусственно созданная речь звучала естественно для человеческого уха, ведь есть миллионы нюансов, на которые мы не обращаем внимания, но без которых все уже не «то» - фальстарты, паузы, заминки и т.д. Речевой поток непрерывен и одновременно дискретен: мы говорим, не делая паузы между словами, но нам нетрудно понять, где заканчивается одно слово и начинается другое, а для машины это будет большая проблема.

Самое большое направление в компьютерной лингвистике связано с Big Data. Ведь существуют огромные корпуса текстов типа новостных лент, из которых нужно вычленять определенную информацию - например, выделять инфоповоды или затачивать RSS под вкусы определенного пользователя. Такие технологии есть уже cейчас и будет развиваться дальше, потому что вычислительные мощности стремительно растут. Лингвистический анализ текстов используется и при обеспечении безопасности в интернете, поиске необходимой информации для спецслужб.

Где учиться на компьютерного лингвиста? У нас, к сожалению, довольно сильно разделены специальности, связанные с классической лингвистикой, и программирование, статистика, анализ данных. А для того, чтобы стать цифровым лингвистом, нужно разбираться и в том, и в другом. В зарубежных вузах есть программы высшего образования по компьютерной лингвистике, а у нас пока оптимальный вариант - получить базовое лингвистическое образование, а потом освоить основы IT. Хорошо, что сейчас есть много разных онлайн-курсов, к сожалению, в мои студенческие годы такого не было. Я училась на факультете прикладной лингвистике в МГЛУ, где у нас были курсы по искусственному интеллекту и распознаванию устной речи - но все-таки в недостаточном объеме. Сейчас IT-компании активно пытаются взаимодействовать с институтами. Мы с коллегами из «Лаборатории Касперского» тоже стараемся участвовать в образовательном процессе: читаем лекции, проводим студенческие конференции, даем гранты аспирантам. Но пока инициатива больше исходит от работодателей, чем от университетов.

Современная компьютерная лингвистика очень во многом ориентирована на использование математических моделей. Есть даже расхожее мнение, что лингвисты не особенно нужны для автоматического моделирования естественного языка. Известно крылатое выражение Фредерика Елинека , руководителя центра распознавания речи университета Джона Хопкинса: "Anytime a linguist leaves the group, the recognition rate goes up" - каждый раз, когда лингвист покидает рабочую группу, качество распознавания повышается.

Однако, чем более сложные и многоуровневые задачи лингвистического моделирования ставятся перед разработчиками автоматических систем, тем очевидней становится, что их решение невозможно без учета лингвистической теории, понимания того, как функционирует язык, лингвистической экспертной компетенции. В то же время, стало очевидно, что автоматические методы анализа и моделирования языковых данных могут существенно обогатить теоретические лингвистические исследования, являясь и средством для сбора языковых данных и инструментом проверки состоятельности той или иной лингвистической гипотезы.

Форум по оценке систем автоматической обработки текста

С.Ю.Толдова, О.Н. Ляшевская, А.А. Бонч-Осмоловская

Как формализовать лексическое значение, сделать его "машиночитаемым"? Ответ на это дают дистрибуционные модели языка, в которых значение слова есть сумма его контекстов в достаточно большом корпусе. Искусственные нейронные сети позволяют быстро и качественно обучать такие модели.

Денис Кирьянов, Таня Панова (научный руководитель Б.В. Орехов)

У этой программы есть две функции: а) нормализация текста на идише, б) транслитерация из квадратного письма в латиницу. Эти проблемы очень актуальны: до настоящего момента не существовало ни одного нормализатора, если не считать таковыми спелл-чекеры. Меж тем, практически каждое издательство, выпускавшее книги на идише, следовало своей орфографической практике. Нормализатор необходим для работы над корпусом языка идиш: для сведения всех текстов к единой орфографии, распознаваемой парсером. Транслитерация позволит работать с материалом идиша и типологам.

ВИДЕО сотрудников Школы лингвистики:

По выбору; 3-й курс, 2, 3 модуль

Обязательный; 1-й курс, 2 модуль

По выбору; 3-й курс, 3 модуль

Обязательный; 4-й курс, 1-3 модуль

Обязательный; 4-й курс, 2 модуль

Обязательный; 2-й курс, 1, 2, 4 модуль

Введение

Что такое компьютерная лингвистика?

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА , направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

Задачи

Компьютерная лингвистика берет на себя собственно лингвистические проблемы компьютерного моделирования языковой деятельности. Ее задачи – построение более точных и более полных лингвистических моделей и более совершенных алгоритмов анализа и синтеза.

В качестве основных направлений можно выделить:

1) Взаимодействие человека и ЭВМ: управление – языки программирования, передача информации – интерфейс.

2) Работа с текстами: индексирование, анализ и классификация, автоматическое редактирование (исправление ошибок), выявление знаний, машинный перевод.

История

Простое порождение подмножества английского языка для обращения к базам данных было обеспечено одной из ранних американских систем LIFER (Languagе Interface Facility wich Elipsis and Recursion), созданной в 70-е годы. Вслед за ней на компьютерном рынке появились и другие, более гибкие системы, обеспечивающие ограниченный естественно-языковой интерфейс с ЭВМ.

В 80-е годы в США образовался ряд компаний, занимающихся разработкой и продажей естественно-языковых интерфейсов с базами данных, экспертными системами. В 1985г. Корпорация "Семантек" представила такой пакет программ Q&A, компания "Карнеги Группа" предложила аналогичный пакет LanguageCraft.

Ведутся активные работы по созданию систем автоматического перевода. Получила распространение система автоматического перевода SYSTRAN, разработанная под руководством Д. Тома по заказу военно-воздушных сил США. В течение 1974 - 1975 гг. система была использована аэрокосмической ассоциацией NASA для перевода документов по проекту Аполлон-Союз. В наше время она переводит с нескольких языков около 100 000 страниц ежегодно.

В Европе работы по созданию компьютерных систем перевода стимулировались образованием Европейской информационной Сети (EURONET DIANA). В 1982 г. Европейское экономическое сообщество объявило о создании европейской программы EUROTRA, цель которой – разработка системы компьютерного перевода для всех европейских языков. Первоначально проект оценивался в 12 млн долларов, в 1987 г. специалисты определили суммарные расходы по этому проекту более чем в 160 млн долларов.

В Японии исследования по компьютерной лингвистике концентрируются вокруг общенациональной программы создания компьютеров пятого поколения, объявленной в 1981 г.

Существует ряд военных проектов создания человеко-машинных интерфейсов на естественном языке. В США они ведутся в основном в рамках стратегической компьютерной инициативы - десятилетней программы, принятой министерством обороны в 1983 г. Цель ее - создание нового поколения "интеллектуальных" оружия и военных систем с целью обеспечить многолетнее технологическое превосходство США.

Естественно, что специалисты по искусственному интеллекту, прекрасно разбирающиеся в компьютерах и языках программирования, энергично принялись за решение проблемы понимания языка своими методами. Шел поиск алгоритмов естественного языка. Были созданы сложные программы понимания языка для очень узких специальных областей, реализованы программы частичного машинного перевода и ряд других. Но решающего продвижения в решении проблемы понимания языка так и не было. Язык и человек настолько связаны, что ученым пришлось заняться проблемой понимания мира человеком. А это уже область философии.

Базовые понятия лингвистики


1. Деятельность по формализации знаний о естественном языке на разных его уровнях с целью использования в компьютерных технологиях. 2. Область знаний, решающая проблемы общения человека и компьютера на естественном языке. 3. Широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях.


Искусственный интеллект – направление информатики, целью которого является разработка компьютерных систем, способных выполнять функции, традиционно считающиеся интеллектуальными, - понимание естественного языка, логический вывод, использование накопленных знаний, обучение, планирование действий и др.






3. Построение алгоритмов лингвистического анализа – разработка алгоритмов анализа естественно - языковых текстов на всех языковых уровнях: фонемном, морфемном, морфологическом, синтаксическом, прагматическом. Построение синтаксического дерева зависимостей (проект Автоматическая Обработка Текста)


4. Корпусная лингвистика – занимается разработкой, созданием и использованием текстовых (лингвистических) корпусов. Главная страница сайта Национального корпуса русского языка


5. Машинный перевод - направление научных исследований, связанных с построением автоматических систем перевода текстов с одного естественного языка на другой. Главная страница сайта Google- переводчик


6. Автоматическое реферирование – создание программ сжатого представления естественно - языковых текстов. Сервис построения реферата на сайте Визуальный мир


7. Полнотекстовый информационный поиск – разработка информационно - поисковых систем с лингвистическим анализом текстов информационного массива и запроса пользователя. Главная страница информационно - поисковой системы Яндекс











Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика , англ. computational linguistics ) - научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта , которое ставит своей целью использование математических моделей для описания естественных языков .

Компьютерная лингвистика частично пересекается с обработкой естественных языков . Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.

Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.

Истоки

Математическая лингвистика является ветвью науки искусственного интеллекта . Её история началась в Соединённых Штатах Америки в 1950-х годах. С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом , особенно русских научных журналов. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор сильно уступает качеству перевода, произведённого человеком.

С 15 по 21 мая 1958 года в I МГПИИЯ состоялась первая Всесоюзная конференция по машинному переводу. Оргкомитет возглавляли В. Ю. Розенцвейг и ответственный секретарь Оргкомитета Г. В. Чернов . Полностью программа конференции опубликована в сборнике «Машинный перевод и прикладная лингвистика», вып. 1, 1959 г. (он же «Бюллетень Объединения по машинному переводу № 8»). Как вспоминает В. Ю. Розенцвейг , опубликованный сборник тезисов конференции попал в США и произвел там большое впечатление.

В апреле 1959 года в Ленинграде состоялось I Всесоюзное совещание по математической лингвистике, созванное Ленинградским университетом и комитетом прикладной лингвистики. Главным организатором Совещания был Н. Д. Андреев . В Совещании приняли участие ряд видных математиков, в частности, С. Л. Соболев , Л. В. Канторович (впоследствии - Нобелевский лауреат) и А. А. Марков (последние двое выступали в прениях). В. Ю. Розенцвейг выступил в день открытия Совещания с программным докладом «Общая лингвистическая теория перевода и математическая лингвистика».

Направления компьютерной лингвистики

  • Обработка естественного языка (англ. natural language processing ; синтаксический, морфологический, семантический анализы текста). Сюда включают также:
  1. Корпусная лингвистика , создание и использование электронных корпусов текстов
  2. Создание электронных словарей , тезаурусов , онтологий . Например, Lingvo . Словари используют, например, для автоматического перевода, проверки орфографии.
  3. Автоматический перевод текстов. Среди русских переводчиков популярным является Промт . Среди бесплатных известен переводчик Google Translate
  4. Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact extraction, text mining )
  5. Автореферирование (англ. automatic text summarization ). Эта функция включена, например, в Microsoft Word .
  6. Построение систем управления знаниями . См. Экспертные системы
  7. Создание вопросно-ответных систем (англ. question answering systems ).
  • Оптическое распознавание символов (англ. OCR ). Например, программа FineReader
  • Автоматическое распознавание речи (англ. ASR ). Есть платное и бесплатное ПО
  • Автоматический синтез речи

Крупные ассоциации и конференции

Учебные программы в России

См. также

Напишите отзыв о статье "Компьютерная лингвистика"

Примечания

Ссылки

  • (реферат)
  • - база знаний по лингвистическим ресурсам для русского языка
  • - открытые исходники некоторых утилит компьютерной лингвистики
  • - онлайн доступ к программам компьютерной лингвистики

Отрывок, характеризующий Компьютерная лингвистика

– Возьми, возьми ребенка, – проговорил Пьер, подавая девочку и повелительно и поспешно обращаясь к бабе. – Ты отдай им, отдай! – закричал он почти на бабу, сажая закричавшую девочку на землю, и опять оглянулся на французов и на армянское семейство. Старик уже сидел босой. Маленький француз снял с него последний сапог и похлопывал сапогами один о другой. Старик, всхлипывая, говорил что то, но Пьер только мельком видел это; все внимание его было обращено на француза в капоте, который в это время, медлительно раскачиваясь, подвинулся к молодой женщине и, вынув руки из карманов, взялся за ее шею.
Красавица армянка продолжала сидеть в том же неподвижном положении, с опущенными длинными ресницами, и как будто не видала и не чувствовала того, что делал с нею солдат.
Пока Пьер пробежал те несколько шагов, которые отделяли его от французов, длинный мародер в капоте уж рвал с шеи армянки ожерелье, которое было на ней, и молодая женщина, хватаясь руками за шею, кричала пронзительным голосом.
– Laissez cette femme! [Оставьте эту женщину!] – бешеным голосом прохрипел Пьер, схватывая длинного, сутоловатого солдата за плечи и отбрасывая его. Солдат упал, приподнялся и побежал прочь. Но товарищ его, бросив сапоги, вынул тесак и грозно надвинулся на Пьера.
– Voyons, pas de betises! [Ну, ну! Не дури!] – крикнул он.
Пьер был в том восторге бешенства, в котором он ничего не помнил и в котором силы его удесятерялись. Он бросился на босого француза и, прежде чем тот успел вынуть свой тесак, уже сбил его с ног и молотил по нем кулаками. Послышался одобрительный крик окружавшей толпы, в то же время из за угла показался конный разъезд французских уланов. Уланы рысью подъехали к Пьеру и французу и окружили их. Пьер ничего не помнил из того, что было дальше. Он помнил, что он бил кого то, его били и что под конец он почувствовал, что руки его связаны, что толпа французских солдат стоит вокруг него и обыскивает его платье.
– Il a un poignard, lieutenant, [Поручик, у него кинжал,] – были первые слова, которые понял Пьер.
– Ah, une arme! [А, оружие!] – сказал офицер и обратился к босому солдату, который был взят с Пьером.
– C"est bon, vous direz tout cela au conseil de guerre, [Хорошо, хорошо, на суде все расскажешь,] – сказал офицер. И вслед за тем повернулся к Пьеру: – Parlez vous francais vous? [Говоришь ли по французски?]
Пьер оглядывался вокруг себя налившимися кровью глазами и не отвечал. Вероятно, лицо его показалось очень страшно, потому что офицер что то шепотом сказал, и еще четыре улана отделились от команды и стали по обеим сторонам Пьера.
– Parlez vous francais? – повторил ему вопрос офицер, держась вдали от него. – Faites venir l"interprete. [Позовите переводчика.] – Из за рядов выехал маленький человечек в штатском русском платье. Пьер по одеянию и говору его тотчас же узнал в нем француза одного из московских магазинов.
– Il n"a pas l"air d"un homme du peuple, [Он не похож на простолюдина,] – сказал переводчик, оглядев Пьера.
– Oh, oh! ca m"a bien l"air d"un des incendiaires, – смазал офицер. – Demandez lui ce qu"il est? [О, о! он очень похож на поджигателя. Спросите его, кто он?] – прибавил он.
– Ти кто? – спросил переводчик. – Ти должно отвечать начальство, – сказал он.
– Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Я не скажу вам, кто я. Я ваш пленный. Уводите меня,] – вдруг по французски сказал Пьер.
– Ah, Ah! – проговорил офицер, нахмурившись. – Marchons!
Около улан собралась толпа. Ближе всех к Пьеру стояла рябая баба с девочкою; когда объезд тронулся, она подвинулась вперед.
– Куда же это ведут тебя, голубчик ты мой? – сказала она. – Девочку то, девочку то куда я дену, коли она не ихняя! – говорила баба.
– Qu"est ce qu"elle veut cette femme? [Чего ей нужно?] – спросил офицер.
Пьер был как пьяный. Восторженное состояние его еще усилилось при виде девочки, которую он спас.
– Ce qu"elle dit? – проговорил он. – Elle m"apporte ma fille que je viens de sauver des flammes, – проговорил он. – Adieu! [Чего ей нужно? Она несет дочь мою, которую я спас из огня. Прощай!] – и он, сам не зная, как вырвалась у него эта бесцельная ложь, решительным, торжественным шагом пошел между французами.
Разъезд французов был один из тех, которые были посланы по распоряжению Дюронеля по разным улицам Москвы для пресечения мародерства и в особенности для поимки поджигателей, которые, по общему, в тот день проявившемуся, мнению у французов высших чинов, были причиною пожаров. Объехав несколько улиц, разъезд забрал еще человек пять подозрительных русских, одного лавочника, двух семинаристов, мужика и дворового человека и нескольких мародеров. Но из всех подозрительных людей подозрительнее всех казался Пьер. Когда их всех привели на ночлег в большой дом на Зубовском валу, в котором была учреждена гауптвахта, то Пьера под строгим караулом поместили отдельно.

В Петербурге в это время в высших кругах, с большим жаром чем когда нибудь, шла сложная борьба партий Румянцева, французов, Марии Феодоровны, цесаревича и других, заглушаемая, как всегда, трубением придворных трутней. Но спокойная, роскошная, озабоченная только призраками, отражениями жизни, петербургская жизнь шла по старому; и из за хода этой жизни надо было делать большие усилия, чтобы сознавать опасность и то трудное положение, в котором находился русский народ. Те же были выходы, балы, тот же французский театр, те же интересы дворов, те же интересы службы и интриги. Только в самых высших кругах делались усилия для того, чтобы напоминать трудность настоящего положения. Рассказывалось шепотом о том, как противоположно одна другой поступили, в столь трудных обстоятельствах, обе императрицы. Императрица Мария Феодоровна, озабоченная благосостоянием подведомственных ей богоугодных и воспитательных учреждений, сделала распоряжение об отправке всех институтов в Казань, и вещи этих заведений уже были уложены. Императрица же Елизавета Алексеевна на вопрос о том, какие ей угодно сделать распоряжения, с свойственным ей русским патриотизмом изволила ответить, что о государственных учреждениях она не может делать распоряжений, так как это касается государя; о том же, что лично зависит от нее, она изволила сказать, что она последняя выедет из Петербурга.