Агентство Лангуст [переход на главную]

06/09/2005 Новый алгоритм изучения языков

Исследователи из университета Корнелла (Cornell University), а также университета Тель-Авива (Tel Aviv University) разработали метод, позволяющий компьютерной программе сканировать текст на любом из определенного количества языков (среди которых английский купить учебники и пособия по английскому языку и китайский купить учебники и пособия по китайскому языку), и автономно, а также безо всякой заранее подготовленной информации, делать выводы о грамматике сканируемого языка. Правила могут быть использованы для генерации новых осмысленных предложений. Данный метод также работает для таких данных, как небольшие музыкальные произведения или цепочки белков.

«Разработанный нами алгоритм - вычислительный метод - для изучения и обработки языка может принимать на входе отрывок текста, извлекать из него коллекцию повторяющихся шаблонов или правил и затем генерировать новый материал», - объясняет Шимон Эделман (Shimon Edelman), один из разработчиков системы, а также профессор в университете Корнелла.

«Впервые алгоритм без всякого стороннего контроля показывает возможность изучать сложный синтаксис, генерируя новые грамматически правильные предложения, а также доказывает свою полезность в других областях, которые требуют исследования структуры, основываясь на необработанных данных, например, в биоинформатике», - говорит Эделман.

В отличие от предыдущих попыток разработки компьютерных алгоритмов для изучения языков, новый метод, называемый Автоматической Дистилляцией Структуры (Automatic Distillation of Structure - ADIOS), успешно распознает сложные шаблоны в необработанном тексте. Данный алгоритм находит шаблоны путем повторяющегося выравнивания предложений и поиска перекрывающихся частей.

К примеру, предложения «Я хочу забронировать билет в первый класс на самолет до Чикаго», «Я хочу забронировать билет в первый класс на самолет до Бостона» и «Не мог бы ты для меня забронировать билет в первый класс, если не трудно» могут дать начало шаблону «забронировать билет в первый класс» купить билеты и забронировать гостиницу - если этот шаблон-кандидат пройдет статистический тест на новизну, который является основой алгоритма.

Если система также столкнется с предложениями «Я хочу забронировать билет на прямой рейс из Нью-Йорка в Тель-Авив» и «Я хочу забронировать билет на экономичный рейс», она может заключить, что фразы «в первый класс», «прямой» и «экономичный» эквивалентны в контексте нового шаблона. «Так как такие наборы эквивалентных слов могут содержать другие шаблоны - а те, в свою очередь, тоже могут включать в себя шаблоны и т.д. - результирующая база знаний растет рекурсивно. Это что-то вроде леса деревьев с ветками-возможностями», - говорит Эделман.

«ADIOS основывается на статистическом методе вычленения шаблонов, а также на структурном обобщении - двух процессах, с которыми связано овладение новым языком. Наши эксперименты показывают, что система способна овладевать сложными структурами из необработанного текста, включая стенограммы разговоров родителей с детьми в возрасте двух или трех лет. В конечном счете, это может помочь исследователям понять, как дети, изучающие язык в похожей манере элемент-за-элементом и с минимумом стороннего контроля над процессом, в конце концов, справляются со всеми сложностями родного языка», - добавил он.

В дополнение анализа разговоров с детьми, алгоритм был протестирован на полном тексте Библии купить христианскую литературу на нескольких языках, на искусственных контекстно-независимых языках с тысячами правил, а также на музыкальных произведениях, записанных нотами. Кроме этого, он применялся для анализа биологических данных, таких как пары нуклеотидов и аминокислотные последовательности. При анализе протеинов, к примеру, алгоритм смог извлечь из аминокислотных последовательностей шаблоны, которые очень сильно коррелировали с функциональными свойствами протеинов.

Новый метод был разработан совместно с Дэвидом Хорном (David Horn) и Эйтаном Раппином (Eytan Ruppin), профессорами физики и вычислительной техники, соответственно в университете Тель-Авива, а также с Заком Соланом (Zach Solan), докторантом, а также ведущим автором данного научного доклада. Их сотрудничество с Эделманом было осуществлено благодаря частичной поддержке со стороны U.S.-Israel Binational Science Foundation.

← Вернуться
хостинг для сайтов © Langust Agency 1999-2024, ссылка на сайт обязательна