NLTK и Python для работы с текстами

Наталья Карлова-Бурбонусnatali.karlova-bourbonus@zmi.uni-giessen.de

Университет имени Юстуса Либиха (г. Гиссен, Германия)

NLTK и Python

Natural Language Toolkit (NLTK) это open source библиотека методов для машинной обработки естественного языка

Методы написаны в Python Разработчики Steven Bird (University of Melbourne),

Edward Loper (University of Pennsylvania), Ewan Klein (University of Edinburgh)

Доступна подробная документация и онлайн-книга– Он-лайн-книга для NLTK 3 (Python 3)– Он-лайн-книга для NLTK 2 (Python 2)

Библиотека NLTK постоянно пополняется новыми методами – большая community

Задачи, которые позволяет решить NLTK

Методы для вычисления базовой статистики текста Работа с корпусами и лексикографическими

ресурсами Обработка естественного языка (токенизация,

лемматизация, стемминг, pos-tagging, parsing) Классификация Машинный перевод Работа с XML-документами Представление знаний и др.

Помощь при работе с NLTK

>>>help(nltk.FreqDist) Web-страница NLTK (примеры скриптов, обучающие

тексты и т.д.) Документация и книги: http://nltk.org/index.php/ Многочисленные форумы, напр.

http://stackoverflow.com/ (англ. и нем.)

Оценка NLTK

Проста в использовании. NLTK отличная библиотека для работы с английским языком.

Неплохо подходит для работы и с другими языками, письменность которых основана на латинском алфавите. Но из-за специальных символов (напр., ü, ä, ö, ß в немецком) проблема/путаница с кодировкой. Эта проблема частично решена в Python 3 и NLTK 3.

Насколько подходит для работы с русским и белорусским языками? a. Доступен модуль pymorphy2 для морф. анализа русского языка. b. Нехватка или отсутствие качественных лекс. Ресурсов (искл. Russian WordNet). c. Специально для работы с русским языком в данное время готовится перевод книги Steven Bird.

Основы работы с NLTK

Интерактивный модуль Скриптовый модуль:

– Python Shell File New Window– Запуск кода возможен и после сохранения– Код может быть исправлен и изменен

Токенизация/Сегментация (1)

Деление текста на отдельные единицы (предложения, слова)

Токенизация/Сегментация (2)

Списки конкорданс

Слово в контексте

Token vs. type

Token (слово) vs. Type (слово как вид) Nota Bene: знаки препинания, лемматизация

Лемматизация

Процесс приведения словоформы к лемме

Изменение строки символов

Условия

POS-tagging

Автоматическое определение частей речи

Работа с частотой слов (1)

Lexical richness (словарное богатство): отношение общего числа tokens к общему числу types в тексте

Слова + частота их употребления в тексте

Слова, которые отвечают определенному условию + частота их употребления

Упражнение 1 (1)

Работайте с текстом text6, который сохранен в модуле book*. text6 является типом list (список).

Найдите 10 слов, которые чаще всего встречаются в тексте (исключите stopwords* и знаки препинания). Не забудьте про лемматизацию.

Для самого частого слова в тексте выдайте его контекст.

Упражнение 1(2)

Работа с корпусом (1)

Готовые корпуса– Brown Corpus– Gutenberg Corpus– Reuters Corpus– Annotated Text Corpora– И др.

Собственный корпус– Документы с расширением .txt

Доступ к документам

Документ на компьютере

Web-документ

Упражнение 2

Работайте с корпусом news (Workshops_DataNLTK). Сколько предложений в этом корпусе? Сколько tokens и types в этом корпусе (не забудьте

про предварительную лемматизацию). Определите, с каким словом слово «president» чаще

всего употребляется в корпусе.

Источники и ссылки

Bird, Steven et al. (2009). Natural Language Processing with Python. Analyzing Text with the Natural Language Toolkit. O´Reilly Media. Онлайн-книга: http://nltk.org/book/

NLTK и Python для работы с текстами

Software

Общий механизм работы с Forecast NOW!

Программа аспирантуры ИКТnew.asou-mo.ru/sveden/files/programma_KIM_13.00.08_… · Web viewВыполнение работы с надстройкой «Анализ

Настройка Tidal Windows Desktop для работы с Truesound …

Основы работы с Adobe InDesign: текст и графика

Настройка XSplit Broadcaster для работы с сервисом …facecast.net/manuals/xsplit_broadcaster.pdfНастройка XSplit Broadcaster для работы

Management of Unsolvable Problems. Правила работы с "нерешаемыми проблемами"

Часть 1. Основы работы в Windows 7 Знакомство … 1...Часть 1. Основы работы в Windows 7 Знакомство с персональным

Скрылина С Н Самоучитель работы на Macintosh БХВstatic.ozone.ru/multimedia/book_file/1005473260.pdf · С45 Самоучитель работы на

System i Основы работы с системой · 2017-06-19 · и обменивается ли оно данными с системой. Устройство может

Основы работы с Google Analytics и Universal Analytics

СХЕМА СОЕДИНЕНИЙ 2011 · Работы с системами srs/sips-bag/ic либо с другими компонентами автомобиля, которые

Краткое руководство по началу работы с Cisco SCE8000 …...КРАТКОЕ РУКОВОДСТВО ПО НАЧАЛУ РАБОТЫ Краткое руководство

Data Science Week 2016. GlowByte, "Культура работы с данными"

Начало работы с Intel IoT Dev Kit

Краткое руководство по интеграции системы ELMA с системой ... · 2.5. Отладка и контроль ошибок работы с

Методика работы с E-Library КТН Попов А.А

Практические инструменты работы с мотивацией сотрудников

Начало работы с Microsoft SharePoint Server 2010download.microsoft.com/download/C/A/3/CA3D97E9-3AD1-491F-9EC… · Начало работы с Microsoft SharePoint Server

Новые инструменты для работы с конверсиями

Светодиодные прожектора TM GAUSS с датчиком движения Принцип работы