Главная
    Русские интернет-кафе
    Смерть в Интернете
    Находки
    Мои книги
    Статьи, Обзоры, Стихи
    Реальная жизнь



    Дьявол опечатки



    Опубликована в "Подводной лодке" в сентябре 1999 года
    Андрей Травин

В 1562 году была опубликована книга "Мессы и их построение", содержавшая 15 страниц опечаток. В предисловии издатели оправдывались: "Проклятый Сатана вооружился всеми своими хитростями, чтобы протащить в текст бессмыслицу и тем самым отбить у читателей охоту брать в руки книгу". С тех пор выражение "дьявол опечатки" закрепилось в Европе. Утверждают, что он оставил отпечаток своего копытца даже на имени Наполеона III. Во фразе "Да здравствует Наполеон!!!" печатник принял три восклицательных знака за цифру III, и этой фразой завершалось воззвание по поводу прихода императора к власти.

Воспользовавшись фактами занимательной культурологии для указания того, перед чьим искушением не устоял автор, взявшись за написание этой заметки, а, главное, для того, чтобы обозначить нешуточность задачи проверки правописания, посмотрим, как она решается специальными программами для ПК. Они должны обладать следующими характеристиками: однозначно определять неправильно написанные слова, не давая ложных тревог по поводу верно написанных слов и, подсказывая правильное написание для ошибочно написанного слова, иметь возможность добавлять в словарь неизвестные слова. О том, как это делается, пойдет речь ниже.

В настоящее время выбор корректора орфографии фактически уже не являетя выбором пользователя, за него это все чаще всего делают производители редакторов, включая спелчекер в комплектацию своего продукта. Поэтому данная статья написана о том, как работать с программами­корректорами.


Основной словарь: кто больше?

Сначала было Слово. Но кончились Слова.
                                    Владимир Высоцкий

Программа проверки сопоставляет написание слов в нашем тексте с правильным их написанием, хранящимся в ее словарях. Во всех известных мне программах имеется один Основной словарь, содержащий большую часть общелитературной лексики современного русского языка, и один или несколько пользовательских словарей, содержащих редко встречающие слова (названия и специальные термины).

По поводу того, сколько слов должно быть в Основном словаре, однозначно сказать нельзя. Большой объем Основного словаря сам по себе еще не является гарантией его качества. Словарь может быть просто замусорен изрядным количеством терминов, которые в лучшем случае образуют ненужный балласт и попусту занимают память, а в худшем - создают паразитные шумы, ведущие к пропуску явных опечаток (попробуйте сами вспомнить примеры слов, которые в сочетании с предлогом, написанным слитно, образуют новое правильное слово).

Забегая вперед, отмечу, что не рекомендуется добавлять замусоривающие и краткие (до трех букв) слова в пользовательские словари, чтобы не ухудшить распознавание ошибок. В таком лингвистически замечательном произведении, как "Алиса в стране в чудес" (как заметила мне одна из моих знакомых: "Ты не любишь "Алису"? Ее же любят все программисты!") есть персонаж - орленок Эд, чье имя, будучи внесенным в словарь, помешало бы распознаванию ненужного пробела, о чем и сказано в известной песенке: "Эд - это просто вместо имен: Эдгар, Эдвард, Эдмонт".

Аналогично в Основной словарь LingvoCorrector не внесены слитные написания, и если мне надоедали регулярные приставания к слову "видеоконференция", то я понимал, что это сделано, дабы не пропустить ошибку типа "видеошкаф" (выходом в этой ситуации может являться занесение таких слов в пользовательские словари).

Очевидно, что набор слов правильно составленного Основного словаря отнюдь не должен исчерпываться словами орфографического словаря. По традиции в печатные словари не включается большинство производных слов, например уменьшительно-ласкательные, которые, однако, достаточно часто встречаются в реальных текстах. Действительно, найдя в орфографическом словаре слово "корабль", даже первоклассник сообразит, как следует писать "кораблик", но чтобы такие слова без обучения распознавала проверяющая программа, они должны быть включены в электронный Основной словарь. Если задуматься о том, что достаточным для работы без компьютера является бумажный словарь примерно на 70 тысяч слов, то попытайтесь мысленно прикинуть объем его аналога в машинной памяти. Количество же слов, указываемое в документации фирмами-производителями, можно считать почти столь же приблизительной величиной, как и полученная вами, потому что она весьма сильно зависит от того, как считать. Скажем, являются ли краснеющий и некрасивый самостоятельными словами, или это лишь формы от "красный" и "красивый"? Давая отличающиеся ответы на такие вопросы, можно, не краснея, укрупнить декларируемый размер словаря раза в полтора, не добавив в него ни слова. Поэтому если одна фирма объявляет словарь в 80 000 слов, а другая указывает 100 000, то это еще вовсе не означает, что у второй фирмы словарь больше. Может быть, они считали разными методами. Наиболее симпатичной мне представляется нынешняя позиция разработчиков "Прописи" и LingvoCorrector, которые вообще не указывают на коробке с программой количество слов в словаре. Ибо пользователя интересует не отвлеченная цифра, а минимизация срабатываний на правильно написанное слово. Однако затруднительно предложить пользователям удовлетворительный метод оценки качества Основного словаря. Слишком уж велик объем материала. Случайно замеченные вами ошибки могут быть лишь отдельными неудачами в хорошо сделанной работе (например, ранняя "Пропись" исправляла часто встречающееся слово "которых" на то же слово "которых"), но может быть и наоборот. Поэтому при выборе словаря решающее значение имеет вопрос доверия к фирме-производителю, к профессионализму ее лингвистов и трудолюбию ее разработчиков.


Пользовательские словари

Блажен, кто духом тверд и в истину проник.
Но истин много, много...
                                    Михаил Щербаков

Нет никакой возможности заранее учесть все слова в Основном словаре. Поэтому все известные мне программы проверки имеют функцию создания пользовательских словарей, предоставляют инструментальные средства для создания и поддержания своих собственных словарных баз по любым специфическим тематикам (рис. 1). Выверенные пользовательские словари можно защитить от записи. Отметим, что эти словари довольно компактны, поскольку вся информация о словоформах хранится в виде ссылок на Основной словарь. При этом по скорости проверки пользовательские словари практически не отличаются от Основного словаря.

LingvoCorrector - первая из существующих Windows-программ для автоматического составления совокупности словоформ для каждого введенного слова. На языке ученых этот процесс называется построением парадигмы (данное слово распространилось и в область языков программирования, в которой "ученые парики" употребляют выражения типа "объектно-ориентированная парадигма"). LingvoCorrector при составлении парадигмы задает пользователю вопросы о наличии у слова той или иной формы. Если слово является "ненормальным" с точки зрения системы, то в словарь дополнений будет внесена только та форма, которая взята из текста. Для английских слов парадигму LingvoCorrector не строит, но то, что он умеет проверять смешанные тексты и составные англо-русские слова (к примеру, "BIOS'ами"), смело можно отнести к числу его важных достоинств: в области моих интересов (музыка и компьютеры) почти все тексты являются русско-англиийскими.


Борьба с дьяволом опечаток
"в наш просвещенный век"

Ловишь на слове то, для чего не выдумано языка.
                                    Михаил Щербаков

Пользователям обычно не дано узнать об особенных приемах, которые применяют разработчики для поиска опечаток (к примеру, в LingvoCorrector - Язык описания словарей).

И столь витиевато названная глава начинается с прописных истин, т. к. и "Пропись", и другие корректоры борются с ошибками внешне одинаково. Если встретилась опечатка, проверяющая программа должна сразу же предложить варианты ее исправления. При этом они должны быть отсортированы таким образом, чтобы первыми выдавались наиболее вероятные исправления. В этом случае пользователю остается лишь нажать на кнопку "Заменить" или указать на любое исправление из списка, что удобно (рис. 2). Большинство русских программ проверки орфографии исправляют однобуквенные опечатки, ибо многобуквенные опечатки практически составляют не более нескольких процентов от их общего количества: как правило, встречаются лишь опечатки типа "баблики с муком". Нежелание разработчиков закладывать в свои программы поиск многобуквенных опечаток объясняется гибкостью русского языка по сравнению с английским, из-за чего список подсказок на русское слово с двумя опечатками получается недопустимо велик (тем не менее существуют реализующие эту возможность корректоры русской орфографии UniSpel фирмы "Максимум" и "Пропись" 4.0). LingvoCorrector не ловит многобуквенных опечаток типа исскуство, но имеет интересную особенность, рассчитанную, как я полагаю, на использование в системах оптического распознавания: если ему встречается слово со звездочками типа с**л, то он выдает список подсказок из всех слов, удовлетворяющих данной конструкции (рис. 3).

Некоторые программы, для которых скорость работы выбрана в качестве одного из второстепенных критериев, как в "быстром" LingvoCorrector, имеют также режим проверки корректности пунктуации. При этом контролируется наличие пробелов после таких знаков препинания, как точка, запятая, двоеточие, и отсутствие пробелов перед этими знаками. Если в программах предусмотрена возможность контроля заглавной буквы в начале предложения, то программы одновременно различают точки, оканчивающие предложения, и сокращения с точкой. Так, во фразе "Люблю тебя, как 40 тыс. братьев любить не могут" программа не предлагает писать "братьев" с прописной буквы (в отличие от встроенного корректора MS Word 7.0 (рис. 4), который во фразе "2 тыс. долларов" автоматически исправляет "...Долларов").

В "Орфо" 4.0 даже появились настраиваемые правила проверки правописания.

В заключение этой довольно наукообразной главы приведем следующий практические совет: корректоры орфографии будут очень часто предлагать вам исправить правильно написанное слово, которого нет у него в словаре, и вам нужно не идти на поводу, соглашаясь с его вариантом замены. Это как бы еще один случай, когда к программе надо свою голову иметь... Доходит, ведь, иной раз до курьезов. Из первых рук мне известны случаи, когда при проверке орфографии редкое слово "растрированный" по всему тексту было заменено на слово "кастрированный" (причем документация в таком виде ушла в печать) или в деловой записке "Галину Петровну" спелчекер поменял на "Гадину Петровну".


О компьютерная программах
проверки грамматика
на русскому языка

Оно осложняется непреодолимым словесным калейдоскопом, словами, как мачты, с заглавными буквами - бешеными парусами.
                                    Хулио Кортасар

Не отрицая пользу программ проверки орфографии, отметим, что им не под силу полная расстановка знаков препинания и распознавание орфографически правильных, но неверных по смыслу слов (например, ""бесподобная" мышь" вместо ""беспроводная" мышь"), а также нарушение связи между словами, как в заголовке данной главы. Но данная глава будет выглядеть однобоко, если не отметить, что коррекция грамматики недавно реализована в самых "мощных" отечественных спелчекерах - "Орфо", "Русский филолог", Grammar "Прописи". Мне хочется поздравить их создателей, ибо даже пяти лет работы не хватит, чтобы сделать "русский грамматик" достаточно надежным (современные корректоры одновременно и пропускают ошибки, и останавливаются на безупречных с точки зрения русского языка фразах).

Впрочем, я готов приветствовать всех создателей подобных программ, ибо они решают нетривиальные задачи. Что же касается самих словарей, то они создаются годами (система машинного перевода Stylus была итогом двенадцатилетней работы). Конечно, системы автоматического перевода, как и системы машинного доения, по сути, способны выполнять работу вместо человека, но однозначно не лучше профессионала. Системы проверок правописания и электронных словарей гораздо ближе по своими возможностям к идеалу. Что же касается темы именно этой главы, то машинному интеллекту оказалось очень легко выполнить лишь одну функцию проверки грамматики - ограничение на максимальное количество слов в предложении. Правда, в "Прописи" по умолчанию их количество равно 60, хотя согласно научным исследованиям для текста, предназначенного для устного доклада, их число должно быть не более 12.


Что такое современный
корректор орфографии

До сих пор корректоры орфографии рассматривались в их "классическом" понимании.

В настоящее время наиболее динамично развивающиеся программы проверки орфографии (LingvoCorrector к ним не относится, здесь я имею в виду "Орфо" и "Пропись") эволюционируют в сторону лингвистической универсальности. Скажем, создатели "Прописи" лицензировали толковый словарь Ожегова, предоставляя пользователю возможность уточнять значение слова. Кроме этого в "Прописи" и "Орфо", например, можно найти все синонимы русского слова и при необходимости заменить его на соответствующее слово в том же падеже. Даже в английском языке, имеющим меньшее количество словоформ, такая функция была признана весьма полезной, раз она оказалась включенной в MS Word 7.0. Упомянутые корректоры находят и антонимы слова, но это уже функция, интересная школьникам для выполнения упражнений из домашних заданий.

Корректоры орфографии большей частью не содержат собственного текстового редактора. К примеру, в "Орфо" он отсутствует, хотя имеется такая редакторская функция, как улучшенная расстановка переносов: возможны "книжные" и "газетные" переносы. В "Прописи" собственный редактор изначально существует и постоянно развивается, но нередко "сбоит" под управлением Windows 95.

Автор этих строк никогда не занимался тестированием корректоров орфографии и вместо покупательского гида можно завершить это описание краткой справкой о том, что в настоящее время на рынке реально осталось три программы-спелчекера для ПК: простая дешевая "рабочая лошадка" LingvoCorrector и два примерно равных по возможностям и цене пакета "Орфо" и "Пропись". "Орфо" привлекает всех пользователей Windows 95 своей настоящей 32-разрядностью, а "Пропись" - огромным количеством дополнительных сервисных функций (из-за чего она занимает дискового пространства почти столько же, сколько оба ее конкурента вместе взятые). Однако все эти конструкторы, тезаурусы, тонкие настройки требуют отдельного рассказа...



 



Русский Интернет: родом из детства

Бытует некоторое расхожее мнение о том, Россия имеет женский характер. Впрочем, не менее расхожее утверждение заключается в том, что у России детская душа. Этой статье я нарочито отказываю в оригинальности. Данные строки написаны лишь с целью показать, что Русский Интернет - яркое подтверждение второй из названных версий, то есть своего рода сплошная Детсеть, отражающая естественное состояние русской детской души. >>>

Неправильное гадание на киберкофейной гуще

Когда первые поселенцы обосновались в пространстве под названием WWW, они построили библиотеки, кафе, кладбища и магазины. Именно в таком порядке - мы помним. Об электронных библиотеках и магазинах тогда писали даже журналисты, не имеющие выхода в Интернет, поэтому я стал писать об Интернет-кафе и электронных погостах.>>>

Эффект присутствия

Фраза "бесплатных завтраков не бывает" превратилась в самую длинную аббревиатуру американского сетевого жаргона - TANSTAAFL*. Однако мы знаем, что менее всего она применима по отношению к собственно сетевым реалиям, в которых легко можно найти бесплатную духовную пищу, виртуальный дом и т.д. >>>

Особенности национальных счетчиков

Многообразие национальных сетевых счетчиков - особенность русского Интернета, которая нигде в Европе не наблюдается столь же выпукло>>>

Три поисковика Рунета, не считая Google

Найденные поисковой машиной документы относятся к одной из двух категорий: одни соответствуют запросу (релевантны), другие ему не соответствуют, то есть нерелевантны... На этом простом механизме в настоящее время строится перспективный бизнес. Сами поисковые машины тоже относятся к одной из двух категорий: одни технологически эффективны, другие наоборот. Однако, современные поисковики настолько сложные системы, что уже не могут быть описаны в кооординатах "хорошо-плохо". >>>

Прикольная net-культура, или Молчание гусар

Зачем тащить в новое тысячелетие какие-то сайты с играми толкиенистов, буриме, народным романом и прочими разносолами, когда надо довести до абсолюта (или до портала, что почти одно и тоже) идею народно-развлекательного куличкинского журнала "Прикол", да так, чтобы уже никто и не вспоминал о дилетантах-первопроходцах. >>>

Runetka-интервью:
"Порталу "Смерть в Интернете" исполнилось четыре года"


У меня достаточно оригинальное мировоззрение, которое я ни разу не высказывал ни на страницах "Смерти в Интернете", ни где-либо еще. >>>












 
 Copyright © 1997–2006 - Andrey Travin                                                                                                     Design 2003 - Leeloo