Cyrillic Converter
Оглавление
Проблематика
В интернете курсирует множество программ для перекодирования текстовых файлов из
одной русской кодировки в другую. Основной недостаток почти всех этих программ
состоит в том, что они перекодируют файлы по одному. Кроме того, обычно,
необходимо знать и выставлять в программе исходную кодировку. Представьте себе,
что у вас есть десяток текстовых или HTML-файлов (все в разных кодировках), которые
вам необходимо конвертировать, например в KOI8-R. Вам прийдется открыть каждый
файл, чтобы узнать исходную кодировку, потом загрузить файл в программу-конвертер,
и выставить в ней кодировку файла. А если у вас файлов не десяток, а полсотни? Тогда
вы можете потратить на перекодировку много часов. Именно для ускорения и
упрощения вышеописанного процесса и была написана эта программа.
Что может эта программа
Программа имеет крайне простой интерфейс. Вы просто выбираете файлы, которые
хотите перекодировать, перетягиваете их все в окошко программы и нажимаете на кнопку
"Конвертировать". Вы можете выставить исходную кодировку файлов (если она вам
известна), а можете предоставить программе распознавать ее самостоятельно. Кроме
того, вы можете выбрать, будет ли программа создавать новые файлы (с измененными
именами и/или в другой папке) или она перепишет исходные файлы. Программа не только
перекодирует текст, но и заменяет значение параметра "charset" в HTML-файлах на
подходящее значение.
Основные параметры программы:
- Перекодировка произвольного количества файлов за один раз.
- Поддерживаются кодировки: KOI8-R, CP-866, WINDOWS-1251, ISO-8859-5, UTF-8, UTF-16, UTF-16 в HTML-формате (&#xxxx;).
- Исходная кодировка может быть задана пользователем или распознана программой автоматически.
- Возможна перекодировка файла в транслит. Перекодировка транслита в кириллицу не поддерживается.
- Символ перехода на новую строку можно перенять оригинальных файлов или же выбрать любой из вариантов: DOS (LF), UNIX (CR+LF) или MAC (CR).
- Автоматическая замена параметра "charset" в HTML-файлах.
Автоматическое распознавание исходной кодировки, как правило, работает для файлов, содержащих как минимум два-три предложения связного русского текста. Подробности описаны в следующем подразделе.
Автораспознавание кодировки
Автоматическое распознавание кодировки основана на принципе поиска в тексте
отдельных коротких и часто встречающихся в русском языке слов, уникальных для
каждой кодировки. В основном, это относится к частицам, предлогам, союзам
и т. п. Данным метод быстрее и надежнее, чем обычный буквенно-частотный анализ,
особенно при работе с короткими текстами. Для корректного распознавания кодировки
достаточно, чтобы файл содержал две-три связные русские фразы.
Если программа имеет дело с файлом в HTML-формате, содержащим параметр "charset", то кодировка определяется по нему и вышеописанный анализ текста не нужен.