Cyrilic Converter

Оглавление

Проблематика

Что может эта программа

Автораспознавание кодировки

Проблематика

В интернете курсирует множество программ для перекодирования текстовых файлов из одной русской кодировки в другую. Основной недостаток почти всех этих программ состоит в том, что они перекодируют файлы по одному. Кроме того, обычно, необходимо знать и выставлять в программе исходную кодировку. Представьте себе, что у вас есть десяток текстовых или HTML-файлов (все в разных кодировках), которые вам необходимо конвертировать, например в KOI8-R. Вам прийдется открыть каждый файл, чтобы узнать исходную кодировку, потом загрузить файл в программу-конвертер, и выставить в ней кодировку файла. А если у вас файлов не десяток, а полсотни? Тогда вы можете потратить на перекодировку много часов. Именно для ускорения и упрощения вышеописанного процесса и была написана эта программа.

К началу

Что может эта программа

Программа имеет крайне простой интерфейс. Вы просто выбираете файлы, которые хотите перекодировать, перетягиваете их все в окошко программы и нажимаете на кнопку "Конвертировать". Вы можете выставить исходную кодировку файлов (если она вам известна), а можете предоставить программе распознавать ее самостоятельно. Кроме того, вы можете выбрать, будет ли программа создавать новые файлы (с измененными именами и/или в другой папке) или она перепишет исходные файлы. Программа не только перекодирует текст, но и заменяет значение параметра "charset" в HTML-файлах на подходящее значение.

Основные параметры программы:

Перекодировка произвольного количества файлов за один раз.

Поддерживаются кодировки: KOI8-R, CP-866, WINDOWS-1251, ISO-8859-5, UTF-8, UTF-16, UTF-16 в HTML-формате (&#xxxx;).

Исходная кодировка может быть задана пользователем или распознана программой автоматически.

Возможна перекодировка файла в транслит. Перекодировка транслита в кириллицу не поддерживается.

Символ перехода на новую строку можно перенять оригинальных файлов или же выбрать любой из вариантов: DOS (LF), UNIX (CR+LF) или MAC (CR).

Автоматическая замена параметра "charset" в HTML-файлах.

Автоматическое распознавание исходной кодировки, как правило, работает для файлов, содержащих как минимум два-три предложения связного русского текста. Подробности описаны в следующем подразделе.

К началу

Автораспознавание кодировки

Автоматическое распознавание кодировки основана на принципе поиска в тексте отдельных коротких и часто встречающихся в русском языке слов, уникальных для каждой кодировки. В основном, это относится к частицам, предлогам, союзам и т. п. Данным метод быстрее и надежнее, чем обычный буквенно-частотный анализ, особенно при работе с короткими текстами. Для корректного распознавания кодировки достаточно, чтобы файл содержал две-три связные русские фразы.

Если программа имеет дело с файлом в HTML-формате, содержащим параметр "charset", то кодировка определяется по нему и вышеописанный анализ текста не нужен.

К началу