Cyrillic Converter
Оглавление



Проблематика
В интернете курсирует множество программ для перекодирования текстовых файлов из одной русской кодировки в другую. Основной недостаток почти всех этих программ состоит в том, что они перекодируют файлы по одному. Кроме того, обычно, необходимо знать и выставлять в программе исходную кодировку. Представьте себе, что у вас есть десяток текстовых или HTML-файлов (все в разных кодировках), которые вам необходимо конвертировать, например в KOI8-R. Вам прийдется открыть каждый файл, чтобы узнать исходную кодировку, потом загрузить файл в программу-конвертер, и выставить в ней кодировку файла. А если у вас файлов не десяток, а полсотни? Тогда вы можете потратить на перекодировку много часов. Именно для ускорения и упрощения вышеописанного процесса и была написана эта программа.
К началу

Что может эта программа
Программа имеет крайне простой интерфейс. Вы просто выбираете файлы, которые хотите перекодировать, перетягиваете их все в окошко программы и нажимаете на кнопку "Конвертировать". Вы можете выставить исходную кодировку файлов (если она вам известна), а можете предоставить программе распознавать ее самостоятельно. Кроме того, вы можете выбрать, будет ли программа создавать новые файлы (с измененными именами и/или в другой папке) или она перепишет исходные файлы. Программа не только перекодирует текст, но и заменяет значение параметра "charset" в HTML-файлах на подходящее значение.

Основные параметры программы:
Автоматическое распознавание исходной кодировки, как правило, работает для файлов, содержащих как минимум два-три предложения связного русского текста. Подробности описаны в следующем подразделе.
К началу

Автораспознавание кодировки
Автоматическое распознавание кодировки основана на принципе поиска в тексте отдельных коротких и часто встречающихся в русском языке слов, уникальных для каждой кодировки. В основном, это относится к частицам, предлогам, союзам и т. п. Данным метод быстрее и надежнее, чем обычный буквенно-частотный анализ, особенно при работе с короткими текстами. Для корректного распознавания кодировки достаточно, чтобы файл содержал две-три связные русские фразы.

Если программа имеет дело с файлом в HTML-формате, содержащим параметр "charset", то кодировка определяется по нему и вышеописанный анализ текста не нужен.
К началу