Пример: преобразование html страниц из Windows 1251 в UTF-8

Обсуждение программы nhrt - замена текста в файлах (прежнее название nhrplc)
Закрыто
nhutils
Сообщения: 595
Зарегистрирован: 09 дек 2009, 18:08
Контактная информация:

Пример: преобразование html страниц из Windows 1251 в UTF-8

Сообщение nhutils »

Этот пример показывает, как с помощью программы nhrplc можно преобразовать одну или несколько html страниц, написанных в Windows 1251, в кодировку UTF-8.
Чтобы сменить кодировку, нам надо изменить значение тега charset c Windows-1251 на UTF-8 и перекодировать html файлы. Программа nhrplc позволяет сделать это одной строкой:

Код: Выделить всё

nhrplc -i -s:"charset=windows-1251" -t:"charset=utf8" -cp:auto,utf8 *.htm
Эти параметры указывают программе обработать файлы *.htm, заменяя вхождение текста charset=windows-1251 на charset=utf8 и пересохраняя обрабатываемые файлы в кодировке UTF-8.
Вывод программы показывает, что произведена замена:

Код: Выделить всё

page1.htm: 1 замена
В файле можно увидеть, что строка <META HTTP-EQUIV="Content-Type" content="text/html; charset=Windows-1251"> была заменена на <META HTTP-EQUIV="Content-Type" content="text/html; charset=utf8">, а кодировка файла сменилась на UTF-8, т.е. получили то, что и требовалось.
Вложения
nhrplc_sample-convert_htm.zip
Файлы для этого примера
(1.44 КБ) 552 скачивания
Закрыто