Кодування Chapter1 та формати файлів
Кодування тексту є найважливішим, але також найбільш чутливим і вибухонебезпечним предметом у сфері інтернаціоналізації Інтернету. Це є важливою темою, оскільки велика частина інформації, що циркулює в Інтернеті, знаходиться у текстовій формі. Однак історія Інтернету гарантує, що переважним кодуванням, а в деяких випадках і єдино можливим кодуванням, є дуже обмежений ASCII. Але це кодування може представляти лише кілька мов, з яких важливі лише три: англійська, індонезійська та суахілі.
Системи кодування

Кодування: принципи
Комп’ютери обробляють лише числові дані, у цьому випадку у двійковій формі (двійкові цифри: двійкові цифри = BIT).
Біт - це найменша одиниця інформації, яку може обробити комп’ютер.
Біт може бути 1 або 0.
З 2 бітами ми можемо мати чотири різні стани (2 * 2): 00, 01, 10, 11
З 3 бітами ми можемо мати вісім різних станів (2 * 2 * 2): 000, 001, 010, 011, 100, 101, 110, 111
З 7 бітами ми можемо мати 128 різних станів (27)
З 8 бітами ви можете мати 256 різних станів (28)
З 16 бітами ви можете мати 65000 різних станів (216)
З 32 бітами ми можемо мати + 4 мільярди різних станів (232)
Код (набір символів) - це таблиця відповідності, яка асоціює графічний символ із числовими даними.
Набір символів, як правило, відповідає певним критеріям:
- Прізвище: Набір символів позначається різними іменами: кодування символів, кодований символом репертуар та кодова сторінка. Він завжди називається таким чином, щоб система обробки або отримання могла використовувати правильну таблицю. Приклади наборів символів: ISO/IEC 8859-1, ISO/IEC 8859-2, ASCII, Unicode 4.0 тощо.;
- Вирізати: розмір набору символів виражається кількістю бітів, що використовуються для представлення символу, і визначає кількість символів, що кодуються:
* 7 бітів дозволяють кодувати 128 символів: ASCII, ISO/IEC 9036 (арабська)
* 8 бітів можуть кодувати 256 символів: ISO/IEC 8859-1, UTF-8
* 16 біт дозволяють кодувати +65000 символів: UTF-16, KSC 5601 (корейська)
* 32 біти можуть кодувати +4 мільярди символів: UCS-4, UTF-32.
- Персонажі: ми знаходимо принаймні (для латинського алфавіту): 10 цифр, 26 букв алфавіту, розділові знаки або оператори, контрольні символи, призначені для полегшення передачі інформації та для розміщення функцій.
Усі набори символів відрізняють поняття символу від поняття гліфа:
* Символ - це одиниця інформації, яка використовується для кодування тексту. Він представлений числом, яке знаходиться лише в пам'яті або на диску.
* Гліф - це геометрична фігура, яка використовується для подання персонажа. Він з'являється на екрані або в друкованому вигляді. Каталог гліфів являє собою шрифт (Arial, Times New Roman та ін.)
- Лікування: кодування цифр і букв має бути спроектовано для полегшення обробки.
Наприклад, ми повинні мати можливість легко сортувати символи. Оскільки в лексикографічному розумінні «А =? -, & ’ +
-12 ящиків зарезервовано для національного або спеціального використання (діакритичні літери та інші символи).
Кодування: проблеми несумісності
Створено сотні систем кодування символів.
Вони часто несумісні між собою: дві системи можуть використовувати один і той же числовий код для двох різних символів або використовувати різні коди для одного і того ж символу.
Завдяки безлічі ігор кожен виробник пропонує своє рішення, засноване більш-менш на одному із цих стандартів. Тоді виникає проблема передачі даних між системами або міграцій з однієї системи в іншу.
Тому проблема полягає не в дефіциті, а в надлишку.
Для арабської: кілька наборів символів: ISO 8859-6, ISO 9036, MS Arabic Dos Code Page 708, MS Windows Arabic Code Page 1256, Arabic Mac Code Page, Arabic Windows 3X Code Page, Code Page 864 Dos Arabic тощо.
Приклади несумісності:
Арабське слово “. »Кодується у ISO 8859-6 у вигляді наступної послідовності числових кодів: 226 () 232 (?) І 234 (?).
Якщо перейти від ISO 8859-6 до кодової сторінки Windows 1256, на дисплеї з’явиться та сама послідовність цифрових кодів:.
Навіщо це перетворення ?: два набори символів призначають різні коди для трьох арабських букв у нашому прикладі.
- Така ж проблема спостерігається з наголошеними латинськими літерами: û, ê, î, ï, è тощо.
Кодування: універсальне рішення (Unicode та ISO 10646)
Стандарт Юнікод і стандарт ISO/IEC 10646 вкажіть унікальний номер для кожного символу, незалежно від платформи, незалежно від програмного забезпечення та мови.
Починаючи з 1992 року, дата злиття, розробка Unicode синхронізована з розробкою стандарту ISO/IEC 10646.
Поява стандарту Unicode та стандарту ISO/IEC 10646, а також наявність інструментів, що їх підтримують, є одними з найбільш вражаючих фактів недавньої глобалізації розробки програмного забезпечення.
Завдяки стандарту Unicode та стандарту ISO/IEC 10646, одне програмне забезпечення або веб-сайт можуть одночасно і без змін задовольняти запити декількох платформ, мов та країн.
Вони також дозволяють програмному забезпеченню з різних джерел обмінюватися символами без втрати даних.
Юнікод/ISO 10646: Інтернаціоналізація Інтернету
В даний час Unicode та ISO/IEC 10646 вимагаються багатьма останніми стандартами W3C та IETF, такими як XML, XSL, XHTML тощо.
RFC 2277 встановлює такі вказівки:
- будь-який протокол повинен ідентифікувати використаний набір символів;
- будь-який протокол повинен мати можливість використовувати кодування UTF-8 універсального набору символів ISO/IEC 10646;
Останні версії основних браузерів підтримують кодування UTF-8: Internet Explorer 4, 5 і 6, Netscape 4 і 6, Tango тощо.
Мовою HTML достатньо додати до розділу документа метаінформацію із зазначенням цього:
З XML згадка про кодування UTF-8 повинна бути вказана в пролозі документа XML:
В тілі документа HTML або XML ви можете вставити символи, посилаючись на номери, які вони мають у таблиці кодів.
Посилання на символи можуть бути надані як шістнадцяткове значення або як десяткове значення символу в таблиці.
У першому випадку до посилання додається префікс , за яким йде шістнадцяткове значення символу в таблиці, після якого ставиться крапка з комою.
У другому випадку до посилання додається префікс & #, за яким слідує числове значення символу в таблиці, зрештою крапка з комою.
Різні формати файлів
Файли, що містять текст
.RTF (Розширений формат тексту) Цей стандартизований формат текстового документа ASCII із форматуванням сприяє обміну між різними програмами. Він використовується, якщо є сумніви щодо сумісності версії, програмного забезпечення чи середовища під час простого обміну текстовими файлами. Зверніть увагу, що ваш макет та таблиці не будуть достовірно переписані. Зарезервовано для простих документів (інакше використовуйте Acrobat та його формат PDF).
Програми для відкриття цих файлів: текстові процесори загалом.
Програми для редагування цих файлів: будь-який редактор .TXT (Блокнот.) Якщо ви знаєте HTML - Веб-редактор: DreamWeaver, XMLSPY, Netscape Composer - Microsoft Frontpage
.PDF (Портативний формат документа) Цей двійковий формат програмного забезпечення Adobe Acrobat є найпопулярнішим для розповсюдження ділових документів в Інтернеті. Засіб перегляду "Acrobat Reader" є безкоштовним, його можна безкоштовно завантажити з веб-сайту Adobe або на компакт-дисках, вставлених у комп'ютерні журнали. У ваших інтересах використовувати останню версію для безпроблемних консультацій.
Програми, які слід використовувати для відкриття цих файлів: - Acrobat Reader (безкоштовно, вільно розповсюджується) та все програмне забезпечення Adobe, що випускається в останніх версіях: - Photoshop - Illustrator - InDesign
Програми для створення цих файлів: Adobe Acrobat - Microsoft Office.
Програми, які слід використовувати для відкриття цих файлів: Illustrator - Freehand - QuarkXpress - Pagemaker - Alladin GhostView (Безкоштовно з веб-сайту для друку).
.SGML .XML (Стандартна узагальнена мова розмітки, розширювана мова розмітки) SGML - це міжнародний стандарт для подання текстових документів ASCII в електронному форматі. Для інформації формат HTML - це спрощена підмножина SGML, сама по собі підмножина формату XML. В даний час дуже мало програм здатне створювати та інтерпретувати ці файли. Програми, які слід використовувати для відкриття цих файлів: - конкретні програми для розробки; браузери останнього покоління частково здатні інтерпретувати файли .XML.
.ASP .PHP Ці формати файлів використовуються для управління та генерування HTML-сторінок на льоту щодо інформації про веб-серфер або баз даних. Це сценарій, вбудований у HTML-сторінки. Ви будете зустрічатися з ними дедалі більше, але вони будуть переглянуті як веб-сторінки.
Програми для відкриття цих файлів: Веб-браузер
Додатки, які слід використовувати для створення цих файлів: Текстовий редактор (якщо ви знаєте мову) - Програмне забезпечення для професійної розробки.
Програми для створення цих файлів: будь-який редактор .TXT (Блокнот.) Якщо ви знаєте мову Tex-LaTex та компілятор або редактор Tex: AsTex - MikTex.
.TXT За домовленістю це розширення відповідає текстовим файлам ASCII у неформатованому звичайному форматі ASCII. Через існування варіантів (акцентуація,.) Цей формат не дозволяє повністю переносити, і ми віддаємо перевагу формату .RTF.
Програми для відкриття цих файлів: будь-який текстовий редактор або текстовий процесор.
Файли зображень
.PS .EPS (PostScript) типу ASCII вони використовуються з файлами, що містять текст того самого розширення. Програми для відкриття цих файлів: QuarkXpress - Pagemaker - Illustrator - Freehand
.BMP Бінарний формат "BitMaP" тісно пов'язаний з Windows. Тому це не найкращий формат для міжплатформенних бірж. Крім того, він без стиснення і тому вимагає місця для відтінків сірого, 16, 256 або мільйонів кольорових файлів. Програми для відкриття цих файлів: Paint - Photoshop - Paint Shop Pro або взагалі будь-яке інше програмне забезпечення для обробки зображень, що працює на ПК.
.GIF (Графічний формат обміну) Цей формат, розроблений CompuServe, базується на алгоритмі стиснення Unisys LZW у двійковому форматі. Компактно, ці зображення обмежені максимум 256 кольорами. і дозволяють прозорість та рухомі зображення. Програми для відкриття цих файлів: Інтернет-браузери - зазвичай будь-яке програмне забезпечення для обробки зображень.
.JPEG .JPG (Спільна експертна група з питань фотографії) Дуже поширені в Інтернеті ці двійкові файли дуже компактні завдяки ефективному алгоритму стиснення. Створюючи ці файли, радимо бути обережними, щоб не стискати файл занадто сильно, інакше зображення погіршиться. Формат JPEG бажано використовувати для фотографій. Програми для відкриття цих файлів: Інтернет-браузери - зазвичай будь-яке програмне забезпечення для обробки зображень.
.PNG (Портативна мережева графіка) Все ще мало використовуваний, цей бінарний формат файлів є загальнодоступним і повинен замінити формат GIF. Це дозволяє компроміс між GIF та JPEG шляхом ефективного стиснення та вибору роздільної здатності. Додатки для відкриття цих файлів: будь-яке професійне програмне забезпечення для обробки зображень.
.TIFF .TIF (Tagged Image File Format) Цей двійковий формат використовує стиснення без втрат для архівування зображень, особливо у світі видавничої справи та графіки у високій роздільній здатності та на різних платформах. Рекомендується для транспортування без втрат. Додатки для відкриття цих файлів: будь-яке професійне програмне забезпечення для обробки зображень.
Аудіофайли
.MP3 (Експертна група з рухомих зображень) Цей загальнодоступний формат використовується для цифрової оцифровки музичних композицій, порівняних із компакт-дисками, як правило, з аудіо компакт-дисків. Стиснення дозволяє отримати невеликі файли, які легко обмінюються, маючи хорошу якість звуку. Попередження: піратство - це злочин. Програми для відкриття цих файлів: WinAmp (ПК) - Sonic та багато спеціалізованих програм для Mac та ПК.
.RA .RAM (Справжнє аудіо) Цей власний двійковий формат звукових та відеопослідовностей через Інтернет має задовільну якість, проте задоволений (дуже) обмеженою швидкістю мережі Інтернет.
Додаток для відкриття цих файлів: RealPlayer (умовно-безкоштовна/комерційна)
.WAV (Формат аудіофайлу Waveform) Цей формат Windows для зберігання звукових послідовностей є власним форматом середовища Windows на ПК. .Wav широко поширився у професійному середовищі завдяки сумісності.
Програми, які слід використовувати для відкриття цих файлів: Пряме відтворення з медіаплеєром Windows або програвачем Mac QuickTime. Загалом, будь-яке програмне забезпечення для редагування та музичної композиції: Cubase - Cakewalk тощо.
Відеофайли
.MPEG .MPG (Експертна група з рухомих зображень) Широко використовуваний загальнодоступний стандарт в Інтернеті, і його зазвичай можна переглядати в автономному режимі. Стандарт MPEG-1 використовується для трансляції на CD-Rom (формат четвертого екрану), тоді як формат MPEG-2 використовується для відео DVD, і використовується як основа для трансляції на цифрових каналах. Вам потрібен порівняно мускулистий комп’ютер з графічною картою, яка підсилює процесор. Для MPEG-2 необхідно інвестувати в спеціалізовану карту декомпресії або у відповідне програмне забезпечення для декомпресії. Програми для відкриття цих файлів: Пряме відтворення за допомогою медіаплеєра Windows або програвача QuickTime для Mac.
.MOV .QT (QuickTime Movie) Розроблений компанією Apple, конкурентом Windows .AVI, він широко використовується в Інтернеті та на всіх платформах з метою досягнення універсального статусу. Програми для відкриття цих файлів: Пряме відтворення за допомогою програвача QuickTime.
.RA (Real Audio) Запатентований формат для прямого потокового передавання звуку та відеокліпів через Інтернет. Додаток для відкриття цих файлів: RealPlayer (умовно-безкоштовна або комерційна версія)
.VDO (VDO Live) Запатентований формат для прямого потокового передавання відеозаписів через Інтернет. Програми для відкриття цих файлів: програвач VDO або відповідний плагін.
.VIV (Video Active) Запатентований формат для прямого потокового передавання відеозаписів через Інтернет. Ці дуже компактні файли мають низьку якість зображення. Програми для відкриття цих файлів: програвач VIV або відповідний плагін.
Мультимедійні файли
.PPT (PowerPoint) Формат PowerPoint став стандартом для комп’ютерних презентацій, накладених Microsoft. Проекцію, зроблену на ПК, можна відтворити на Mac, за умови використання еквівалентної версії. Програми, які слід використовувати для відкриття цих файлів: PowerPoint або безкоштовний переглядач, пропонований Microsoft.
.DIR .DXR (Директор) Режисер необхідний для створення мультимедійних компакт-дисків. Ймовірно, ви знайдете цей формат файлу у стислій версії .DXR, а не у версії DIR (джерела). Додаток для відкриття цих файлів: Директор (ви можете використовувати версію для Mac або ПК, щоб відкрити ці файли, доки версія відповідає).
.SWF (ShockWave Flash) Формат файлу Flash-анімації дуже широко використовується в Інтернеті і, як правило, витісняє формат GIF. Дійсно, вони менш жадібні за обсягом (виграш навантаження) і можуть бути звуковими. Програми для відкриття цих файлів: Flash або плагін для веб-браузера.
Стиснення, архівування та кодування
Такі типи файлів дуже корисні для користувачів Інтернету. Функція стиснення файлів полягає у зменшенні їх розміру. Функція архівування, навпаки, використовується для групування декількох файлів, каталогів, підкаталогів та всього їх вмісту в одному файлі.
.ZIP Формат стиснення та архівування широко використовується у професійному світі та в Інтернеті. Програми для відкриття цих файлів: WinZIP - Stuffit Expander або еквівалент.
.BIN Кодування файлів для Macintosh. 8-бітний формат. Програми для відкриття цих файлів: Stuffit Expander або еквівалент.
.EXE Виконувані файли для DOS або Windows. Це фактичні програми. Файли цього типу можна знайти в Інтернеті, які, по суті, є саморозпаковуються стислими архівами. Програми, які слід використовувати для відкриття цих файлів: немає, оскільки виконуваний файл запускається сам !
.HQX (BinHex) При кодуванні бінарних файлів ASCII в Інтернеті дуже часто зустрічаються файли, призначені для Macintosh. Програми для відкриття цих файлів: Stuffit Expander або еквівалент.
.СІД .СЕЯ (Stuffit Archives, Sef-Extracting Archives) Архівування файлів для Macintosh зі стисненням. Формат власний на Alladin Systems. Програми для відкриття цих файлів: Stuffit Expander або еквівалент.
..UUE (UUencoding) ASCII кодування (7 біт) бінарних файлів, широко використовуваних для передачі файлів (електронна пошта та форуми). Програми для відкриття цих файлів: Stuffit Expander або еквівалент.