• Приложение A Линки
  • Приложение Б Техническое задание на написание читалки (ридера)
  • Приложение В Список жанров FictionBook
  • Приложение Г Список возможных языков
  • Приложение Д Регулярные выражения
  • Приложение E Описание Base64
  • Приложение Ж Описание стандарта ISBN
  • Приложение З Попытка анализа влияния «пиратов» на тиражи книг
  • Приложение И Копирайт и новая война луддитов
  • Приложения

    Приложение A

    Линки

     Библиотеки, поддерживающие FictionBook

    http://www.fictionbook.ru — FictionBook.lib;

    http://lib.aldebaran.ru — библиотека Альдебарана; Крупнейшая, на момент написания книги, библиотека Рунета.

    http://www.fenzin.org — библиотека «Фензин»; Специализируется на фантастике и фэнтэзи.

    http://www.litportal.ru — библиотека Литпортал.

    http://lib.rus.ec — Либрусек, русскоязычная библиотека в Эквадоре. Последний бастион свободных e-book…

    http://lib.ololo.cc — Зеркало «Либрусека».

    http://flibusta.net — Новейшее зеркало «Либрусека», которое стало самостоятельной библиотекой.

    http://www.litres.ru — «ЛитРес». Платные электронные книги.

    Библиотеки, в которых регулярно появляются новинки:

    http://www.infanata.org — Всемирно известный NataHaus. Крупнейший книжный варезный блог.

    http://www.lib.ru — библиотека Максима Мошкова. К сожалению, в последние годы, стараниями поборников копирайта, сильно захирела.

    http://www.koob.ru — библиотека «Куб». Уникальное собрание текстов по психологии и самосовершенствованию.

    http://www.oldmaglib.com — «Библиотека Старого Чародея». В основном, переводная фантастика. Что отрадно, тоже плюют на копирайт и копирастов.

    http://publ.lib.ru — «Публичная Библиотека». Очень много djvu-версий журналов, технических книг. Вместе с тем, здесь регулярно появляются и RTF-тексты обычных книг, в основном, выходивших в CCCP.

    Программы-читалки

    http://haali.cs.msu.ru/pocketpc — Haali Reader 2.0

    http://www.coolreader.org — CoolReader 2.0, 3.0

    http://alreader.kms.ru — AlReader 2.5

    http://www.fbreader.org — FBReader 0.10

    Программы-конверторы

    http://www.gribuser.ru/xml/fictionbook/2.0/software/Any2FB2.exe — Any2FB2

    http://home.arcor.de/fb.tools/ — Doc2FB.

    http://dikbsdsda.mylivepage.ru/file — конвертор ExportToFB21 для Open Office.

    http://www.sfbg.us/jinke — FB2GrWolf, конвертор в формат Wolf.

    Программы для редактирования FB2

    http://haali.cs.msu.ru/pocketpc/scripts.html.ru — FB Tools

    http://www.gribuser.ru/xml/fictionbook/2.1/FBTools_update.zip — обновление FB Tools

    http://reeed.ru — много полезной информации и нужных программ.

    Прочие программы для FB2

    http://booki.110mb.com/ — программа Booki.

    http://www.assembla.com/wiki/show/jfblibpublic — библиотекарь JEFLibrarian.

    http://www.home-lib.net  — библиотекарь MyHomeLib.

    Программы для работы с графикой.

    http://www.xnview.com — XnView, просмотрщик-конвертор.

    http://www.yafla.com — PureJPEG, чистка картинок JPEG от лишней информации.

    Прочие программы

    http://www.grigsoft.com — Compare It, сравнение текстовых файлов.

    Информация по JavaScript

    http://msdn.microsoft.com/workshop/author/dhtml/reference/dhtml_reference_entry.asp — MSDN Library.

    http://www.w3schools.com/js — полезные советы по JavaScript.

    Приложение Б

    Техническое задание на написание читалки (ридера)

    Ридер должен включать в себя два модуля:

    1. Библиотечный модуль — для персонального компьютера.

    2. Непосредственно ридер — для персонального компьютера и КПК.

    Библиотечный модуль

    Общие требования

    1. Информация берется из дескрипшина файлов fb2 или fb2.zip.

    2. В настройках указывается директория, содержащая книги.

    3. Библиотека должен автоматически сканировать директорию, содержащая книги при каждом вызове.


    Внешний вид

    В форме необходимы следующие поля:

       1. Автор книги

       2. Название книги

       3. Серия

       4. Жанр

       5. Обложка

       6. Аннотация

       7. Поиск

    Кнопки:

       1. Читать

       2. Послать в КПК


    Логика работы

    В поле автора выбираем автора из списка.

    В поле жанра можно выбрать все жанры или определенный. При выборе определеного жанра в поле автора присутствует список только тех авторов, книги которых есть в этом жанре.

    В поле серии — список серий, присутствующих в библиотеке. При выборе конкретной серии, в поле авторов высвечивается автор серии, в поле книги — перечень книг только этой серии.

    При выборе автора появляется список его книг.

    При выборе книги появляется обложка и аннотация.

    По кнопке «читать» попадаем в ридер.

    Ридер

    Общие требования

    1. Должен понимать как просто формат fb, так и заархивированный (zip).

    2. Должен игнорировать все незнакомые тэги внутри pType элементов (см. схему) и внутри заголовка.

    3. Ридер волен реагировать на незнакомые тэги в других местах документа по своему усмотрению.

    4. Ридер, по возможности, должен сообщать об отсутствии обязательных тэгов.


    Форматирование

    1. Должен иметь возможность работы с подключаемыми стилевыми файлами.

    2. Должен запоминать, к какому документу какой стиль привязан.


    Настройки

    1. Настройки автоскроллинга (листание экрана, построчный скроллинг, плавный скроллинг)


    ((По материалам старого форума FictionBook))

    Необязательные, но весьма полезные, дополнительные возможности («фичи»).

    1. Разбиение текста на условные страницы (с возможностью установить объем такой страницы в килобайтах) (реализовано: AlReader)

    2. Показ времени, затраченного на прочтение книги, с прогнозированием оставшегося. (реализовано: PalmFiction)

    3. Возможность экспорта книги в стандартные форматы: TXT, HTML, RTF (реализовано: CoolReader, AlReader);

    4. Возможность печати книги, желательно компактным буклетом и в полиграфическом качестве. Или качественный экспорт в PDF (Нигде не реализовано. Мечта небесного цвета автора этой книги.);

    5. Возможность правки текста. (реализовано: AlReader);

    6. Сноски показываются, как всплывающие окна. (реализовано: BS FB2 Reader Pro); или размещаются внизу виртуальной страницы (реализовано: CoolReader).

    7. Возможность «пришивания» компактного запускаемого просмотрщика к книге (или, вернее, упакованной в архив книги к такому просмотрщику, генерация «самопросматривающихся» книг). (реализовано: пока нигде. Еще одна мечта небесного цвета.).

    Приложение В

    Список жанров FictionBook

    В FB 2.21 определен следующий список жанров:

    Значение <genre> — Название — Название по-русски

    * Science Fiction & Fantasy — (Научная фантастика и Фэнтези)

    sf_history — Alternative history — Альтернативная история

    sf_action — Action — Боевая фантастика

    sf_epic — Epic — Эпическая фантастика

    sf_heroic — Heroic — Героическая фантастика

    sf_detective — Detective — Детективная фантастика

    sf_cyberpunk — Cyberpunk — Киберпанк

    sf_space — Space — Космическая фантастика

    sf_social — Social-philosophical — Социально-философская фантастика

    sf_horror — Horror & mystic — Ужасы и Мистика

    sf_humor — Humor — Юмористическая фантастика

    sf_fantasy — Fantasy — Фэнтези

    sf — Science Fiction — Научная Фантастика

    * Detectives & Thrillers (Детективы и Триллеры)

    det_classic — Classical detectives — Классический детектив

    det_police — Police Stories — Полицейский детектив

    det_action — Action — Боевик

    det_irony — Ironical detectives — Иронический детектив

    det_history — Historical detectives — Исторический детектив

    det_espionage — Espionage detectives — Шпионский детектив

    det_crime — Crime detectives — Криминальный детектив

    det_political — Political detectives — Политический детектив

    det_maniac — Maniacs — Маньяки

    det_hard — Hard-boiled — Крутой детектив

    thriller — Thrillers — Триллер

    detective — Detectives — Детектив, не относящийся в прочие категории.

    * Prose (Проза)

    prose_classic — Classics prose — Классическая проза

    prose_history — Historical prose — Историческая проза

    prose_contemporary — Contemporary prose — Современная проза

    prose_counter — Counterculture — Контркультура

    prose_rus_classic — Russian classics prose — Русская классическая проза

    prose_su_classics — Soviet classics prose — Советская классическая проза

    * Romance (Любовные романы)

    love_contemporary — Contemporary Romance — Современные любовные романы

    love_history — Historical Romance — Исторические любовные романы

    love_detective — Detective Romance — Остросюжетные любовные романы

    love_short — Short Romance — Короткие любовные романы

    love_erotica — Erotica — Эротика

    * Adventure (Приключения)

    adv_western — Western — Вестерн

    adv_history — History — Исторические приключения

    adv_indian — Indians — Про индейцев

    adv_maritime — Maritime Fiction — Морские истории

    adv_geo — Travel & geography — Путешествия и география

    adv_animal — Nature & animals — Природа и животные

    adventure — Other — Прочие приключения (то, что не вошло в другие категории)

    * Children's (Детское)

    child_tale — Fairy Tales — Сказка

    child_verse — Verses — Детские стихи

    child_prose — Prose — Детская проза

    child_sf — Science Fiction — Детская фантастика

    child_det — Detectives & Thrillers — Детские остросюжетные

    child_adv — Adventures — Детские приключения

    child_education — Educational — Детская образовательная литература

    children — Other — Прочая детская литература (то, что не вошло в другие категории)

    * Poetry & Dramaturgy (Поэзия, Драматургия)

    poetry — Poetry — Поэзия

    dramaturgy — Dramaturgy — Драматургия

    * Antique literature (Старинное)

    antique_ant — Antique — Античная литература

    antique_european — European — Европейская старинная литература

    antique_russian — Old russian — Древнерусская литература

    antique_east — Old east — Древневосточная литература

    antique_myths — Myths. Legends. Epos — Мифы. Легенды. Эпос

    antique — Other — Прочая старинная литература (то, что не вошло в другие категории)

    * Scientific-educational (Наука, Образование)

    sci_history — History — История

    sci_psychology — Psychology — Психология

    sci_culture — Cultural science — Культурология

    sci_religion — Religious studies — Религиоведение

    sci_philosophy — Philosophy — Философия

    sci_politics — Politics — Политика

    sci_juris — Jurisprudence — Юриспруденция

    sci_linguistic — Linguistics — Языкознание

    sci_medicine — Medicine — Медицина

    sci_phys — Physics — Физика

    sci_math — Mathematics — Математика

    sci_chem — Chemistry — Химия

    sci_biology — Biology — Биология

    sci_tech — Technical — Технические науки

    science — Other — Прочая научная литература (то, что не вошло в другие категории)

    * Computers & Internet (Компьютеры и Интернет)

    comp_www — Internet — Интернет

    comp_programming — Programming — Программирование

    comp_hard — Hardware — Компьютерное «железо» (аппаратное обеспечение)

    comp_soft — Software — Программы

    comp_db — Databases — Базы данных

    comp_osnet — OS & Networking — ОС и Сети

    computers — Other — Прочая околокомпьтерная литература (то, что не вошло в другие категории)

    * Reference (Справочная литература)

    ref_encyc — Encyclopedias — Энциклопедии

    ref_dict — Dictionaries — Словари

    ref_ref — Reference — Справочники

    ref_guide — Guidebooks — Руководства

    reference — Other — Прочая справочная литература (то, что не вошло в другие категории)

    * Nonfiction (Документальная литература)

    nonf_biography — Biography & Memoirs — Биографии и Мемуары

    nonf_publicism — Publicism — Публицистика

    nonf_criticism — Criticism — Критика

    design — Art & design — Искусство и Дизайн

    nonfiction — Other — Прочая документальная литература (то, что не вошло в другие категории)

    * Religion & Inspiration (Религия и духовность)

    religion_rel — Religion — Религия

    religion_esoterics — Esoterics — Эзотерика

    religion_self — Self-improvement — Самосовершенствование

    religion — Other — Прочая религионая литература (то, что не вошло в другие категории)

    * Humor (Юмор)

    humor_anecdote — Anecdote — Анекдоты

    humor_prose — Prose — Юмористическая проза

    humor_verse — Verses — Юмористические стихи

    humor — Other — Прочий юмор (то, что не вошло в другие категории)

    * Home & Family (Домоводство (Дом и семья))

    home_cooking — Cooking — Кулинария

    home_pets — Pets — Домашние животные

    home_crafts — Hobbies & Crafts — Хобби и ремесла

    home_entertain — Entertaining — Развлечения

    home_health — Health — Здоровье

    home_garden — Garden — Сад и огород

    home_diy — Do it yourself — Сделай сам

    home_sport — Sports — Спорт

    home_sex — Erotica & sex — Эротика, Секс

    home — Other — Прочее домоводство (то, что не вошло в другие категории)

    geo_guides — Geo_guides — Путеводители

    * Economy, Business (Экономика, деловая литература)

    job_hunting — Job Hunting — Поиск работы, карьера

    management — Management — Управление, подбор персонала

    marketing — Marketing — Маркетинг, PR, реклама

    banking — Banking — Банковское дело

    stock — Stock — Ценные бумаги, инвестиции

    accounting — Accounting — Бухучет, налогообложение, аудит

    global_economy — Global Economy — Внешнеэкономическая деятельность

    economics — Economics — Экономика

    industries — Industries — Отраслевые издания

    org_behavior — Corporate Culture — Корпоративная культура

    personal_finance — Personal Finance — Личные финансы

    real_estate — Real Estate — Недвижимость

    popular_business — Popular Business — О бизнесе популярно

    small_business — Small Business — Малый бизнес

    paper_work — Paper Work — Делопроизводство

    economics_ref — Economics Reference Book — Справочники

    Приложение Г

    Список возможных языков

    Ниже приведены коды языков, которые можно прописывать в тэгах <lang> и <src-lang>.

    Здесь приведены только основные кодировки, полный список содержится в стандарте ISO 639:

    abk — ab — Абхазский

    aze az Азербайджанский

    alb/sqi sq Албанский

    eng en Английский

    arm/hye hy Армянский

    ba Башкирский

    bel be Белорусский

    bul bg Болгарский

    hun hu Венгерский

    vie vi Вьетнамский

    dut/nla nl Голландский

    ell/gre el Греческий современный (1453-)

    dan da Датский

    grc Древнегреческий (до 1453)

    heb he Иврит

    esl/spa es Испанский

    ita it Итальянский

    kaz kk Казахский

    kir ky Киргизский

    chi/zho zh Китайский

    kor ko Корейский

    lat la Латинский

    lav lv Латвийский

    lit lt Литовский

    mac/mak mk Македонский

    mol mo Молдавский

    mon mn Монгольский

    deu/ger de Немецкий

    mul Несколько языков

    und Неопределенный

    nor no Норвежский

    fas/per fa Персидский

    pol pl Польский

    por pt Португальский

    rus ru Русский

    san sa Санскрит

    slk/slo sk Словацкий

    slv sl Словенский

    tgk tg Таджикский

    tat tt Татарский

    tur tr Турецкий

    uzb uz Узбекский

    ukr uk Украинский

    cym/wel cy Валлийский

    fin fi Финский

    fra/fre fr Французский

    che Чеченский

    ces/cze cs Чешский

    hr Хорватский

    sve/swe sv Шведский

    epo eo Эсперанто

    est et Эстонский

    jpn ja Японский


    Приложение Д

    Регулярные выражения

    ==Важно!========================

    Это описание было заимствовано из документации к программе Дмитрия Грибова СlearTXT. Реализация регулярных выражений в FB Editor  несколько отличается от СlearTXT. Поэтому, эта документация справедлива для FBE лишь с некоторыми оговорками.

    Хотя, в связи с тем, что регулярные выражения используются не только в FB Editor, но и в других программах, упомянутых в книге, было принято волевое решение привести это описание здесь полностью.

    ===============================

    Регулярные выражения — широко используемый способ описания шаблонов для поиска текста и проверки соответствия шаблону. Специальные метасимволы позволяют определять, например, что Вы ищете подстроку в начале входной строки или определенное число повторений подстроки.

    На первый взгляд регулярные выражения выглядят страшновато (ну хорошо, на второй — еще страшнее ;) ). Однако вы очень быстро оцените всю их мощь. Они избавят вас от длительного и нудного ручного поиска/замены/правки, а в некоторых случаях дадут вам возможности, реализация которых «ручками» даже не придет вам в голову.

    СИМВОЛЫ

    Это простейшие случаи подстановок.

    \xNN — символ с шестнадцатеричным кодом NN

    \t — табуляция (HT/TAB), можно также \x09

    \n — новая строка (NL), можно также \x0a

    \r — возврат каретки (CR), можно также \x0d


    Пример: \r\n — поиск разрыва строки (Windows, DOS).

    Поиск «одного из» — перечни

    Можно определить перечень, заключив символы в «[]». Перечень будет совпадать с любым одним символом, перечисленным в нем.

    Если первый символ перечня (сразу после «[») — «^», то такой перечень совпадает с любым символом, не перечисленным в перечне.

    Внутри перечня символ «-» может быть использован для определения диапазонов символов, например, a-z представляет все символы между «a» и «z», включительно.

    Если необходимо включить в перечень сам символ «-», его нужно поместить в начало или конец перечня или предварить «\». Если необходимо поместить в перечень сам символ «]», поместите его в самое начало или предварите «\».

    Примеры:

    п[иа]р — будут найдены буквосочетания «пир» и «пар». Но, допустим, не «пор».

    п[^иа]р — будут найдены буквосочетания «п…р» с любым символом между «п» и «р», кроме «и» и «а».


    [-az] — «a», «z» и «-»

    [az-] — «a», «z» и «-»

    [a\-z] — «a», «z» и «-»

    [a-z] — все 26 малых латинских букв от «a» до «z»

    [\n-\x0D] — #10, #11, #12, #13

    [\d-t] — цифра, «-» или «t»

    []-a] — символ из диапазона «]»..«a»

    Оговорка. В FB Editor в режиме исходника перечни, содержащие кирииллицу ФУНКЦИОНИРУЮТ НЕПРАВИЛЬНО.

    Метасимволы

    Метасимволы — это специальные символы, являющиеся важнейшим понятием в регулярных выражениях. Существует несколько групп метасимволов.

    • Разделители строк (начало строки, конец строки и т.п.)

    • Стандартные перечни символов (цифры, буквы и цифры и т.п.)

    • Границы слов (показывают, что вхождение должно быть на границе слова)

    • Повторения (указывает, сколько раз должна присутствовать последовательность)

    • Варианты (позволяет указать набор масок, с любой из которых должен совпадать текст)

    • Подвыражения (используются при замене)

    • Обратные ссылки (способ обратиться к подвыражениям при поиске)

    Метасимволы — разделители строк и границы

    Разделители и границы

    ^ — начало строки

    $ — конец строки

    \A — начало текста

    \Z — конец текста

    \b — Совпадает на границе слова

    \B — Совпадает НЕ на границе слова


    Оговорка. В FB Editor (и, скорее всего, в большинстве других программ) метасимволы \b и \B не реагируют на кириллицу.


    Примеры:

    ^Все — Находит все строки в тексте, начинающиеся словом «Все»

    \bмир — Находит все слова, начинающиеся буквосочетанием «мир». Слова будут найдены и в начале строк, и в середине.

    ^\x20$ — Находит все строки в тексте, состоящие из единственного пробела.


    Метасимволы — стандартные перечни символов

    . (точка) — Любой символ

    \w — буквенно-цифровой символ или "_"

    \W — не \w

    \d — цифровой символ

    \D — не \d

    \s — любой «пробельный» символ: [\x20\t\n\r\f]

    \S — не \s


    Оговорка. В FB Editor (и, скорее всего, в большинстве других программ) метасимволы \w и \W не реагируют на кириллицу.


    Метасимвол «.» по умолчанию совпадает с любым символом, однако, если выключить модификатор s ((?-s), синтаксис см. ниже), то «.» не будет совпадать с разделителями строк.

    Стандартные перечни \w, \d и \s можно использовать и внутри перечней символов.

    Примеры:

    —foob[\w\s]r — —находит «foobar», «foob r», «foobbr» но не «foob1r», «foob=r»

    —\+\d (\d\d\d) \d\d\d-\d\d-\d\d — —Находит телефон в формате «+7 (095) 555-55-55»


    Метасимволы — повторения

    После любого элемента регулярного выражения может следовать очень важный тип метасимвола — повторитель. Используя их Вы можете определить число допустимых повторений предшествующего символа, метасимвола или подвыражения.

    Указание числа вхождений

    * — ноль или более раз (может быть «жадным»), то же что {0,}

    + — один или более раз (может быть «жадным»), то же что {1,}

    ? — ноль или один раз (может быть «жадным»), то же что {0,1}

    {n} — точно n раз (может быть «жадным»)

    {n,} — не менее n раз (может быть «жадным»)

    {n,m} — не менее n но не более m раз (может быть «жадным»)

    *? — ноль или более раз («не жадный»), то же что {0,}?

    +? — один или более раз («не жадный»), то же что {1,}?

    ?? — ноль или один раз («не жадный»), то же что {0,1}?

    {n}? — точно n раз («не жадный»)

    {n,}? — не менее n раз («не жадный»)

    {n,m}? — не менее n но не более m раз («не жадный»)


    Т.о. {n,m} задает минимум n повторов и максимум — m. Повторитель {n} эквивалентен {n,n} и задает точно n повторов. Повторитель {n,} задает минимум n повторов. Теоретически величина параметров n и m не ограничена, но рекомендуется не задавать большие значения, поскольку в некоторых ситуациях это может потребовать существенных затрат времени и ОЗУ при обработке такого повторителя.

    Небольшое пояснение по поводу «жадности». «Жадные» варианты повторителей пытаются захватить как можно большую часть входного текста, в то время как «не жадные» — как можно меньшую. Например, b+ как и b* примененные к входной строке «abbbbc» найдут «bbbb», в то время как b+? найдет только «b», а b*? — вообще — пустую строку; b{2,3}? найдет «bb», в то время как b{2,3} найдет «bbb».

    По умолчанию, в FB Editor повторители могущие быть жадными, являются таковыми.

    Примеры:

    foob.*r — находит «foobar», «foobalkjdflkj9r» и «foobr»

    foob.+r — находит «foobar», «foobalkjdflkj9r» но не «foobr»

    foob.?r — находит «foobar», «foobbr» и «foobr» но не «foobalkj9r»

    fooba{2}r — находит «foobaar»

    fooba{2,}r — находит «foobaar», «foobaaar», «foobaaaar» и т.д.

    fooba{2,3}r — находит «foobaar», или «foobaaar» но не «foobaaaar»

    ((\+\d )?\(\d{3}\) )?(\d{3}(-\d\d){2}) — Находит номера телефонов в форматах «+7 (095) 555-55-55», «(095) 555-55-55», «555-55-55». Это сложный пример, и в нем используется группировка скобками. Подробнее о применении скобок см. ниже.

    (?g)(<p>[^-].{5,59}</p>(\r\n)){4,} — Этот пример найдет нам стихи — цепочки (из 4-х и более) следующих друг за другом коротких (от шести до шестидесяти символов) параграфов. Такой вид (много коротких параграфов) характерен, например, для стихов. Первый знак не должен быть длинным тире, так как серии коротких параграфов характерны и для диалогов, а нам диалоги не нужны. Обратите внимание, что пришлось использовать модификатор жадности, так как в «не жадном» режиме мы бы нашли только четыре первых строфы.

    Метасимволы — варианты

    Вы можете определить перечень вариантов, используя метасимвол «|» для их разделения, например, fee|fie|foe найдет «fee» или «fie» или «foe», (так же как f(e|i|o)e). В качестве первого варианта воспринимается все от предыдущего метасимвола ( или [ или от начала выражения до первого метасимвола «|», в качестве последнего — все от последнего «|» до конца выражения или до ближайшего метасимвола). Обычно, чтобы не запутаться, набор вариантов всегда заключают в скобки, даже если без этого можно было бы обойтись.

    Варианты пробуются начиная с первого и попытки завершаются сразу же как удастся подобрать такой, при котором совпадет вся последующая часть выражения. Это означает, что варианты не обязательно обеспечат «жадное» поведение. Например, если применить выражение foo|foot ко входной строке «barefoot», то будет найдено «foo» так это первый вариант, который позволил совпасть всему выражению.

    Обратите внимание, что метасимвол | воспринимается как обычный символ внутри перечней символов, например, [fee|fie|foe] означает ровно то же самое что и [feio|].

    <(p|div)>.*</(p|div)> — найдет все корректно закрытые параграфы. Так же найдутся и включения вида <p>TEXT</div>, так что это выражение можно применять только на однородном тексте. Как альтернативный вариант можно предположить (<div>.*</div>|<p>.*</p>)

    Заметьте, что применив то же выражение в жадном режиме (?g)<(p|div)>.*</(p|div)> мы не найдем ничего полезного.


    Оговорка. Выражения с метасимволом «|» в FB Editor в режиме исходника НЕ ФУНКЦИОНИРУЮТ.


    Метасимволы — подвыражения

    У скобок в регулярных выражениях двоякая функция

    1. Скобки позволяют группировать элементы (аналогично математическому использованию)

    2. Скобки выделяют в исходном тексте подвыражения, на которые можно ссылаться при замене.

    Вы можете обратиться к любому подвыражению в строке замены используя его номер. Подвыражения нумеруются слева направо, в порядке появления открывающих скобок. Ссылка осуществляется в виде $N, где N-номер.

    Примеры группировки:

    (проба){8,10} — находит строку содержащую 8, 9 или 10 копий «проба»

    про([0-9]|б+)а — находит «про0а», «про1а» , «проба», «пробба», и т.д.

    Примеры замены:

    <p>(.*)</p> —>>— <div>$1</div> — Заменит все параграфы на разделы

    ((\+\d )?\(\d{3}\) )?(\d{3}(-\d\d){2}) —>>— $3 — Найдет в любом телефонном номере вида «+7 (095) 555-55-55» последнюю часть «555-55-55»

    (?g)([\s\(]|\A|<br>)(http://|ftp://|https://)([^\s\)"'<>]+) —>>— $1<a href="$2$3">$2$3</a> — Такая замена преобразует все URL, встреченные в тексте, в гиперссылки.

    (?g)([\s\(]|\A|<br>)(www.)([^\s\)"'<>]+)—>>—$1<a href="http://$2$3"$target>$2$3</a> — Преобразует все строки типа www.domain.root в гиперссылки


    Метасимволы — обратные ссылки

    Метасимволы от \1 до \9 воспринимаются как обратные ссылки. \N совпадает с ранее найденным подвыражением #N. В отличие от случая с заменой, где используются переменные $N, обратные ссылки можно применять в выражении поиска.

    Примеры группировки:

    (.)\1+ — находит «aaaa» и «cc»

    (.+)\1+ — также находит «abab» и «123123»

    (['"]?)(\d+)\1 — находит «"13"» (в дв.кавычках), или «'4'» (в один.кавычках) или 77 (без кавычек)


    Модификаторы

    Модификаторы служат для изменения режимов работы регулярных выражений. Они вводятся в виде (?imsgr-imsgr). Если модификатор вписан после минуса — он отключается, если нет — включается. Модификаторы подвержены группировке (в Perl нет), можно применить модификатор для отдельного участка выражения (см. пример).

    Модификаторы:

    i — Регистро-независимый режим. Использует выбранный в ОС язык по умолчанию. По умолчанию выключено.

    m — Воспринимать входной текст как многострочный, при этом метасимволы ^ и $ будут совпадать не только в начале и конце текста в целом, но и в начале и в конце всех имеющихся в тексте строк (см. также Разделители строк). По умолчанию включено.

    s — Воспринимать входной текст как одну строку. При этом метасимвол «.» совпадает с любым символом, если же этот модификатор выключен, то он не совпадает с разделителями строк (см.также Стандартные перечни символов). По умолчанию включено.

    g — Включая его Вы переключаете все повторители в «жадный» режим. По умолчанию включено.

    r — Модификатор предназначенный для русского языка. Если включен, то диапазоны вида а-я включают также букву «ё», А-Я включают «Ё», а а-Я включает вообще все русские буквы. По умолчанию включено.

    Примеры группировки:

    (?i)Saint-Petersburg — находит «Saint-petersburg» и «Saint-Petersburg»

    (?i) — Saint-(?-i)Petersburg — находит «Saint-Petersburg» но не «Saint-petersburg»

    (?i)(Saint-)?Petersburg — находит «Saint-petersburg» и «saint-petersburg»

    ((?i)Saint-)?Petersburg — находит «saint-Petersburg», но не «saint-petersburg»

    Оговорка. В FB Editor модификаторы НЕ ФУНКЦИОНИРУЮТ.

    (При подготовке приложения использовалась документация к ClearTXT (автор — Алексей Сорокин).)

    Приложение E

    Описание Base64

    Этот алгоритм был разработан для представления произвольных последовательностей байтов в форму, читаемую для человека. Кодирующий и декодирующий алгоритмы очень просты, но закодированные данные примерно на 33% больше, чем некодированные. Этот метод идентичен тому, который используется в приложениях PEM (Privacy Enhanced Mail), описанной в RFC 1421 с одним отличием: base64 не приемлет встроенного «чистого» текста.

    Base64 использует 65-символьный поднабор из US-ASCII, выделяя 6 бит на каждый печатный символ. (65-й символ «=» используется для обозначения функции спец. обработки).

    Этот поднабор имеет важное свойство: он идентичен всем версиям языковой кодировки ISO 646, включая US ASCII, а также всем версиям EBCDIC. Другие популярные механизмы кодирования (uuencode, base85 — часть уровня 2 PostScript) не разделяют этих свойств и поэтому не удовлетворяют требованиям переносимости для двоичных данных электронной почты.

    Процесс кодирования преобразует 3 входных символа в виде 24-битной группы, обрабатывая их слева направо. Эти группы затем рассматриваются как 4 соединенные 6-битные группы, каждая из которых транслируется в одиночный символ алфавита base64. При кодировании base64, входной поток байтов должен быть упорядочен старшими битами вперед.

    Каждая 6-битная группа используется как индекс для массива 64-х печатных символов. Символ, на который указывает значение индекса, помещается в выходную строку. Эти символы выбраны так, чтобы быть универсально представимыми и исключают символы, имеющие специальное значение для SMTP-транспорта («.», CR, LF) и для синтаксиса вложенных тел MIME («-»).

     Таблица: Алфавит Base64

    Выходной поток (закодированные байты) должен иметь длину строк не более 76 символов. Все признаки перевода строки и другие символы, отсутствующие в таблице 1, должны быть проигнорированы декодером base64. Среди данных в Base64 символы, не перечисленные в табл. 1, переводы строки и т.п. должны говорить об ошибке передачи данных, и, соответственно, почтовая программа должна оповестить пользователя о ней.

    Если в хвосте потока кодируемых данных осталось меньше, чем 24 бита, справа добавляются нулевые биты до образования целого числа 6-битных групп. А до конца 24-битной группы остается от 0 до 3-х недостающих 6-битных групп, вместо каждой из которых ставится символ-заполнитель «=». Поскольку весь входной поток представляет собой целое число 8-битных групп (т.е., просто байтных значений), то возможны лишь следующие случаи:

    (1) входной поток как раз оканчивается 24-битной группой. В таком случае, выходной поток будет оканчиваться четырьмя символами Base64 без символа «=»;

    (2) хвост входного потока имеет длину 8 бит. Тогда в конце выходного кода будут два символа Base64, с добавлением двух символов «=»;

    (3) хвост входного потока имеет длину 16 бит. Тогда в конце выходного будут стоять три символа Base64 и один символ «=».

    Т.к. символ «=» является хвостовым заполнителем, его появление в теле письма может означать только то, что конец данных достигнут. Но такой гарантии нет, если число переданных битов кратно 24.

    Любые бессмысленные последовательности в коде Base64 вроде «=====» должны быть игнорированы.

    Основано на:

    Спецификация RFC 1521 «MIME — Multipurpose Internet Mail Extensions. Part one.»

    (Перевод: Антон Воронин)

    Приложение Ж

    Описание стандарта ISBN

    Международное агентство ISBN присваивает идентификатор группы, который обозначает либо группу стран (например, 0 — для англоязычных стран: Великобритании, США, Австралии, Канады, Ирландии и других), либо отдельную страну (например, 933 — для ШР). Количество цифр в идентификаторе группы зависит от годового объема книжной продукции страны.

    Идентификаторы группы устанавливается международным агентством ISBN в следующих диапазонах чисел:

    0–7

    60–94

    950–997

    9980–9989

    99900–99999

    <...>

    1. Общие положения

    1.1. Международный стандартный номер книги — универсальный идентификационный код, проставляемый на книгах и брошюрах.

    1.2. В соответствии с ГОСТ 16447-70 «Издания. Термины и определения основных видов»   книга — непериодическое текстовое издание объемом свыше 48 страниц, брошюра — непериодическое текстовое издание объемом свыше четырех, но не более 48 страниц.

    <...>

    3. Состав и структура ISBN

    3.1. Международный стандартный номер книги состоит из аббревиатуры ISBN (независимо от языка издания книги или брошюры),  и 10 цифр.

    3.2. Дня обозначения цифровой части ISBN     применяется арабские цифры от 0 до 9. Последняя цифра    ISBN -   контрольная — может быть римской цифрой X, используемой для обозначения числа 10.

    3.3. Цифровая часть ISBN состоит из четырех групп цифр, содержащих различное количество цифровых знаков, отделяемых друг от друга дефисом.

    Цифровая часть отделяется от аббревиатуры ISBN пробелом.

    3.4. Четыре группы цифр ISBN располагаются в следующей последовательности:

    1) идентификатор группы;

    2) идентификатор издательства;

    3) порядковый идентификатор книги;

    4) контрольная цифра.

    Hапример:  ISBN 5-05-000746-1, где

    5 — идентификатор СССР;

    06 — идентификатор издательства «Радуга»;

    000746 — порядковый идентификатор книги;

    1 — контрольная цифра.

    3.5. Идентификатор группы устанавливается Международным агентством ISBN.

    СССР присвоен однозначный идентификатор 5.

    3.6. Идентификатор издательства присваивается Всесоюзной книжной палатой.

    Идентификатор издательства вместе с идентификатором группы служит для идентификации издательства на международном уровне.

    3.6.1. Идентификаторы издательства могут быть индивидуальными и собирательными.

    Советским издательствам присвоены только индивидуальные идентификаторы.

    3.6.2. Идентификатор издательства может содержать различное количество цифровых знаков (от двух до семи) в зависимости от объма выпускаемой книжной продукции.

    Издательствам с большим объемом книжной продукции присваивается идентификатор с наименьшим количеством цифровых знаков. Издательством с небольшим объемом книжной продукции присваивается идентификатор с большим количеством цифровых знаков. Идентификаторы издательств устанавливается в пределах следующих диапазонов:

    двузначные идентификаторы 00 – 19

    трехзначные 200 – 609

    четырехзначные 7000 – 0499

    пятизначные 85000 – 09999

    шестизначные 900000 – 949999

    семизначные 9500000 – 9997999

    3.7. Порядковый идентификатор книги служит для идентификации конкретного издания.

    Порядковый идентификатор книги присваивается издательством.

    3.7.1. Количество цифровых знаков порядкового идентификатора книги зависит от идентификатора издательства. Порядковый ISBN книги может содержать от одной до шести цифр. с таким расчетом, чтобы вместе с идентификатором группы, издательства и контрольной цифрой ISBN насчитывал десять цифр. Hапример:

    ISBN 5-02-000000-0 («Hаука»)

    ISBN 5-229-000000-0 («Металлургия»)

    ISBN 5-85700-000-0 («Белорус. сов. энцикл.»)

    ISBN 5-269-00000-0 («Сов. художник»)

    3.0. Контрольная цифра служит для проверки правильности написания цифровой  части ISBN  и вычисляется следующим образом: каждая цифра, входящая в состав ISBN    умножается на числовой весовой коэффициент — от 10 до 2.

    Результаты умножений на весовые коэффициент складываются. Сумма произведений делится на модуль 11 — (постоянный делитель).

    Из модуля 11 вычитается остаток от деления, который и является контрольной цифрой. Если остатка нет, контрольной цифрой является  0, если остаток 10, он записывается как X. Hапример:

    Цифровая часть: 505000746

    Весовые коэффициенты, расположенные в порядке убывания:

    10 9 8  7 6 5 4  3  2

    Результаты умножения на весовые коэффициенты:

    50 0 40 0 0 0 28 12 12

    Сумма произведений: 50 + 40+ 28 + 12 + 12 = 142

    Сумма делится на модуль 142: 11 = 12 + остаток 10

    Из модуля вычитается остаток 10: 11-10=1

    Результат — контрольная цифра 1

    Таким образом, полный ISBN будет:   5-05-000746-1

    (Из «Инструкции о присвоении Международного стандартного номера книги в СССР» (утверждено 11.02.1987)) (www.lib.ru)

    Приложение З

    Попытка анализа влияния «пиратов» на тиражи книг

    Какова роль «пиратских библиотек» в рыночной судьбе книги?

    В общем, спрос бывает опережающий, ответный и отложенный. При опережающем спросе ты с готовым продуктом входишь в зону давних ожиданий. Лучший пример: «диссидентская» литература в первые годы перестройки. Ответный спрос — когда ты даешь потребителю именно то, что ему надо сейчас («иронический», мать его, «детектив»). Отложенный спрос предполагает, что потребитель будет долго и брезгливо пробовать товар на зуб, и если поймет, какую конфетку ты предложил — выйдет лонгселлер. Это, пожалуй, «Дюна», хотя ее «ответ» пришел довольно быстро, всего через два года.

    Здесь действует один непреложный закон. При опережающем спросе читатель купит товар любого качества, лишь бы он удовлетворял основному параметру спроса. «Casual» Робски написан языком школьного сочинения. Про «Мечеть Парижской Богоматери» даже восторженные поклонники говорят, что книга вообще-то чтению поддается с трудом. «Золото бунта» тоже при чтении пытается «словить клинА», но уже по другой причине (Иванова, собственно, по этой причине и ждали-дожидались много лет).

    При ответном спросе всегда требуется облегченный товар. За него может сойти многослойная конструкция, замаскированная под облегченную, но все-таки Дэн Браун, тупой, как ступа, обыграет «свежего Пелевина» по умолчанию.

    И только в ситуации отложенного спроса, когда автор сам под себя формирует читателя, говорит с ним, а не заигрывает, пытается открыть новые горизонты или подвинуть старые, есть возможность успешно продать Глубокий и Неоднозначный Текст. Да, это рискованный маркетинг. Но именно так появляется большинство лонгселлеров.

    Разумеется, один и и тот же автор может крутиться во всех трех означенных сферах. Даже с равным успехом или равным неуспехом.

    И тут мы возвращаемся к животрепещущему вопросу современности — какова роль «пиратских библиотек» в рыночной судьбе книги?

    Как ни странно, в ситуации опережающего спроса пираты могут «отъесть» у автора не так уж много. Процентов десять-пятнадцать. Казалось бы, читатель ждет — не дождется товара и готов схватить любой текст, хоть бумажный, хоть электронный — ан нет. При опережающем спросе читатель всегда заранее знает, какую версию товара он будет брать. Если нацелен строго на электронку, ее и возьмет. Если хочет бумажную книгу, пробежится по магазинам. Тех, кто, не утерпев, все-таки слопал электронку, хотя целился на «бумагу», будет мало, и каждый второй купит «бумагу» позже.

    При работе автора под отложенный спрос пираты скорее полезны, чем вредны. То, что ущерб будущим бумажным продажам они нанесут минимальный, это точно. Книги отложенного спроса покупаются в бумаге, чтобы ставить их на полку. Но чаще — давать родственникам и знакомым. Даже самый убежденный сторонник чтения с монитора возьмет бумажную версию «маме с папой». Основной и наиболее эффективный рекламоноситель для книг отложенного спроса — сам читатель.

    А вот для книг ответного спроса пираты действительно опасны. Тут число нелегальных скачек может не просто равняться бумажному тиражу, но и превосходить его.

    Юля Остапенко напомнила мне фразу, которую я несколько лет назад обронил в расстройстве: «Куда вы прёте?! Фантастов и так как грязи!». Да, фантастов как грязи, коллеги. А будет еще больше. И все молодые-талантливые, и все хотят хороших продаж. Чтобы наконец-то заняться любимым делом всерьез — плотно засесть дома и штамповать книгу за книгой.

    Лично я гляжу в будущее со здоровым сарказмом. У меня из-за наступления «электронного читателя» на рынок тиражи могут стабилизироваться, но вряд ли упадут. Когда придет новое поколение, читающее только с монитора, и кое для кого из авторов наступит тотальный колхоз, родители этих «электронных читателей» по-прежнему будут покупать мои бумажные книжки. Потому что я до сегодняшнего дня своего потребителя лажал довольно редко, а больше радовал, чем надеюсь заниматься и впредь.


    (Олег Дивов. Страничка ЖЖ)

    Приложение И

    Копирайт и новая война луддитов

    Плач бумажного автора в электронную эпоху.

    Информационные потоки прошли три порога, испытали три революции.

    1. «Делай как я, сынок!» — лишь в учениках сохранялась мудрость древних. Устного наследия, распеваемого у костров, едва ли набиралось на мегабайтную дискетку.

    2. Первая революция: изобретение письменности. Знаки на камне, глиняные таблички, папирусы, телячья кожа. Грандиозный шаг вперёд — возникают библиотеки, писаные законы, книги и грамотные люди, которые их читают. Информация начинает стремительно накапливаться — пора вытаскивать гигабайтную флешку. Но рукописная книга стоила целое состояние. Средний землянин ни одной книги в доме не имел, даже библии.

    3. XV век. Вторая революция — Гутенберга. Матрица перевернула мир! Книга размножилась, подешевела и добралась до социальных низов. Хоть библия, хоть Пинкертон. Тогда и сложился классический канон книжного бизнеса и авторского права: автор право имеет и пишет, издатель продаёт и делится с автором, читатель оплачивает эту цепь и плачет над умершей Офелией. Терабайты слёз и формул, кляуз и воззваний заполнили ноосферу.

    4. 20 лет назад джинн вырвался из бутылки и показал всем электрическую кузькину мать третьей инфореволюции. Компьютеры, Интернет, электронные книги. Информационный поток, основанный на протёртой древесине и свинцовых буквах в чёрной краске, полностью сменился: информация стала практически бесплатно размножаемой, пересылаемой и читаемой. И каноническая схема «автор-издатель-читатель» затрещала по швам (объяснять? думаю не надо). А что будет дальше, когда для плавания в море информации появится умный киберсекретарь и учитель типа Робби…

    Как в эпоху ультрадешёвых электронов согласовать интересы автора, как платного производителя информации, и читателя, который желает быть её бесплатным потребителем?


    Давайте не будем фантазировать, а обратимся к вариантам, существующим в объективной реальности.

    Назовём «читательской» каноническую версию инфопотока: автор пишет, издатель распространяет, читатель финансирует. Название даём согласно источнику финансирования.

    Но известны три других варианта поддержки инфопотоков — и все бесплатные для конечного потребителя:


    1. Государственный. Государство оплачивает телеканал — и он становится бесплатным для зрителей. Государство может финансировать и распространение наиболее важных книг и журналов — например, научных. Наиболее массовый и яркий пример: на наше время (70-е — 80-е) учебники в школах были бесплатные. Каждый имел свой комплект. Потом стали давать с возвратом, а потом…

    2. Частный. Пример — нынешнее коммерческое телевидение, спонсируемое рекламодателями. Есть некоммерческие тиви-каналы, финансируемые частными спонсорами-меценатами. Есть бесплатные газеты, журналы и телефонные книги, которые живут на рекламные деньги.

    3. Добровольный. Авторы-добровольцы пишут, кто-то держит сайт для этих текстов, а читатель бесплатно их качает. Тут Самиздат и прочие интернет библиотеки с самодеятельными авторами. Перевод Гарри Поттера за несколько дней бригадой добровольных переводчиков. Этот вариант информационного потока допускает добровольную плату авторам и сайтам.

    Стоит напомнить, что варианты «государственный» и «частный» всё равно оплачиваются читателем, но только опосредованно: через налоги или покупку рекламируемых товаров.

    Если канонический «читательский» вариант книготорговли начинает пробуксовывать — то что делать?

    Попробовать запретить свободное распространение? По-моему, это будет очередная луддитская война, заранее обреченная на проигрыш. Свободного размножения и распространения информации раньше не было попросту по техническим причинам, сейчас оно появилось. Нельзя запретить его по причинам противоречия между новыми возможностями и традиционными отношениями «автор-издатель-читатель».

    ТРЕТЬЯ ИНФОРМАЦИОННАЯ РЕВОЛЮЦИЯ. Это не просто слова: меняется целый пласт сложившихся отношений, целые отрасли. Можно воевать за сохранение старого, а можно попробовать построить новое.

    Я выступаю не только как читатель, но и как автор текстов: научных и художественных. И тех и тех набралось по паре толстых книжек, хотя первые пишутся на порядок медленнее. Поэтому интересы обеих сторон мне близки. И я вовсе не хочу, чтобы профессиональные писатели исчезли как класс.

    Полагаю, что современному книгоизданию нужны ВСЕ схемы распространения и финансирования, включая традиционную.

    1. «Читательская схема». Распространение бумажной книги параллельно электронной версии — явление неоднозначное. Среди тех, кто ЗНАЕТ о выходе книги, оно уменьшает число покупателей. Но одновременно интернет-распространение электронной копии резко увеличивает число людей, который именно так УЗНАЛИ о выходе этой книги. Это вполне может повысить бумажные продажи. Мой опыт отслеживания интернет-продаж «Астровитянки» свидетельствует — её продаваемость повысилась. Книга попала в магазины в начале июня 2008, в августе она появилась в интернет-библиотеках, что вызвало бурную полемику и рост продаж. В начале ноября издательство сделало допечатку тиража. Но вряд ли это универсальное правило. Кроме того, если через лет десять читатель перейдет в основном на электронные книги, то продажа бумажных книг резко уменьшится и перестанет играть доминирующую роль в книготорговле. Но бумажная книга останется — подарок, дань традиции, ниша любителей, малышей и пожилых людей. Поэтому читатель продолжит своё финансирование бумажного книгоиздания.

    2. «Государственная схема». Если при одной из существующих государственных библиотек сделать электронный отдел, в который библиотека будет ЗАКУПАТЬ права на лучшие книги, то это решит многие проблемы. Автор закупаемой книги получит некий начальный гонорар и процент от будущих скачиваний (с отдельными расценками по детективам и математическим монографиям), а налогоплательщик — право бесплатного пользования этими текстами. Это лишь одна из возможностей — причем абсолютно реальная. Тут надежда и на межгосударственную конкуренцию: первые страны, которые перейдут на такое бесплатное (для читетеля) распространение информации, получат наибольший выигрыш в уровне образования населения — и бОльшую конкурентоспособность в мире.

    3. «Частная схема». Здесь море вариантов. Библиотеки популярных книг при интернет-газетах. Книги повышают посещаемость газеты и рекламные доходы, авторы получают гонорары (часть рекламных доходов газеты). Или: частные корпорации платят гонорар автору книги, и получают право поместить на обложку скромную, но гордую надпись: книга сделана бесплатной для широкого читателя благодаря магазину «Южная мебель» — адрес, сайт. Распространение книги дает компании рекламу. Это не утопия — я видел такие «культурные рекламы» в США. Какой-нибудь «Боинг» спонсирует кучу культурных мероприятий.

    4. «Добровольная схема». Этот вариант не предусматривает оплаты авторам, поэтому останется для энтузиастов.

    В целом возникают сложные проблемы отбора текстов из бесплатных в оплачиваемые по схеме 2-3 (аналогичная трудность уже существует для схемы 1).

    Конечно, все эти проблемы нового электронного книгоиздания ужасно сложны, но разве кто-то обещал тебе легкой жизни, сынок?

    (Ник Гарькавый. Страничка ЖЖ)







     

    Главная | В избранное | Наш E-MAIL | Добавить материал | Нашёл ошибку | Наверх