非破壊自炊に挑戦(7)その他、個人的な意見として

一応今回、非破壊自炊のやりかたについて長々と書いてみましたが、ここで自炊行為について個人的な姿勢を掲げておきます。

あくまで自炊行為は私的複製権の行使の一形態に過ぎず、音楽のように持ち歩きメディアに転送することと同列の行為だと考えています。
ですから、本を裁断しようがしまいが、それが個人の勝手だという理屈は否定しません。古本屋に売るのと同じですからね。
ただ、正直に言ってしまうと「新刊本を裁断して」とか言うのはもう心得違いだと思うんですよ。少なくともこのご時世(koboが出てから、大手出版社の新刊の同時電子書籍化というのは必然に近い形)、携帯利便性を問うなら新刊本を買うのでは無く新刊電子書籍を買えばいいし、また作家に対してそれを訴えればいい訳ですよ。

本を読んだ事によって、その書籍と共有した時間というものが読書価値である、という個人的な意見の元においては、ツールはともかく、一度手にした物を故意に破壊するという現在の破壊自炊については、あまりにも違和感ありすぎだし、それははっきり行って金を溝に捨てる行為だと思うのですよ(本に投資したのが、ではなく、機材に投資したことが、です)。

紙の本には、電子書籍には出来ない仕掛けがある訳です。正直、どう頑張ったって泡坂妻夫の仕掛け本(『しあわせの書』と『生者と死者』)は、固定レイアウトでしか再現できないし(ってか『生者と死者』に至っては絶対に無理)。
逆に電子書籍には電子書籍にしか出来ないことがある訳で、でも残念ながらそういうものはまだ表に出てきてないですよね(別に音楽埋め込みとかそーゆーことを行っている訳では無い。そこ、誤解しないでね)。

あくまで著作に対する利益は著作者に帰属し、編集権というのは著作者と編集者の間で取り交わされる契約だと思っています(現在は、製造コスト・流通在庫コストを出版社側が負担するビジネスモデルである為、編集者の上位概念である出版社主体ですけどね)。
従って電子書籍と紙の書籍の価格差が殆ど無い現状は、ちょっと違うような気がします。
自炊行為というのは、あくまでこの「編集権」について作者の了解無く行う行為であり、そこに他者が関与するというのは好ましいことではありません。
従って、自炊代行業者のような所にお金を落とすのは、個人的には「全くもって言語道断」であり、「そんな事までして本読む必要ないんだから、そもそも本を買う資格すら無いんじゃ無いの?」と思うのです。とっとと電子版で買えばいいし、電子版を出さない作家に対して不買運動すればいいだけでしょ、と。

ですから、あくまで今回の作成プロセスの公開については、「ちょっと時間かかるけど、自分たちで出来るじゃん。自分の責任で楽しみたいなら自分でやればいいじゃん」という話なんだよね、という事をちょっとでも感じて貰えたと思った訳です。

最近、なんか小説に物足りなさを感じるんですよね。
ラノベ・キャラノベのようなのが売れているというのが、この事態を象徴してますけど、なんか世代間断絶みたいなものを感じますよ。
もっと実のある読書ガイドとか作っていかないといけないと思うんですね。「ああ、これ、読んでみたい」と思わせるようなブックガイドが必要だと。

その為にも、読みにくくなった古典・中堅作品を積極的に電子ドキュメント化していかないとね。
そういう作品を一手に電子化・販売窓口・原盤管理・オンデマンド出版等を手がける出版社を、推理作家協会とSF作家協会と文芸作家協会は共同で立ち上げてもいいんじゃない?
※あくまで絶版本・品切れ本の復活が目的。だから版元と喧嘩した佐藤亜紀とか森雅裕とかも関係なく拾っていく。もし権利団体ともめたままなら、その来歴と互いの言い分を掲載する形で発表するなど、いろんな事が出来るよね。

そういう出版社出来たら、提案者として俺雇ってよ。もう、しゃにむに頑張っちゃうからさ。

非破壊自炊に挑戦(6)外字・Epub用処理・mobi生成

さて外字の話題です。
外字というと、Windows3.1の頃に色々と外字エディタを使って外字を大量に作ったり、会社のシンボルマークを強引に一字TTFフォントにしたりした経験があるんですが、まあ外字エディタでは「そのPC限定」だというので、フォントファイル生成が一番ましなのかな、と。

ところでEPUB3の規格を読む限り、外字の扱いは次の通りとなっています。

  • 普通に文字データで表現する。
  • OpenTypeフォントかWOFFフォントを埋め込む。
  • SVGフォントを埋め込む。
  • 画像で処理する
  • 説明テキストで表現する

をぃをぃ。「ふつーにもじでーたでひょうげんする」って何だよ。→「ネ申」(カタカナの「ネ」と漢字の「申」で「神」という漢字を示すこと)みたいなこと? だとしたらこれ縦書きでは無理ですわ。
ちなみに異体字表現ルールとしては「標準字体」を割り当てる事がこの方法に挙げられます。

OpenTypeフォントとWOFFフォントは、どちらも俗に「WEBフォント」と呼ばれる物。EPUB3ではTIFFと共に標準で表現できるように規格されていますが、原則としてUnicode上にその文字に予約されたコードが割り当てられていることが必須です。従って、全くない連中は「コード読み替え」などをしなくてはならず、同じ文字の異体字の外字が複数あると、結構管理が大変(ファィルの名前付け規則として推奨されているのがUnicode名を使うこと、となっているので)。
フォントエディタで日本語対応(生成できる文字が、ではなくメニューやヘルプが)されている物が有償の物しか無いのが残念。また、縦書き横書きなどの指定が大変。トライしたものの途中で放棄してしまいました。

SVGフォントというのは、ベクタデータ画像ファイルであるSVG形式の画像をフォントとして扱わせる方法。ちなみにSVG形式でのベクタデータでの外字作成と文字コード割り付けについては、GlyphWikiでテスト生成可能です。
但し、これはEPUB3の仕様上MustではなくMay、つまり「読めるようにしといたらいいとおもうけどね」的状態なので、リーダーソフト・ハードが対応しているかどうかで話が変わります。ちなみに、SVG画像として埋め込むことは出来ましたが、フォントとして引っ張ることには失敗しました。

画像で処理する、というのはmobiファイルの推奨形式で、Amazonの文書見ても他の方法は触れてません。JPEGかPNG形式、しかも128×128ドット以上8ビット(256色)透過png推奨との事。

説明テキストとは「つちへんに州」とか、括弧書きで記述する方法。小説でこれはリズム崩すからねえ。

今回の目的はmobiファイル変換なので、ちょっと配置上気にはなるけれど、画像形式を選択します。
で、今回はフツーにお絵かきソフトで、似たような部首の文字をラスタデータ化し、レイヤで調整しつつ作成しました。
この時、やや太め(明朝の太字、128×128の場合、100ポイントで作成)にした上で、微少な修正(縮小されたときに線がつぶれすぎないようにする)を加えます。

今回作成したのは以下の4文字+異体字1つです。

(この字だけは、どうしても文字サイズによっては字が潰れます) 拳の異体字に至っては、手元にあった異本すべてと照合したところ、すべてこの字を使っていた為、標準字体を使いたくなくて、無理矢理作りました。

ああそうそう、この字があるかどうかはCHISE IDS Findで検索するといいです。もしかしたらそこでGlyphWikiで公式に生成された字データが出てくるかも知れませんよ。ここに挙げた物のうち「拳」の異体字以外は、ありませんでしたけど。

なお出来上がった文字画像は、英字+数字のファイル名で保存。たとえば「U62F3.png」はOKですが、「U+62F3.png」はアウト。Epubでは表示できますが、mobiでは表示出来ず画像記号になってしまいました。

さて、これらをどうやって表現させるかというと、XMLっつうかHTMLの<img>タグ、ではあるのですが、そのままでは文字サイズが固定されてしまいます。そこでCSS(スタイルシート)をいじります。

まず、ルール上、epub3の画像はimagesフォルダに保存する事が原則です。画像ファイルをFUSEe画面上にドラッグ&ドロップすると、勝手にimagesフォルダに格納されます。

で、次に修正するのはCSSの設定ファィルです。
CSSは以下の物が出来ているはずです。
・coverstyle.css:カバーページ用のスタイルシート
・stylecommon.css:標準のスタイルシート
・stylevartical.css:縦書きの設定用スタイルシート
・stylehrizontal.css:横書きの設定用スタイルシート
一応、専用に別途スタイルシート埋め込んでもいいんですが、色々トライした結果stylecommom.cssに追加記載するのが一番わかりやすいという事が変わりました。
なお、WEBのCSSと違って、自分でスタイル名を勝手に追加できる訳ではないようです。使えるタグについては全部調べてませんけど。
ではstylecommon.cssの一番最後に以下のように追記します。

 img.gaiji {
    width: 1em;
    hight: 1em;
    display: inline;
    vertical-align: text-bottom;
}

ここで注意したいのが、EPUBとmobiで文字位置の解釈が違うらしいという事。mobiの場合一番最後の「vertical-align: text-bottom;」があると、図の位置が派手にずれました(他の所で悪さしている指示があったのかも知れませんけど)。しかしこれがないとEPUBでは微妙に文字の位置が右寄りにずれます。
ですので、最終目的にあわせて入れるいれないを判断して調整すると良いようです。
また、このCSSのお陰で、画像サイズは文字サイズにフィックスされますので、本文の方に入れるimgタグでは特にサイズ指定しません。

で、本文はいつも一括変換かけてますが、
<img alt="" class="gaiji" src="../images/U62F3.png" />
(拳の異体字の場合です。当然ながら、それぞれの外字については、そのファイル名にしないと駄目ですよ)
のようにimgタグを埋め込みます。
一応判っているとは思いますが、全XMLファイルについて外字の埋め込みしないと駄目ですからね。
※一応、最初に変更内容を書いておいた一太郎ファイルに、CSSの内容とIMGタグは書いておいた方が。EPUB再作成したら飛びますからね。

最後に目次。

実は生成された目次ファイルはインデントではなく、スペース埋めで段差がついてます。これは表示上みっともないので、<a href=>の記述とスペースの位置を切り替えてください。今回、インデント処理はしませんでした。

こうして出来上がったファイルをEPUB3形式ではき出してください。
出来上がったEPUBファイルは、そのままEpubリーダーで読むことが出来ます(一部のリーダーではなんか変な表示になりますけど、国産品なら大丈夫でしょう)。
Kindleで読みたい場合は、FUSEeからでも出力する方法(KindleGenというプログラムをアマゾン英語サイトから入手して、そのパスを登録すれば出来ます)がありますが、Kindle PreviewerにEPUBファイルをドラッグ&ドロップすると、「Compiled-<EPUBファイル名>」というフォルダを生成し、その中にmobiファイルが出来てます。
そのMobiファイルをリネームして、Kindleに転送すると「アイテム一覧」から「ドキュメント」あるいは「すべてのアイテム」をチェックすると、読むことが出来るようになります。

非破壊自炊に挑戦(5)OCRと一太郎での作業

さて実際にOCRにかけるのですが、ここで注意事項を挙げておきます。

  • ・「読取革命」で変換できるのは、原則JIS水準にあるもののみで、Unicode依存の文字は《環境損文字》として扱われ、その後の編集に影響が出る(少なくともその一行は文字を選択しても画像の該当部分を表示しない)。よって異体字や外字の取り扱いの際には無理な入力は避けて、一太郎側で編集する。
    例:異体字の場合は標準文字を入れておき、その事を一太郎の別ファイル(補足とか名前を変えておく)に「標準字」→「異体字」、という風に記載する。 具体的には「装填」→「装塡」、「蝋」→「蠟」
  • ・Unicodeにしかない文字は記号で表現し、一太郎の別ファイルに前後の文字と組み合わせて記載する。
    例:「占★」→「乩」※間違っても一括変換などする時に★を変換元に入れ忘れないこと。「★子埔」→「崁子埔」
  • ・どう探しても字が出てこない場合は外字扱いとする為に記号で表現し、一太郎の別ファイルに前後の文字と組み合わせて記載する。
    例:埤★ → 埤 土州(つちへんに州)
  • 図版は別途トリミングする。その場合、後で画像処理ツールで白黒2値(Notグレースケール)にする事を前提に、光ムラを最小限にするように撮影する。
  • 変換効率を上げるため、事前に撮影画像に以下の修正を加えると後が楽。「紙の汚れを明るめの色で補正する(ただし一番光っている所の文字色の近似値にならないように。ソフトによってはそのへんの色を間違って変換することがある)」「汚れ(インク滴、背面の過度な映り込み、髪の毛など)は背景色にそろえる」「ルビ・ふりがなや圏点は消しておいた方がいい(間違って隣の文字とくっついて認識される率が高く、逆にルビとして独立して識字される率は低い)」

※何せ戦前の台湾を舞台にした小説なので、最終的に4文字が見つからず、さらに1字だけ異体字が存在しない事が判明し、合計5文字が外字さなりました。また、ルビや圏点は版元・紙質・紙焼けの度合い・フォントサイズ等で認識されたりされなかったりです。基本的にルビまで認識させるのは無謀です。

一太郎を入れるともれなくATOKが入ります。ATOKの文字パレットはかなり強力な文字検索ツールですので、IMEパッド使うより便利だと私は思いますが、そこは人の好き好き。

読取革命の機能に「一太郎に吐き出す」機能がありますが、正直長編小説を吐き出すには向いてません(間違って状態保存しそこねた時に、過去の分の認識結果テキストが消えます。吐き出したものを読み込む機能はないようですし)。
何画像かに一度、変換内容を一太郎に貼り付けて行った方が利口だと思います。
こまめな保存という観点から見たら、作業状況の保存よりも変換結果の完成データの保存の方がいいです。
ちなみに私は、4画像ごとを原則としていましたが、これは作業にB5ノートPCを使っていて(ThinkPad X61)、ここに表示できるのが4画像だった為です。まあ、16ページ8ページ単位(すみません、最初間違ってました)で一太郎に貼り付け、成形するという事になります。

読み込みは書籍1行につき1改行されます。ですから、改行位置を原本とつきあわせつつ、不要な改行記号を削除してください。

あと、OCR作業字の注意事項としては、「一括変換する時は、正しく変換されている文字は「変換対象にしない」こと」を強くお勧めします。と、いうのは読取革命のユーザー辞書は1万件で、「、」「。」「の」「っ」「い」などは識字率が低いため大量登録されてしまいます。あまりにもひどいと思ったら、読取革命の上での一括変換は諦めていちいち手入力した方がいいです。

一太郎での作業の本番は、全編をOCRで変換してからです。

  • まず、異体字の変換を実行します。置換機能を利用してください。
  • 通常の画像はレイアウト枠で埋め込んでください。
  • 文章中に埋め込みたい図は、外字と同じ扱いにします。
  • 外字はここでは扱いません。FUSEeで処理しますから、手を出さないこと。
  • 縦書き書籍の場合は、原本と同じ一行字数・一頁行数にした上で縦書きにレイアウトに変更します。
  • ルビ・圏点を、原本を参照して書き起こします。一太郎の機能では、ルビ:「書式」-「ふりがな」 圏点:「書式」-「文字飾り」-「傍点」です。
  • 最後に目次を設定しますが、改頁と密接な影響が出るので、最初は「目次2」で設定してください。「挿入」-「記号」-「改ページ」とEPUBの 改頁は一致しません。

一番最後の問題、改頁。実は一太郎2012の段階では改頁指をはき出しません。では強制改頁をどうやって演出するかというと、ドキュメント部分のXMLファイルそのものを別ファイにして改頁を再現します(別ファイルに書かれているのだから、一画面に連続して表示しようが無くなるわけです。そりゃそうだな、と)。
強制的にXMLファイルを分割する単位に、一太郎の目次機能の「目次1」タグを利用しています

従ってこの『内部の真実』の場合、なんとしても第一部と第二部は改頁せねばならない構成上の理由があったため、以下のような構造になるように仕組みました。(なお一太郎の目次機能を使うと、自動的に目次ページが生成されます)
 cover.xhtml    -表紙。これは後で説明。
 navi.xhtml     -自動生成されるファイル。
 document1.xhtml -目次。
 document2.xhtml -中扉。作品タイトルだけのページ
 documnet3.xhrml -第一部 玉蘭姉妹の庭(Ⅰ~Ⅹにリンク)
 document4.xhtml -第二部 個の権利(Ⅰ~Ⅱにリンク)
 document5.xhtml -書誌・校訂:ちょっとカッコつけて書いてみましたなもの
ちなにみ、一太郎上では原本にそろえるべく改頁記号は入れてありますが、これは確認作業の都合上わかりやすくするために行っているものです。
※まだ試していませんが、シートを別にするとそれだけでXMLファイルが分割されるのかも知れません。
目次レイアウト自体はEPUB形式にしてからいくらでも(多少は知識がいりますけどね!)修正可能です。

ついでに、この段階で一度、必ず原本との校訂、および必要なら(今回の目的のように、複数の異本を照合する場合は)異本との照合作業をして校異校訂をすませておきましょう。
EPUB化にコケたり編集ミスっても、一太郎ファイルを正本として保存しておけば取り返しがききます。

最後に。一太郎ファイルに関しては忘れてはならない格言を。忘れちゃいけないこまめなセーブ

あと、原稿のバージョン違いは最終決定するまでそれぞれ保持したほうがいいです。

非破壊自炊に挑戦(4)では実際に撮影してみましょう

今回非破壊自炊したのは、この本です。

今は無き社会思想社・現代教養文庫刊
日影丈吉傑作選Ⅲ 『内部の真実』
です。
この作品は私のミステリ感を全く180度変えてしまった作品でもあるので、是非とも手元に置いて読みたい本でもあるのです。
そもそも日影丈吉に触れたのが『夕潮』の刊行時点(1990年)。読んでみてなんとも言えぬ感覚にとらわれて、売っている物で入手可能ならと思ってLIBRO池袋(当時地下2階に移ったばかりの頃ですな)に駆け込んで、本棚にあったのがこれと同じく傑作選Ⅱ『猫の泉』だった訳です。
なお傑作選Ⅰ『かむなぎうた』は今に至るまで入手していません。結構キキメなんですよね、これ。

当時就職活動してて翌日面接があると言うのに、布団に入って読み始めて止まらなくなり、最後の大手大尉と津路軍医の会話で「え、えええええええっっっっ」と絶叫して飛び上がり、布団の上に正座して「ま、参りました~っ」と土下座してしまった記憶があります。

ってのと、あとこのカバーアート。建石修司のこのカバーアートが、本文に出てくるヒロイン(正しく言うと主人公・小高軍曹の憧憬する少女のイメージを愚けんかしたような存在である女性)のイメージと結びついて、しばらく脳裏から離れなかったという思い出があります。
やっぱり建石修司はいいよなあ、うん。
※この画像は、デジカメで撮影した物に多少手を加えてありますが、絵の部分は補正していません。

元版は1959年、講談社「書き下ろし長篇推理小説シリーズ」第3巻として刊行。その後雑誌「別冊 幻影城」収録時に数カ所の改訂を行い(が、この時誤字脱字が多かった模様)、それをこの文庫は底本としています。
ちなみに現在一番新しい国書刊行会『日影丈吉全集』では、誤字脱字の多さを理由に初版に準拠している為、私にとどめを刺した言葉が採録されていません(巻末に異同対照表が掲載されている)。
ですので、今回は誤植の修正と、改訂結果によるストーリーのバランスを考慮して、くぼたさん的完全版を作ろうかなと思った訳です。

……いや、ここに作品への思いをぶつけても意味ないじゃん。

さて、前回挙げた機材をここでセットします。

ドームスタジオの中で、こんな感じに三脚+雲台+延長用の機材+デジカメを設置します。
これをやるから、一眼レフみたいな重い奴だと簡単に倒れてしまうのである。実際このように、三脚を後側に倒し加減でセットする為、普通に雲台等を追加いなかったら、三脚の足が入ってしまう。そうすると(初期の撮影で苦労したが)全体が入らないという問題に悩まされるのです。
コピースタンドだと下手するとドームスタジオLでも無理っぽかったので。つらいですなあ。
こうなっちゃうともうファインダーはのぞけませんから、SZ-5のようにリモートで撮影できる状態が一番良いとなります。

そこに本をセットします。
 
ちなみに、向かって左上からスタンドで光を当ててます。これで陰が殆ど出ませんので、紙焼けした本ではこれが後からじわじわ効いてきます。
なお、逆にこの程度では光源が弱いので、必ず露出の設定を+1以上にしましょう。実際には+1で十分行けます。
これで、見開きごとに撮影していきます。
ちなみに、左右の高さがずれるときは、読書クリップで上を、指で下を押さえました。
できあがりはこんなかんじです。

※この時点ではドームスタジオがありませんでした。
まだ焼けが少ないのですが、これでも「す」「ま」「し」などはちゃんと変換されませんでした。
この仕上がりを一枚一枚チェックし、指が妙にかかっているページや、クリップの陰が邪魔しているページを撮影し直し、変換順を間違えないようにファイル名をリネーム(今回、本文と表紙だけで100枚以上撮影していますので、順番が狂わないようにファイル名ソートが簡単な状態にしておくのが吉)して、という一連の作業で撮影を終えます。

あ、あまり大きく綴じ口を広げなくてもいいみたいです。

非破壊自炊に挑戦(3)必要な道具たちとか

さて今回の方針は決まりましたが、必要な道具について触れなくては成りません。

※本当はAmazonからデータ引っ張りたかったのですが、気がついたら仕様変更になっていて、データが取得できませんでした。今度しっかり研究しようと思います。

1.撮影用機材
デジカメ:Panasonic Lumix SZ-5 これにした理由は、リモコン機能があるから。
サポート:エツミ ドームスタジオM 後述しますが、あると便利です。
三  脚:どこぞの小型三脚(メーカー名忘れました) 一眼レフ用のものではなく、コンパクト用の小型品
雲  台:どこぞの雲台(かなり昔に買ったもの)と、どこぞの延長フレーム
本当は欲しかった三脚:デジカメ撮影スタンド 例えばハクバのとか。コピースタンドでも可

まず Lumix SZ-5。これは、基本的に本の真上から撮影する事を前提にしているので、本を押さえながらカメラのファインダーを覗きつつシャッターを押す、なんて芸当が無理だからです。
その為リモコンORレリーズ付きのものでもあればと思ったのですが、Android携帯をリモコン化出来る機能がある(ついでに、携帯側がファインダーの機能も果たす)というこれのみが選択枝となりました。
しかし、ビックカメラ聖蹟桜ヶ丘店のカメラ担当、非破壊自炊くらい知っていてくれ。とんちんかんなものを勧められても困るのよ(最近はやりのミラーレス一眼勧められたが、あれなら今持ってるDiMAGE A200の方が都合が良いのだ)。

あと、紙って意外と光を反射する傾向があります。一時期はやっていた嵩高紙のようなエンボス加工してあればともかく、光の強弱と印刷のノリの悪さで範読が難しくなることもあります。
その為、光の強弱を考えたらドームスタジオのような遮光・拡散光キットは必須です。カメラへ本体をドームスタジオ内に入れてしまえば、まず間違いなく自分の影は出ません。

三脚はカメラ固定用。本によって距離が違うので、それなりのものを。
そこに雲台(三脚のカメラ固定部分)を別途つけているのは、そのままでは自分の三脚の足が入ってしまうから、少し先に延ばしているのです。これがコピースタンドや撮影スタンドのようなものであれば、そこは気にしないのですが、なにせお高い! 最修飾祝いの自分へのご褒美という方向で検討中。

2.本を押さえる道具
書見台
読書クリップ

実際、本は厚みによって開いたページが反り返ってしまうので撮影されるテキストはどうしても扇形になってしまいます。
本来は「直角に本を押さえ込み、ページがめくれないように固定できる道具」があれば良いのですが、あいにくそんな都合の良いもは存在しません。(そのうち木の板とゴム紐とL字金具で自作するかも)
そこで、単行本は書見台を、文庫本は読書クリップを使うことにしました。
どうしてもたわみの量を抑えたい場合は、薄い側の背後に本を入れるなどの工夫があればいいと思います。

3.PC上の処理道具
OCRソフト:読取革命Ver.15
ワープロソフト:一太郎2012承
EPUB編集ソフト:FUSEeβ
mobi変換ソフト:Kindle Previewer
その他:画像編集ソフト(透明pngに対応していればなおよし)

まず、デジカメで撮影した書籍は、場合によってはなんらかの画像処理をしないと認識率が下がる傾向にあります。
その為にも簡単な画像編集ツールは必要です。くぼたさんの場合、昔から使ってバーション上げてないPaint Shop Pro8 を使ってます。だいたい本の紙焼けが問題になったのは1980年代ですから、その前後の文庫本は酸性紙を使っていることが多いので、茶色く変色しているはずです。この場合、シャープネスを強くすることで、何とか識字率を上げることが出来ますが、強くしすぎると今度は茶色部分が強調されて汚れとして拾ってしまう事があるので要注意。
OCRは最近数が減りましたね。昔は富士通さんのImageOfficeのOCRが最強だったのですが、いつのまにか違うソフトになった上に手に入らなくなってしまいました(いや、もともとImage OfficeってOCRソフトじゃなくて、電子ドキュメント管理ツールだし)。そこでWebの評判で「読取革命」に決めました。
実際問題として文書を編集するのはエディタでもFUSEeでもいいのですが、一太郎2012はEPUBエクスポート機能があるので、一括変換とかルビ振りとかなど、おおざっぱな所は一太郎側で処理してしまえばいいんです。
FUSEeの方にはWordから読み込む機能がありますが、何せWordは縦書き文書のレイアウト能力はからっきし駄目って事で、挿画とかあった日にはどうしようと悩む結果が待っているので。
ただ、EPUBの規格の都合上、変換したEPUBは一太郎では編集できないので、最後の微調整はFUSEeでやります。(製品版もあるのですが、今回はテストの為試用版でやっています)。
最後にKindleの確認用ビューアソフトであるKindle PreviewerにEpubファイルをドラッグ&ドロップすると、中間ファイルとしてmobiファイルやらフォルダやらを作ってくれるので、それで行きます。
最後に、外字作成用にmobiファイルが推奨しているのがpng形式の画像ファイルである為、それが編集できるソフトがあった方が良いと言うことになります。

外字については色々問題をはらんでいるので、別項でしっかり触れます。ってか書かないと忘れるって。

非破壊自炊に挑戦(2)取り組みの方針

いや、その後体調不良(下痢が止まらない)状況で何にも出来なかったのですが、1冊完成した(仮ですが)ので、続きを。

まあ、正直、自炊という行為は本来好ましいことでは無いのですが、個人の私的複製の範囲であれば良いと判断するわけです。
だから、業者に依頼するなんて事は、しないというのが根本方針。
※業者さんが悪という訳ではありませんが、本来は現存する範囲の版元は、その作品について電子化を請け負うべきだと思うのですよ。それ以外は、他人に代行する事へ費用を投資すること自体が個人の趣味の範囲を超える、と勝手に思っているだけです。

で、基本的な話として、完成品がどうなっているか、という事を前提に選択肢を考えます。
1.取り込んだ情報を画像として表示させる
2.読み込んだ情報をPDFとして管理する
  (OCR機能によるテキスト情報追加を含む)
3.文字情報を書き起こして、文書として掲載する
の三択です。

まあ一般的に一番多いのは2.のPDFです。この利点は「外字の処理」にあります。
前述したとおり2バイト文字文化圏の漢字がすべて表示できる訳では無いので、無い漢字をどうにかして表示させる必要があるのですが、画像をPDFにしてしまえば、外字のことは気にしなくて良いのです。
いや、文字情報ありでやりたいなら、「超漢字原稿プロセッサ」からPDFにはき出してしまえば良いのです。
ところが、例えば古い本だと紙が焼けてしまってい、読むのは大変になってしまう、というデメリットが1つ。
そして、文字サイズの変更が出来ないという問題が一つ(拡大は出来ても、改行位置が変わらない)。

将来のことを考えると、文字サイズを変更しても読みやすい方法が好ましいので、3.の文書として書き起こすことにしました。

じゃあ、わざわざ全部ワープロ打ちするのか、と言われると、それは労力が大変です。
なので、今回は
1)書籍の画像を取り込む → 2)画像データから文字をOCRで読み込みテキスト化する → 3)完成したものをワープロで推敲・編集する → 4)EPUB3形式にして保存する
というプロセスで対処しようと思ったわけです。

前にも言っているとおり、本を裁断して読み込む、なんて事はしたくありません。
(自動紙送り・両面読み込み機能があるドキュメントスキャナなんぞがを新しく買う気にもなれないが、何しろ裁断したら二度とその本は使い物にならない訳です。それは本に対して失礼だと思います)
じゃあ、フラットヘッドスキャナに本を押し当てて綺麗になるようにして取り込むか、と言われると「本が壊れる」ので、それはなし。上手くいかないときに何度もやり直すのは本がかわいそうだから。
(無線綴じ平綴じの文庫本の場合だと、そこから糊が剥がれてページが脱落する事が多い)
という訳で、デジカメで撮影する、という方法を今回採用しました。

では具体的な方法と対象書籍、必要な道具については次回。

非破壊自炊に挑戦(1)概略

11月に入ってから妙にレスポンスが悪いと思われている方も多いと思います。
リストラ対象と言うことで有給休暇消化してんじゃないのか、という世界の筈なのにこれはどうしたことか?

ええ、実は今、非破壊自炊という奴に挑戦しています。

非破壊自炊というのは11/4に書きましたが、自作電子書籍の一形式です。

まず、電子書籍という最近話題のモノについて、独自の見解でお話ししていきます。あまりに偏った意見なので「意見には個人差があります」(マルC:「今夜も生でさだまさし」by NHK)ということでご了承ください。

まず電子書籍というのは3つの状況を1つの言葉で表しているので、そこを理解しておかないと。
1.コンテンツとしての「情報」-ま、ケータイ小説なども含めて「本文・挿絵」のことです。
2.コンテンツを見る為に用意されている「規則」-いわゆる「規格」です。
3.規則に則って閲覧するための「道具」-PCやタブレットなどでは「ビューアソフト」、それから最近話題の「専用端末」
これらについてそれぞれ別のモノであるという認識を持った方がいいのであります。

正直に言ってしまえば、「1.コンテンツとしての「情報」」は今後出版されるモノの大半は電子化が同時並行で行われると思います。だから、よほど体力が無い会社で無い限りは、「電子化しないというステータス」「電子化では得られない感動がある、というポリシー」で運営する版元以外は、今後のものについては問題が無い。
そしてもう1つは、昔からある電子書籍の中でも、著作権切れコンテンツのテキスト化をやってきた「青空文庫」のコンテンツを利用すれば、それなりに古典名作は読めるわけです。

※青空文庫と著作権切れ:現行法において、著作物は著者の死後75年を経過(戦時加算を除く)したもはの著作権切れとなるのだそうです(翻訳物は現著者+翻訳者で決定)。これらについては著作権継承者は金銭的な対価を求められなくなる、そうです。その為死後75年を超えた物を有志でテキスト起こしして公開しているのが「青空文庫」。従って各電子書籍ストアで青空文庫のテキストを利用している物は価格0円となっています。また、著作権を保有している作家でも無償提供している作品があります。つまり、現在の所戦後まもなく亡くなられた方くらいまでは、無償公開可能という事になります。
これについて個人的な見解を残します。確かにテキスト公開化は0円でもよいですが、校異校訂や異本調査・改訂履歴追跡といった編纂作業は対価が必要であると考えます。特にある一定の価値のある作家の全集の書き起こしなどの場合、その解説や校異校訂について、また資料書き起こしについては有価として販売することが望ましいと思うのです。(そのことをしっかり明記した上で、ね)。

で、じゃあ一体どんな時に本を読みたくなるか、電子書籍が欲しくなるかを考えてみると、「昔読んだ本をもう一度読みたくなったけど、図書館にも本屋にもない」みたいな場合なんですよ。
特に版元が倒産した、コアなマニア向けに実質初版限定で売られた、なんてものや、その作家の中でもさして評価が高くない物、といった「とっちかと言えばかすが裁けるわけじゃ無く、瞬発力で捌けてそのあとちょっとしか裁けない」ようなものについての要望って高いと思うんですよね。

さて、そんなコンテンツについては第2回以降に触れるとして(長くなりますから、数回に分解するつもりです)、次の「規格」です。
基本的にグーテンベルグ以降、印刷文化というのは欧米主体のものです。欧米は26文字×2倍+10数字+主な記号+各国語記号で構成さ1296れているので、俗に1バイト文化と言えます。文字列表を作ったとしても、36進数×36進数のマトリクスで内包できてしまう程度の世界ですし、せいぜい違いと行っても右から読むか左から読むかの横書き文化です。
ところが、漢字文明圏(感じに限らず、ハングルなども含む)では文字数だけでも全く足りない。さらに横書きも縦書きも混在する。ルビもある。
という事で、日本の電子書籍は長いこと独自文化にならざるを得なかったのです。
ぶっちゃけ、日本における横書き文化ってPCが爆発的に普及した事と、インターネットに個人が情報公開の場を持つ事で爆発的に広がったようなもので、3000年対20年ではまだまだお子ちゃま文化なんですね、くぼたさんに言わせれば。
例えば、ケータイ文学は、横書き前提iモード文字セット限定というフォーマットで、それを印刷ドキュメントに起こせば書籍かも出来る訳です。
もっと言うと、作成環境に依存した文字しか使えないから、JIS水準に無い文字で悩む必要は無い訳です。
じゃあどうやってそれを、横書き縦書きルビなどを表現するか、という事でずっと日本は独自規格を打ち出してきたのですよ。でも、どうしても外国が乗ってこない。
で、まごまごしているうちにAmazonの電子書籍サービスという、全世界の出版業界を驚かせる問題が出た訳で。
ここで、Amazonは独自の著作権保護機能を使うため独自形式を採用した、という事になっていますが、その実は国際標準規格として推進されていたEPUB形式の拡張機能だった訳です。
この規格EPUBは、日本の電子書籍端末ではそれほどサポートされていなかった訳ですが、逆にEPUB対応端末である楽天のKoboが販売された事、EPUBが最新リビジョンEPUB3.0で縦書きやルビといったものに対応した事(文字セットはUnicodeとなった為、JIS環境よりも異自体対応が容易になったことも大きい)によって、日本でもデファクト・スタンダード化されそうな勢いです。

そして、このEPUB3.0の登場によって、書籍端末は大きく変わってきた訳です。
正直に言うと、紙の書籍というのは「今後も残る」し、「これからも重視される」と思います。電子書籍として有用なのは前述したとおり「時間がたって読み返したくなった、一度は捨てられてしまったような半端な本」だと思うし、また「昔から読み捨てされるような読み物系」-自虐的に言ってますが、文庫の殆どとか、ラノベとか、漫画の殆どですね-なんですよね。
従ってこれから先、多分文字拡張の問題によるEPUBの改訂とともに新しい改版をしていく事には成るとしても、基本どのソフトもEPUB対応が原則だと思うんですよね。
※原稿ではiBookがEPUB2.1対応ということで、ここに遅れが出ている。
実際問題、シャープが満を持して投入した端末GARAPAGOSは製造中止(閲覧ソフトと書籍ストアのみの提供)、ソニーと東芝の端末はKobo投入とともに大幅な値下げを余儀なくされ、そのKoboもAmazonのKindle投入でお互いに値下げスパイラルに入るという事で、これから専用端末は国内ではKoboとKidleに淘汰されるような気がしますね。

さて、長々と語ってきましたが、今回自分の持っている本を電子書籍化する事を思い立った最大の理由をここで書かねばなりません。
今回希望退職という名のリストラを受け入れてから、「昔に読んだ推理小説を読み返してみたい」と思ったのが事実あって、じゃあそれって電子書籍で読めたらかさばらなくていいな、と思った所に始まりがあります。

ところが!
各電子書籍ストアを見てびっくり。まず、日影丈吉がない(Kindleストアに唯一『ミステリ-食事学』が分割販売されていた)。眉村卓も最近の物しか無い(『引き潮のとき』が読みたいのだが、黒田藩プレスが5巻中2巻で止まっている)。横溝正史が790円とかありか!?(そりゃ、30年前に340円でしたからねえ)
日影丈吉の電子書籍としたら、国書刊行会の全集ベースになるから、『内部の真実』は初版ベースになるので、それはなんか嫌(最後の大手大尉の台詞が好きなので、あとこだけでも改訂判にそろえたい)。

という訳で、どうせ時間をもてあますのだから、という事でやってみることにしたのです。

(その2へ続くのであった)

11/18横浜スタジアム第二試合

  1Q 2Q 3Q 4Q Total
鹿島ディアーズ KD

7

3

3

7

27

富士通フロンティアーズ FF

3

6

3

3

15

Q TEAM TIME  PLAY  TFP

1

KD

4:22

 #14青木38Yard FG×    

1

FF

7:52

 #11西村 32Yard FG    

1

KD

13:16

 #12加藤 1Yard Run   #14青木Kick

2

FF

3:12

 #11西村 47Yard     

2

FF

10:14

 #11西村23Yard FG    

2

KD

11:57

 #14青木 29Yard FG    

3

KD

6:03

 #14青木 29Yard FG    

3

FF

10:24

 #11西村45Yard FG    

4

KD

0:10

 #12加藤 1Yard Run   #14青木Kick

4

FF

2:11

 #11西村28Yard FG    

4

KD

10:57

 #12加藤1Yard Run   #14青木Kick

もともと第2試合の時間のみ、と勘違いしてスケジュール調整したので、第一試合と第三試合は見てません。

ちなみに試合結果および他会場(飲料12-29オービック/パナソニック27-28ノジマ相模原)の結果を受け、
ワイルドカード:パナと富士通が抽選の結果、富士通。
準決勝:第一試合 オービック-ノジマ相模原
    第二試合 鹿島-富士通
となりました……すぐに再戦かよ。こればっかりは仕方ないという話ですが(いずれにせよ、この勝ち残りチャートの中で、再戦なしになる確率の方が低かったからね)、逆に「空気を読んだ抽選」ではなく「ガチに抽選」だったのね、という事がはっきりした訳で。

続きを読む

11/10王子スタジアム第二試合

  1Q 2Q 3Q 4Q Total
アズワン・ブラックイーグルス AB

9

0

0

0

9

富士通フロンティアーズ FF

7

7

3

10

27

Q TEAM TIME  PLAY  TFP

1

AB

2:48

 #1中西 48Yard FG    

1

AB

6:21

 #5山本 5Yard Run   #1中西Kick×

1

FF

8:47

 #18出原→#87大矢 15Yard Pass   #11西村Kick

2

FF

2:53

 #28進士2Yard Run   #11西村Kick

3

AB

10:34

 #1中西44Yard FG ×    

3

FF

14:20

 #11西村27Yard FG    

4

FF

7:26

 #11西村41Yard FG    

4

FF

12:20

 #28進士3Yard Pass   #11西村Kick

試合はいきなり波乱で幕開け、どーなることかと思う展開に。

と、その前に。王子スタジアムには新神戸経由で入ったんですが、食べ物を買うことが出来ませんでした。次回から要注意。

で、試合開始。キックオフリターンを得た富士通が、なんとリターン中にファンブルロスト。いきなり敵陣38Yardからの攻撃となったアズワンが、攻めきれない物の先制FG。
ついで富士通最初のドライブ中、3プレー目に出原が投じたパスが浮いてしまい、オーバースローした後ろに構えていたDBにどストライクのINTでまたしても敵陣38Yardからアズワンの攻撃。
これも攻めきれずにFGとなるが、ここでいきなりタイムアウト。
「ああ、こりゃスペシャルやるつもりで、トラブルで辞めたな」と思って周りと話していたら、なんとホルダーがボールを持って一気にエンドゾーンへ。
どえええええ!? ナンデスカコレハ!?

実際ここから膠着状態に入り、前半だけで富士通はファンブルロスト2回インターセプト1回。アズワンはファンブルロスト1回インターセプト2回(うち1回はラストのヘイルメリー)。
後半に守備が立て直せたことと、相手が怪我などでQBが交代したことなど(基本としては#17田原と#8奥野のタンデムだったが、途中から田原が出なくなり終盤は#10寺尾の出番が増えた。その分奥野の攻撃になれてきて止まるようになった)から、フィールドポジションが良くなった事もあって、結果的に失点しなくて済んだ富士通が、相手左側にランを集中させたことでそこからロングゲインを奪うようになり、実質#30金スタイルせず#6神山はリターンのみ、RBとしては#28進士と#32後藤だけで回転させた富士通が、後半にFG2本とTD1つもぎ取ってなんとか勝ちきった試合でありました。

でもね。まー、三味線弾いてる訳じゃなさそうなんではっきりいっちゃうけど、富士通のパス攻撃、ひどすぎ。
ってか、スプレッドにしてノーハドルやってるけど、プレーの実態はクイックヒットなんだよね。だからレシーバーがコーナー振り切れないと何も出来ない訳ですわ。
だからといってパスコースで守備を剥がす訳でも吊った裏にディレーで出す訳でも無いから、そりゃ手詰まりになるわさ。
で、今日は完璧にレシーバーが押さえ込まれて、本当にラン攻撃で後半ねじ伏せたという所だけど、試合としては「見るところの無い試合」だったし、試合途中まで負けを覚悟した試合でしたよ。

ってか、見ていてアズワンの方が面白かったもの、攻撃。

そこらへんが、藤田さんの限界、なのかもね。

11/3 アミノバイタルフィールド第二試合

  1Q 2Q 3Q 4Q Total
オービック・シーガルズ OS

14

27

14

14

69

アサヒビール・シルバースター SS

0

7

0

0

7

Q TEAM TIME  PLAY  TFP

1

OS

1:40

 #14藤本25Yard Int.Ret   #1金親Kick

1

OS

10:21

 #6菅原→#85萩山 44Yard Pass   #1金親Kick

2

OS

0:03

 #20古谷 1Yard Run   #1金親Kick

2

OS

2:16

 #20古谷 4Yard Run   #1金親Kick

2

OS

7:01

 #6菅原→#7池井 17Yard Pass   #1金親Kick×

2

OS

14:01

 #6菅原→#7池井 31Yard Pass   #1金親Kick 

2

SS

15:00

 #3有馬→#85堀川 11Yard Pass   #1櫻井Kick

3

OS

3:41

 #15龍村→#87岡田 2Yard Pass   #1金親Kick 

3

OS

13:00

 #32原 6Yard Run   #1金親Kick 

4

OS

12:16

 #35山崎4Yard Run   #47丸田Kick

4

OS

13:15

 #15龍村→#83清水20Yard Pass   #47丸田Kick

こちらは、とある場所で見た「ああ銀星よ、どこへ行く」というため息交じりのコメントがすべてを表しているような。

そもそもこの試合、シルバースターは先発QBを#5波木、タンデムに#3有馬、パッシングシチュエイション時のみ#19東野とQBをくるくる変えた。普通ショートヤードとかアクセントプレイの時にQBをチェンジさせるのだが、肝心の東野があまりに悪すぎた。というのも、最初に登場した最初のドライブ3rd8Yard、投げたアウトのパスをインターセプトされてリターンTD。
その後もぴりっとしないまま途中からは出番すらなし。
恐らく、これは全くの想像なんだけど、最終節あるいは練習中に東野が負傷したか体調を激しく崩したかで、こういうやむを得ない選択になってしまった、のかもしれない。
ではランプレーの面で見ると、今度は#21播川が終盤まで出番なしということは、彼も怪我か何かでフル出場出来なかったのかも知れない。
結果的に人に強いタイプの松崎と濱野が多くキャリーするも、プレー展開的に単調になってしまい(オープンに振る、とかドローする、とかそういうアクセントが無い、という意味)、逆にパスに展開できない。
パスの方も戸倉と島が目立つ物の堀川や梅田が全く機能しない。
途中でKJが負傷退場したのに、全くパスが機能しない。

守備はどうかというと、もうロングパスがぼろぼろ。この日木下典はスタイルしてないにもかかわらず、だよ。

なんかね、もう好き放題やられたって感じですよ。オービック側に触れる必要が無いくらい、シルバースター惨敗の状態ですね。

個人的には、コーチ陣の立て直し(現在のコーチって、シルバー一筋でしょ。出来れば出身校以外の大学のコーチ経験した上で色々知識吸収して欲しいと思うのですけど)とか、抜本的な対策が必要だと思うのね。
あと、同じクラブチームであるオービックに負けたということは、そこに「フットボールに対する覚悟の差」みたいなものがあるように感じるのね。それは、昔シルバースターにあったと思うんだけど、そういう所がいま緩んでいるように思えるのね。
※昔、というのが「佼成学園グラウンドでやっていた頃」という意味ととられると困る。確かに中野と川崎では距離が都心から遠いというのも出るが、それならオービックの習志野グラウンドも似たような物だ。「フットボールを真剣にやっている」のと「フットボールと心中している」の違いくらいの差を感じるのですよ。

このままだと、来季は下位リーグ堕ちよのうな気もするしね。