昨日、紹介したMacパソコンのエディターJedit Xを本日、いろいろと試してみました。機能豊富の中でも、とりわけ重宝しているのが複数一括置換です。今回は青空文庫のサイトからダウンロードしたテキストで第3、第4水準の漢字が面区点コードで表記されたものをユニコードに変換するのに使ってみました。第3、第4水準の漢字はその文字数が約3,700と数多くあります。この数の分だけ、面区点とユニコードが1対1対応していて、テキスト文に出てきた面区点を検索して、合致したものをユニコードに変換させる必要があります。画像はこの置換を一括処理する操作画面で、第4水準の漢字、2436文字を全検索して、5カ所がヒットして置換されたことを示しています。この検索置換にはおよそ1分ほどかかりましたが、そのパフォーマンスには圧倒されました。この後、InDesignでテキスト文を読み取り、ユニコード入力された文字コードが正しい漢字に表記されたことを確認しました。第3水準の漢字も同じように一括処理するのですが、この検索文字列と置換文字列はマニュアルで本日、作りました。例えば、第4水準の漢字では、まずネット公開しているサイトから全文字のリストをデッドコピーをしてExcelで整理し、できあがった対応表をJeditの検索ページでファイル読み込みすることで、かなり効率良く処理ができました。青空文庫のサイトから本日入手した小説を文庫本にした成果については後日、当ブログにて...
Monthly photo – 2023.9
アーカイブ
カテゴリー
-
最近の投稿
最近のコメント
- 戸隠の中社 に 小宮山 務 より
- ウォーキングでスタバへ に 安曇野の風 より
- ウォーキングでスタバへ に 小宮山 務 より
- 昨日、爺ヶ岳に登る に 安曇野の風 より
- 昨日、爺ヶ岳に登る に 小宮山 務 より
- ブログ、復旧で.. に 安曇野の風 より
- ブログ、復旧で.. に 小宮山 務 より
- ポインセチア、短日処理 に 安曇野の風 より
- ポインセチア、短日処理 に 厳島 より
- ひまわり、満開です に 安曇野の風 より
メタ情報