initial

2023-10-10 02:36:57 +03:00 · 2023-10-10 02:36:57 +03:00 · e5169586a0
commit e5169586a0
10 changed files with 486 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,4 @@
+__pycache__
+*.png
+/venv
+/.ropeproject
--- a/24
+++ b/24
@ -0,0 +1,24 @@
+Unite PDFs:
+
+	pdfunite IMG* union.pdf
+
+
+Rotate 90 degress clockwise:
+	
+	pdftk union.pdf cat 1-endeast output 1.pdf
+
+
+Split vertically (use -x for horizontal split):
+	
+	mutool poster -y 2 1.pdf
+
+
+Split into separate files, one page per file:
+
+	pdfseparate out.pdf %d.pdf
+
+
+Check Djvu metadata:
+	
+	djvused -e print-meta book.djvu
+
--- a/39
+++ b/39
@ -0,0 +1,39 @@
+SUMMARY
+
+	This is a collection of tools that helps me digitizing books.
+
+	In particular, it helps assembling a bunch of random page scans into a book
+	with correct page order, mainly by using OCR and text (number) recognition.
+
+	I use it to prepare my book releases on torrents.
+
+
+SYSTEM REQUIREMENTS
+
+	Theoretically should work on any system that supports Python 3.9+ and has
+	required dependencies, but might need some minor modifications in the code.
+
+	Tested only on FreeBSD 13.
+
+
+DEPENDENCIES
+
+	System utilities:
+
+	- tesseract
+	- pdftoppm
+
+	Python packages:
+
+	- pytesseract
+	- Pillow
+
+
+AUTHORS
+
+	rootless (c) 2023
+
+
+LICENSE
+
+	BSD-2-Clause
--- a/gaps.py
+++ b/gaps.py
@ -0,0 +1,31 @@
+#!/usr/bin/env python3
+import os
+
+from argparse import ArgumentParser
+
+
+if __name__ == '__main__':
+    parser = ArgumentParser()
+    parser.add_argument('-i', '--input', type=str, required=True,
+                        help='Input directory')
+    parser.add_argument('-p', '--pages', type=int, required=True,
+                        help='Expected count of pages')
+    args = parser.parse_args()
+
+    ids = {}
+    files = os.listdir(args.dir)
+    for file in files:
+        if not file.endswith('.pdf'):
+            continue
+
+        id = file[0:file.index('.')]
+        if not id.isnumeric():
+            continue
+
+        id = int(id)
+        if id not in ids:
+            ids[id] = 1
+
+    for i in range(1, args.pages):
+        if i not in ids:
+            print(f'missing {i}')
--- a/pagenum-mass.py
+++ b/pagenum-mass.py
@ -0,0 +1,132 @@
+#!/usr/bin/env python3
+import os
+import logging
+import shutil
+import sys
+
+from queue import Queue, Empty
+from threading import Thread, Lock
+from argparse import ArgumentParser, ArgumentError
+
+from typing import Optional
+from pagenum.system import ensure_dependencies
+from pagenum.image import pdf2png, zonecrop, img2pagenum, Zone
+
+_logger = logging.getLogger(__name__)
+_queue = Queue()
+_zones: Optional[list[Zone]]
+_pretend = False
+_max_page_num_length = None
+_rename_lock = Lock()
+_outdir: str
+_indir: str
+
+
+def safe_copyfile(oldname, newname):
+    with _rename_lock:
+        if os.path.exists(os.path.join(_outdir, newname)):
+            filename, fileext = os.path.splitext(newname)
+            probe = 1
+            while True:
+                newname2 = f'{filename}-v{probe}{fileext}'
+                if os.path.exists(os.path.join(_outdir, newname2)):
+                    probe += 1
+                else:
+                    newname = newname2
+                    break
+        shutil.copyfile(
+            os.path.join(_indir, oldname),
+            os.path.join(_outdir, newname)
+        )
+
+
+class PagenumWorker(Thread):
+    def __init__(self, name):
+        Thread.__init__(self)
+        self.name = name
+
+    def run(self):
+        global _queue
+        while True:
+            try:
+                self.process(_queue.get(block=False))
+            except Empty:
+                break
+
+    def process(self, file):
+        file_path = os.path.join(_indir, file)
+        png_file = pdf2png(file_path)
+        num = None
+        for z in _zones:
+            cropped = zonecrop(png_file, z)
+            num = img2pagenum(cropped, args.max_page_num_length)
+            os.unlink(cropped)
+            if num is not None:
+                break
+        os.unlink(png_file)
+        if _pretend:
+            _logger.info(f'{file}: {num}')
+        else:
+            newname = f'{num}.pdf' if num is not None else 'unknown.pdf'
+            safe_copyfile(file, newname)
+            _logger.debug(f'{file} done ({num})')
+
+
+if __name__ == '__main__':
+    ensure_dependencies()
+
+    parser = ArgumentParser()
+    parser.add_argument('-i', '--input-directory', type=str, required=True)
+    parser.add_argument('-o', '--output-directory', type=str, required=True)
+    parser.add_argument('-z', '--zones', type=str, nargs='+', required=True,
+                        help=("One or more zones to search for page number. Format: zone,w,h,mt,mr,mb,ml. "
+                              "See pagenumb-probe.py for more info"))
+    parser.add_argument('-t', '--threads', type=int, default=4,
+                        help="Number of threads")
+    parser.add_argument('-p', '--pretend', action='store_true',
+                        help="Don't save files but print info to stdout")
+    parser.add_argument('--max-page-num-length', type=int, default=3)
+    parser.add_argument('-V', '--verbose', action='store_true')
+    args = parser.parse_args()
+
+    logging.basicConfig(level=logging.DEBUG if args.verbose else logging.INFO)
+
+    _zones = list(map(lambda zs: Zone.from_string(zs), args.zones))
+    _pretend = args.pretend
+    _max_page_num_length = args.max_page_num_length
+    _outdir = args.output_directory
+    _indir = args.input_directory
+
+    if not os.path.isdir(_indir):
+        raise OSError(f'{_indir}: no such directory')
+
+    if _indir == _outdir:
+        raise ArgumentError(None, '--input-directory must be different than --output-directory')
+
+    if not os.path.isdir(_outdir):
+        os.makedirs(_outdir)
+    else:
+        try:
+            input(f'Directory {_outdir} already exists. Press ENTER to erase it and continue or Ctrl+C to exit.')
+        except KeyboardInterrupt:
+            sys.exit(0)
+        shutil.rmtree(_outdir)
+        os.makedirs(_outdir)
+
+    files = os.listdir(_indir)
+    for file in files:
+        if not os.path.isfile(os.path.join(_indir, file)):
+            continue
+        filename, fileext = os.path.splitext(file)
+        if fileext.lower() != '.pdf':
+            continue
+        _queue.put(file)
+
+    threads = []
+    for i in range(args.threads):
+        thread = PagenumWorker(f'thread-{i}')
+        thread.start()
+        threads.append(thread)
+
+    for thread in threads:
+        thread.join()
--- a/pagenum-probe.py
+++ b/pagenum-probe.py
@ -0,0 +1,47 @@
+#!/usr/bin/env python3
+import os
+
+from argparse import ArgumentParser
+from pagenum.system import ensure_dependencies, desktop_open_image
+from pagenum.image import pdf2png, zonecrop, img2pagenum, Zone
+
+
+if __name__ == '__main__':
+    ensure_dependencies()
+
+    parser = ArgumentParser()
+    parser.add_argument('--input',
+                        help="input pdf file")
+    parser.add_argument('--input-page', type=int, default=1,
+                        help="page in pdf file")
+    parser.add_argument('--zone', required=True,
+                        choices=Zone.getzones(),
+                        help="where to look for page number")
+    parser.add_argument('--height', type=int, required=True)
+    parser.add_argument('--width', type=int, required=True)
+    parser.add_argument('--margin-top', type=int, default=0)
+    parser.add_argument('--margin-right', type=int, default=0)
+    parser.add_argument('--margin-bottom', type=int, default=0)
+    parser.add_argument('--margin-left', type=int, default=0)
+    parser.add_argument('--max-page-num-length', type=int, default=3)
+    parser.add_argument('--preview', action='store_true',
+                        help="open cropped image part in image viewer")
+    args = parser.parse_args()
+
+    if not os.path.exists(args.input):
+        raise OSError(f'{args.input}: no such file')
+
+    z = Zone(args.zone, args.width, args.height,
+             args.margin_top, args.margin_right,
+             args.margin_bottom, args.margin_left)
+
+    png_file = pdf2png(args.input, args.input_page)
+    cropped_file = zonecrop(png_file, z)
+    # desktop_open_image(png_file)
+    if args.preview:
+        desktop_open_image(cropped_file)
+    num = img2pagenum(cropped_file, args.max_page_num_length)
+    print('num:', num)
+    os.unlink(png_file)
+    os.unlink(cropped_file)
+    print(f'zone: {z}')
--- a/pagenum/init.py
+++ b/pagenum/init.py
--- a/pagenum/image.py
+++ b/pagenum/image.py
@ -0,0 +1,125 @@
+import pytesseract
+import subprocess
+
+from .system import randomtempname
+from PIL import Image
+
+
+ZONES = ('topleft', 'topright',
+         'bottomleft', 'bottomright',
+         'topcenter', 'bottomcenter')
+
+
+class Zone:
+    zone: str
+    width: int
+    height: int
+    margin_top: int
+    margin_bottom: int
+    marign_left: int
+    margin_right: int
+
+    def __init__(self, z, w, h, mt, mr, mb, ml):
+        if z not in ZONES:
+            return ValueError(f'invalid zone spec: zone "{z}" is invalid')
+        self.zone = z
+        self.width = int(w)
+        self.height = int(h)
+        self.margin_top = int(mt)
+        self.margin_bottom = int(mb)
+        self.margin_left = int(ml)
+        self.margin_right = int(mr)
+
+    def isright(self):
+        return self.zone.endswith('right')
+
+    def isleft(self):
+        return self.zone.endswith('left')
+
+    def iscenter(self):
+        return self.zone.endswith('center')
+
+    def istop(self):
+        return self.zone.startswith('top')
+
+    def isbottom(self):
+        return self.zone.startswith('bottom')
+
+    def __repr__(self):
+        return '%s,%d,%d,%d,%d,%d,%d' % (
+            self.zone,
+            self.
+            width,
+            self.height,
+            self.margin_top,
+            self.margin_right,
+            self.margin_bottom,
+            self.margin_left
+            )
+
+    @staticmethod
+    def from_string(s):
+        p = list(s.split(','))
+        if len(p) != 7:
+            raise ValueError(f'invalid zone spec: {s}')
+        return Zone(*p)
+
+    @staticmethod
+    def getzones():
+        return ZONES
+
+
+def pdf2png(pdf_path, page=1):
+    file = randomtempname()
+    p = subprocess.run(["pdftoppm", pdf_path, file,
+                        '-png',           # generate PNG instead of PPM
+                        '-f', str(page),  # page number
+                        '-r', '300',      # PPI
+                        '-singlefile'])
+    if p.returncode != 0:
+        raise RuntimeError(f'pdftoppm returned {p.returncode}')
+    return file+'.png'
+
+
+def zonecrop(png_path, z):
+    image = Image.open(png_path)
+    iw, ih = image.size
+
+    x1 = x2 = y1 = y2 = None
+
+    if z.isleft():
+        x1 = 0
+    elif z.isright():
+        x1 = iw-z.width
+    elif z.iscenter():
+        # not tested
+        x1 = int(iw/2-z.width/2)
+
+    if z.istop():
+        y1 = 0
+    elif z.isbottom():
+        y1 = ih-z.height
+
+    x1 += z.margin_left
+    x1 -= z.margin_right
+    y1 += z.margin_top
+    y1 -= z.margin_bottom
+
+    x2 = x1+z.width
+    y2 = y1+z.height
+
+    filename = randomtempname(suffix='.png')
+    cropped = image.crop((x1, y1, x2, y2))
+    cropped.save(filename)
+
+    return filename
+
+
+def img2pagenum(img_file, maxlen):
+    s = pytesseract.image_to_string(img_file,
+                                    lang='rus',
+                                    config='--psm 11')
+    for r in '_-.,—':
+        s = s.replace(r, '')
+    s = s.strip()
+    return s if s.isnumeric() and len(s) <= maxlen else None
--- a/pagenum/system.py
+++ b/pagenum/system.py
@ -0,0 +1,24 @@
+import subprocess
+import tempfile
+
+from shutil import which
+
+DEPENDENCIES = ('pdftoppm',)
+IMAGE_OPENER = 'ristretto'
+
+
+def ensure_dependencies():
+    for s in DEPENDENCIES:
+        if which(s) is None:
+            return RuntimeError(f'required dependency not found: {s}')
+
+
+def randomtempname(suffix=None):
+    name = next(tempfile._get_candidate_names())
+    if suffix is not None:
+        name += suffix
+    return name
+
+
+def desktop_open_image(f):
+    subprocess.run([IMAGE_OPENER, f])
--- a/rename16.py
+++ b/rename16.py
@ -0,0 +1,60 @@
+#!/usr/bin/env python3
+import os
+import shutil
+import natsort
+
+from os.path import join
+from argparse import ArgumentParser
+
+mapping = (
+    1, 16,
+    15, 2,
+
+    3, 14,
+    13, 4,
+
+    5, 12,
+    11, 6,
+
+    7, 10,
+    9, 8,
+)
+
+
+def chunks(lst, n):
+    for i in range(0, len(lst), n):
+        yield lst[i:i + n]
+
+
+if __name__ == '__main__':
+    parser = ArgumentParser()
+    parser.add_argument('--indir', type=str, required=True,
+                        help='Input directory')
+    parser.add_argument('--outdir', type=str, required=True,
+                        help='Output directory')
+    args = parser.parse_args()
+
+    if not os.path.exists(args.outdir):
+        os.mkdir(args.outdir)
+
+    files = os.listdir(args.indir)
+    files = natsort.natsorted(files)
+
+    offset = 0
+
+    for pages in chunks(files, 16):
+        if len(pages) == 16:
+            for i in range(16):
+                file = pages[i]
+                n = mapping[i]
+
+                new_name = str(offset + n) + '.pdf'
+                shutil.copyfile(
+                    join(args.indir, file),
+                    join(args.outdir, new_name)
+                )
+
+                print(f'{file} => {new_name}')
+            offset += 16
+        else:
+            break