Merge remote branch 'remotes/origin/ocropus'
authorDaniel Axtens <[email protected]>
Fri, 30 Sep 2011 16:52:02 +0000 (00:52 +0800)
committerDaniel Axtens <[email protected]>
Fri, 30 Sep 2011 16:52:02 +0000 (00:52 +0800)
* remotes/origin/ocropus:
  Don't try full ocr, it's useless.
  change bebook optimisation to simple trim. still needs work.
  Fix issue where entire physical pages would disappear.
  Don't redo binarise if not needed.
  Do less with unpaper.
  Update docs, various fixes.
  ocropus as soon as possible

1  2 
architecture.txt

diff --combined architecture.txt
@@@ -12,17 -12,19 +12,19 @@@ each physical page may contain either 
  3. determine dpi
  4. foreach double-page-spread (scan page)
        4.1. extract scan page from pdf, save as png
-       4.2. run a mask over it to pull off large black areas
-       4.3. run unpaper over it, creating 2 pages (physical page)
-       4.4. foreach physical page
-               4.4.1. remask and retrim
-               4.4.2. attempt to detect if a physical page contains 2 logical pages, 
-                       4.4.2.1. if so split with unpaper
-               4.4.3. do any final processing (resize for bebook)
- 5. move all the final pictures into a final picture directory
  
- In the accidentally deleted code we used ocropus's binarise stuff to do some
- extra cleaning.
+ 5. run ocropus's binarise over all the pngs
+ 6. foreach binarised scan page
+       6.1. create a mask from the original (unbinarised) page
+       6.2. use the mask to trim the binarised page (cutting this off improves unpaper's accuracy)
+       6.3. run unpaper over the clean binarised page, creating 2 pages (physical page)
+       6.4. foreach physical page
+               6.4.1. remask and retrim
+               6.4.2. attempt to detect if a physical page contains 2 logical pages, 
+                       6.4.2.1. if so split with unpaper
+               6.4.3. do any final processing (resize for bebook)
+ 7. move all the final pictures into a final picture directory
  
  = What options do we need? =
  Anything we attempt to detect automatically should have the option to set manually
@@@ -33,4 -35,3 +35,4 @@@
        * an option to set a default and certain exceptions would be ace.
   - options for final output
   - options to ignore partial products
 + - more debug options

UCC git Repository :: git.ucc.asn.au