时鹏亮的Blog

有时我们下载他人分享的大文件时，会碰到提示：“载此文件会超出下载限额，因此目前无法下载。”
解决方法，我查了下，有同学分享，摘录如下：

Tesseract是一个支持多种操作系统OCR引擎，被认为是最精准的开源光学字符识别引擎之一。

在Linux下，命令行运行tesseract-ocr，结果是输出到result.txt文件的，如何直接在直接输出到命令行呢？毕竟直接输出的话，是可以调用后就得到结果的，省去了读取文件内容的逻辑[……]

最近有个需求，要把一个整数转为二进制，顺手搜了下，代码如下：

<?php
$c = 357913857;
echo decbin($c);

输出结果：

10101010101010101010100000001

摘录下 IT常乐整理好的其他进制转换用的函数：

二进制转为其他进制b[......]

其实默认的解析器都不需要指定分词器就可以实现按空格、逗号或者井号分词，对应到elasticsearch-php里的代码示例如下：

<?php
/*
* blankAnalyzer 分析器* 被 Actor 字段分析器使用* 功能 按空格解析器*/$index['body&[......]

恩，目前Notepad++的7.7.1 32位版本，NppExport插件复制出来的代码不再拥有好看的高亮，而只是黑底白字的样式。
经过搜索了解到，是插件版本过低造成的问题，人工下载最新版本的插件NppExport_0.2.9.21_x86.zip，覆盖安装目录下插件对应的同名文件，[……]

wkhtmltoimage是个不错的HTML转图片的工具，安装很简单：

下载困难的同学，可以人工下载wkhtmltox-0.12.5-1.centos6.x86_64.rpm安装。

wget https://downloads.wkhtmltopdf.org/0.12/0.12.5/wk[......]

旧版的系统，没办法直接yum安装，需要编译安装，编译起来挺麻烦的，所以整理了一下一把梭的流程，供后人参考：

如果下载相关文件太慢，或者无法下载，可以尝试人工下载：eng.traineddata,leptonica-1.78.0.tar.gz,tesseract-4.1.0.tar.gz[……]

tesseract执行时出现这种提示，通常是leptonica编译安装的时候，缺少部分lib，比如libtiff。

我出现提示是在Amazon Linux AMI release 2018.03的系统中，解决方案也很简单：

yum install libtiff-devel libjp[......]

edge_ngram和ngram是ElasticSearch自带的两个分词器，一般设置索引映射的时候都会用到，设置完步长之后，就可以直接给解析器analyzer的tokenizer赋值使用。

但这两个分词器到底有什么区别呢？网上搜来搜去呢，都不是说人话的解释，如果不是深入了解Elasti[……]

有时我们需要查找某个目录下的0字节文件，用什么方式进行查找呢？其实很简单，示例代码如下：

find "/tmp" -size 0

上述代码执行后，会列出tmp目录下文件大小为0字节的文件。如果要对文件进行处理的话，可以使用管道。

find . -name &qu[......]

代码-工作经验-成长积累