openbrain/pydata-huang/批量查询图片是否在同一个视频/readme.md

1.5 KiB
Raw Permalink Blame History

python进行批量图像识别2.0

使用easyocr和均值hash进行图像相似度判断

easyocr准确度不高但是对同一张图片识别结果一致因此可用于相似度判断。

均值哈希算法是哈希算法的一类,主要用来做相似图片的搜索工作。

这次的问题是一旦中途停止会丢失一部分进度还有就是easyocr速度慢。

请确认是否安装好环境

pip install torch

pip install torchvision

pip install easyocr

pip install PIL

pip install os

pip install shutil

pip install difflib

pip install thread pool

pip install cv2

在control中进行参数调节

# 默认路径
DEFAULT_PATH = "10117"

# 对图像进行切割 切割大小的四个参数,分别对应上左下右。
CROP_BOX1 = 0.1
CROP_BOX2 = 0.2
CROP_BOX3 = 1
CROP_BOX4 = 0.95

# 当文字相似度小于这个值,那么就有可能是不同视频
WORD_DIFFERENT = 0.87
# 当图像相似度小于这个值,那么就有可能是不同视频
HASH_DIFFERENT=0.87
#线程数
THREAD=3

一次处理一个压缩包结构的文件

default_path设置为一级目录junior_class

线程数表示同时进行几个任务。

代码结构

core是文件操作模块和主运行单元在core中的main函数进行运行。

其中create_dir中可以把wordList=pictureList_to_wordList(file_path)注释掉只进行hash判断速度会很快适合初测。

control是参数所在位置

其他两个是两种相似度判断模块