Phát hiện đối tượng có thể chia thành hai nhóm là: 1) Phát hiện một đối tượng cụ thể và 2) Phát hiện chủng loại đối tượng. Hầu hết các phương pháp đều dựa trên họ R-CNN (Regions with Convolutional Neural Network Family) như R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN,… gồm một chuỗi tiến trình nhiều lớp xen kẽ nhau rất phức tạp và chi phí cao. Năm 2016, Joseph Redmon và đồng sự đề xuất phương pháp phát hiện đối tượng YOLO (You Only Look Once)và Wei Liu và đồng sự đề xuất phương pháp phát hiện đối tượng SSD (Single Shot Detector)dựa trên cách tiếp cận khác.