文 / Carlos Mendonça,Coral
冬天终于来了,而与之一起到来的是 Coral 新发布的 C++ 和 Python API 及工具,还有 针对 Edge TPU 优化 的新模型,以及对基于 TensorFlow 2.0 工作流的进一步支持。
Coral 是一个可用于构建本地 AI 产品的完整工具包。我们的设备端推理功能,以及借助 TensorFlow Lite 和 Edge TPU,支持您构建高效、私密、快速和离线的产品。
之前,我们提供了 Python 和 C++ 版本的 API,从而让开发者可以利用 Edge TPU 来提高推理速度。通过对机器学习模型进行离线处理的方式,可以大大节省带宽和云计算成本。同时这样做也可以使数据保留在本地,保护用户的隐私。最近,我们一直在努力重构我们的 API,使其更加模块化、重用性更强并拥有更好的性能。与此同时,我们还在减少不必要的 API 抽象,并开放开发者所熟悉的更多原生 TensorFlow Lite API。
因此,在最新的版本中,我们现在提供了两个独立的复用库,每个库都依托于强大的 TensorFlow Lite API 构建而成,并且在自己的存储库中各自独立,其分别是适用于 C++ 的 libcoral 和适用于 Python 的 PyCoral。
libcoral (C++)
与我们之前的一些 API 不同,libcoral 并不会隐藏 tflite::Interpreter
。相反,我们会将这个原生的 TensorFlow Lite 类打造成一个头等组件,并提供一些额外的辅助 API,以在您处理常见模型(例如分类和检测)时,帮您简化代码。
使用新的 libcoral 库在 C++ 中执行推理时,开发者通常应该遵循以下模式:
1. 使用 Edge TPU 上下文创建 tflite::Interpreter
实例并分配内存
为简化这一步骤,libcoral 提供了 MakeEdgeTpuInterpreter()
函数:
// Load the model
auto model = coral::LoadModelOrDie(absl::GetFlag(FLAGS_model_path));
// Get the Edge TPU context
auto tpu_context = coral::ContainsEdgeTpuCustomOp(*model) ?
coral::GetEdgeTpuContextOrDie() :
nullptr;
// Get the interpreter
auto interpreter = coral::MakeEdgeTpuInterpreterOrDie(
*model,
tpu_context.get());
2. 配置 interpreter 的输入
3. 调用 interpreter:
interpreter->Invoke();
作为 Invoke()
的替代方案,您可以使用 InvokeWithMemBuffer()
和 InvokeWithDmaBuffer()
函数来实现更高的性能,这两个函数可以分别处理输入数据而无需从另一个内存区域或从DMA文件描述符进行复制。
4. 处理 interpreter 的输出
为简化这一步骤,libcoral 提供了一些适配器,所需的代码更少:
auto result = coral::GetClassificationResults(
*interpreter,
/* threshold= */0.0f,
/*top_k=*/3);
上方是分类适配器的示例,开发者可以在其中指定最小置信度阈值,以及返回结果的数量上限。该 API 还具有一个检测适配器,该适配器拥有自己的结果过滤参数。
如需查看完整的示例应用源代码,请参阅 GitHub 上的 classify_image.cc,如需获取有关如何将 libcoral 集成到应用中的说明,请参考 GitHub 上的 README.md。
我们还在此次的新版本中带来了对设备端再训练的更新,能够在更新的 ImprintingEngine
上将 imprinting 函数与推理解耦。新的设计让 imprinting 引擎能够直接与 tflite::Interpreter
一起使用。
为方便寻找主机上可用的 Edge TPU,libcoral 支持诸如 “usb:0
” 或 “pci:1
” 之类的标签。您可借此更加轻松地管理多 Edge TPU 系统的资源。
最后,我们做了很多性能上的改进,例如更高效的内存使用和基于内存而不是基于文件的抽象。此外,通过将 Abseil 库用于误差传播、通用接口和其他常见模式,API 的设计也更加一致,应该可以提供更一致和稳定的开发者体验。
PyCoral (Python)
新的 PyCoral 库(在新的 pycoral
Python 模块中提供)遵循了 libcoral 引入的一些设计模式,并为我们的 C++ 和 Python API 带来了平衡。PyCoral 为分类和检测以及基于相同标签的 TPU 语义寻址设计了相同的 imprinting 解耦设计和模型适配器。
在 PyCoral 中,“运行推理”功能现在已完全委托给原生的 TensorFlow Lite 库,这是因为我们放弃了用于抽象 TensorFlow 解释器的模型“引擎”。借助这项更改,我们消除了由特定于 Coral 的 BasicEngine、ClassificationEngine 和 DetectionEngine 类(这些来自“Edge TPU Python 库”的 API 现已被弃用)所引入的代码重复。
要使用 PyCoral 执行推理,我们可以遵循与 libcoral 类似的模式:
1. 创建 interpreter:
interpreter = edgetpu.make_interpreter(model_file)interpreter.allocate_tensors()
2. 配置 interpreter 的输入:
common.set_input(interpreter, image)
3. 调用 interpreter:
interpreter.invoke()
4. 处理 interpreter 的输出:
classes = classify.get_classes(interpreter, top_k=3)
如需获取完整详细的示例代码,请查看我们的 Python 版文档。
Coral Model Garden 更新
在这一版本中,我们通过 MobileDet 进一步扩展了 Coral Model Garden。MobileDet 指的是使用 TensorFlow 对象检测 API 的轻量级单发检测器系列,该系列在 Edge TPU 上实现了最先进的精度和延迟权衡。与 MobileNet 系列模型相比,MobileDet 是一种低延迟的检测模型,具有更高的准确性。
查看 Coral 为 Edge TPU 提供的完整 模型集合,其中包括分类、检测、分割和专门为设备端训练准备的模型。
将我们的整个工作流和模型集合迁移到 TensorFlow 2 是一项长期工作。从这个版本的 Coral 机器学习 API 开始,我们将引入对基于 TensorFlow 2 的工作流的支持。目前,MobileNet v1 (ImageNet)、MobileNet v2 (ImageNet)、MobileNet v3 (ImageNet)、ResNet50 v1 (ImageNet) 和 UNet MobileNet v2 (Oxford pets) 均支持使用 TensorFlow 2 进行训练和转换。
Model Pipelining
libcoral 和 PyCoral 都已将 Model Pipelining 功能从测试状态升级到正式使用状态。借助 Model Pipelining 功能,我们能够分割大型模型,然后将其分配到多个 Edge TPU 上,从而大大加快模型的运行速度。
请参考对应文档以查看该 API 的 C++ 和 Python 版本示例。
我们会通过 Edge TPU 编译器完成模型分割,该编译器采用参数计数算法,可将模型分割成参数大小相近的片段。对于此算法无法提供所需吞吐量的情况,我们在这一版本中引入了一个新工具,该工具支持基于分析的算法,通过实际多次运行模型,然后根据观察到的延迟来划分片段,因此可能会得到更平衡的输出。
新的 profiling_partition
工具可以这样使用:
./profiling_partition \
--edgetpu_compiler_binary $PATH_TO_COMPILER \
--model_path $PATH_TO_MODEL \
--output_dir $OUT_DIR \
--num_segments $NUM_SEGMENTS
了解详情
如需了解有关上述 Coral API 的详细信息,请参阅以下文档:
- 使用 C++ 在 Edge TPU 上运行推理
- 使用 Python 在 Edge TPU 上运行推理
- 通过多个 Edge TPU 对模型进行流水设计
- 在 Edge TPU 上执行迁移学习
- Coral Model Garden
原文:New Coral APIs and tools for AI at the edge
中文:TensorFlow 公众号