[转载] 谁在用 AI 图片生成

发表于 2025-01-21 分类于 AI
本文字数： 4.2k 阅读时长 ≈ 4 分钟

原文地址

谁在用 AI 图片生成

===========

AIGC 图片生成的技术，基本是22年开始爆发，Midjourney 2022年7月推出，Stable Diffusion 2022年8月推出，至今两年发展迅速，已经广泛在很多场景应用，但这个市场上是谁在用图片生成，用来做什么，一直以来在我认知里都有些模糊，这篇文章做下相关调研。

线上线下所有用到图片的地方，都有 AI 图片生成的应用空间，而 AI 图片生成的能力，也会创造出新的领域和行业，就目前能看到的已经在应用的场景，归归类可以分为：生产力工具、大众娱乐、探索创作。

阅读全文 »

[转载] 什么是多模态大模型

发表于 2025-01-21 分类于 AI
本文字数： 3.4k 阅读时长 ≈ 3 分钟

原文地址

是什么

在机器学习领域，”模态”被用来描述不同类型的数据形式，如文本、图像、视频、音频等。
最开始以 ChatGPT 为代表的大语言模型，都是只支持文本这个单一模态。
可以同时处理文本、图像、音频等多种形式的数据输入输出的大模型，就是多模态大模型。

阅读全文 »

[转载] Transformer 里的 Q K V 是什么

发表于 2025-01-21 分类于 AI
本文字数： 3k 阅读时长 ≈ 3 分钟

原文地址

Transformer 作为新 AI 时代的基石，有必要深入了解下。网上对 Transformer 的教学文章/视频非常多，很多讲得很好，像 3Blue1Brown 的讲解视频，以及这篇文章。整个详细过程原理写不来，本文主要记录一下其中我觉得比较容易混淆的 Attention 模块运算过程，主要是里面的 Q K V 的概念/运算过程/作用。

阅读全文 »

[转载] 使用火山引擎 APMPlus 优化 iOS 内存性能的全套指南

发表于 2025-01-20 分类于转载
本文字数： 11k 阅读时长 ≈ 10 分钟

原文地址

前言

本文面向 iOS 研发，不会涉及复杂的底层原理，而是直接告诉 iOS 研发答案，即怎么做，只需要花半小时阅读本文，就可以在开发需求的时候，知道如何更好利用内存来提升用户体验，同时避免稳定性相关问题给业务带来负向的用户体验；同时本文作者的初心是希望这篇文章能成为研发同学的一个”字典”，可以在一些特定场景或者感觉可能会踩内存坑的时候翻阅，快速找到最佳的编码规范。

阅读全文 »

[转载] 告别构建错误, iOS 开发架构难题全面解析, 避免 CPU 架构陷阱

发表于 2025-01-15 分类于转载
本文字数： 2.9k 阅读时长 ≈ 3 分钟

原文地址

前言

如果你经常开发 iOS 中的第三方框架，那么你可能会遇到以下错误：

1	"Could not find module *** for target 'x86_64-apple-ios-simulator'."

或者：

1	"building for iOS Simulator, but linking in dylib built for iOS, file, '.../Frameworks/xxx.framework/xxx' for architecture arm64."

要解决这个问题，我们需要了解 CPU 架构和 Xcode 构建设置的一些知识，今天我们就来聊聊这个。

阅读全文 »

[转载] 理解 Stable Diffusion UNet 网络

发表于 2025-01-03 分类于 AI
本文字数： 3.4k 阅读时长 ≈ 3 分钟

原文地址

在前面的学习中，我们把 SD UNet 网络当成黑盒，不太影响对图片生成大致原理的理解，但在继续学 SD 的过程中，发现 ControlNet、T2I-Adapter、IPAdapter 等这些技术，都是在原 SD 网络模型上以各种方式对网络做修改叠加，要理解这些技术，还是得先了解下 SD UNet 网络结构的一些细节，不然看得很费劲。

SD 模型构成

从之前的学习我们知道，Stable Diffusion 模型里包含了三个组件：CLIP、VAE、UNet，这三个组件的参数和大小分布(来源)：

组件	参数个数	文件大小	占比
CLIP	123,060,480	492 MB	12%
VAE	83,653,863	335 MB	8%
UNet	859,520,964	3.44 GB	80%
Total	1,066,235,307	4.27 GB	100%

整个生图的核心网络就是 UNet。UNet 最初是用于医学图像分割任务而提出来的，但它的特性展现了在图像其他领域的应用潜力，后续经过扩散模型的改进，很好应用在了图像生成上，所以 Stable Diffusion 的 UNet 实际上在原 UNet 网络架构上做了一些改造。

阅读全文 »

[转载] Stable Diffusion 图片生成原理简述

发表于 2025-01-03 分类于 AI
本文字数： 5.4k 阅读时长 ≈ 5 分钟

原文地址

最近关注和学习 AI 比较多，包括 AIGC 和 LLM 大模型，现在 AI 的原理介绍和入门教程已经非常多了，但还是想自己写一下，主要是遵从费曼学习法，分享是最好的学习，帮助自己整理思路。

本文介绍这一轮图片生成热潮的集大成者 Stable Diffusion 涉及的一些图片生成基本原理，这里全篇不会有数学公式，因为大部分公式我也不懂，但应该不会太影响理解基本原理和思路，有理解错误的地方欢迎指正。

阅读全文 »

常用工具网页汇总

发表于 2024-12-30 分类于杂谈
本文字数： 193 阅读时长 ≈ 1 分钟

记录一些用的比较多的网站工具~

阅读全文 »

iOS 归档方法野指针崩溃修复记录 archiveRootObject: toFile:

发表于 2024-12-26 分类于 iOS
本文字数： 2.1k 阅读时长 ≈ 2 分钟

最近线上遇到一个归档[NSKeyedArchiver archiveRootObject: toFile:] 崩溃的问题, 修复历程颇为曲折, 直到最后也没找到具体的问题, 在此记录下具体的排查方向吧.

阅读全文 »

[转载] 【WWDC21 10158】VideoToolbox 视频编码基础及其低延时新特性

发表于 2024-11-13 分类于转载
本文字数： 10k 阅读时长 ≈ 9 分钟

原文地址

本文基于 Session 10158 梳理。随着直播互动性增强，对直播延时的要求也越来越高，高延时会严重影响用户体验。本 Session 介绍的 VideoToolbox 低延时编码从编码角度来降低延时，给我们提供了降低延时的新思路。

VideoToolbox 编解码基础

VideoToolbox 简介

VideoToolbox 是苹果提供的一个直接访问硬编解码器的底层框架，可以用来编码、解码和像素格式转换。这些功能都以 session 的形式提供。如果你的 App 中不需要直接访问硬编解码器，那不需要使用 VideoToolbox，可以使用其他框架例如 AVFoundation。

阅读全文 »