这个时代AI发展迅速,我认为我正在见证一个时代的发展,用本帖记录我折腾过的各种AI,见证AI技术的成长。

图像生成

2021年

  • 2021-02 petalica出现,AI线稿上色,Pixiv推的一个技术
  • 2021-06 英伟达Canvas发布,通过语义分割画图,将人手绘的简单图翻绘,主要用于场景绘制 。
  • 2021-08 WAND出现,二次元头像版Canvas

2022年

  • 2022-05 DiscoDiffusion开始流行,主要用于一些抽象场景绘制
  • 2022-07 midjourney开放公测,仍然是一些比较艺术化的绘制。
  • 2022-08 基于StableDiffusion的Novelai出现(二次元AI)
  • 2022-10 Novelai源码和模型泄漏,网上开始出现很多AI二次元绘画,此时AI画手很有问题。

2023年

  • 2023-01 基于StableDiffusion的LoRA训练方法出现,可以自行训练,人物,衣服,场景,画风,生成较小的LoRA模型,LoRA不仅可以用于二次元绘画,甚至可以用于真实感模型上,从而做到赛博COSER。
  • 2023-02 基于StableDiffusion的Control-Net出现,可以通过深度图,人物姿势等参考,实现了更加可控的姿势,同时使用手部深度图,可以降低手部畸形。
  • 2023-03 MFR(Multi-frame-Rendering)方法出现,大幅降低了使用StableDiffusion图生图视频的不连续性,通过类似TAA的手段降低抖动。
  • 2023-04 ControlNetMediaPipeFace 出现,可以通过面部表情图片控制生成图片表情。
  • 2023-05 ControlNetTile模型出现,几乎可以替代图生图,且能对小图超分,提升质量。
  • 2023-05 DragGAN出现,是基于GAN的图片模型,主要可以用于拖拽图片内容,生成拖拽结果。
  • 2023-06 DragGAN开源,不太行,属于被媒体吹过头了。
  • 2023-06 SD的新版SDXL0.9模型泄露,这个是用了更大训练参数和神经网络的模型,本地部署8g打底,有望和MJ一战。
  • 2023-07 SDXL1.0发布,开源模型实力和MJ接近,缺点是体积过大难以微调和训练Lora。
  • 2023-11-15 LCM-Lora技术出现,可以在几乎不损失质量的前提下将迭代步数由30步降到8步,大幅提升出图速度。

2024年

  • 2024-2-27 SD3.0发布,继续开源
  • 2024-6 IC-Light 出现,可以对单一图片重打光,潜力极大,但目前来说效果还待优化。
  • 2024-7 controlnet-uni出现,是一个把多个cn混合使用的模型,比如背景线稿+前景人物openpose,目前效果和多次使用cn相似,暂时观望。
  • 2024-7 pantsUndo发布,输入一张图片,补充整个绘画过程,模仿人类的绘画撤销行为。

视频生成

  • 2024-1 OpenAI发布SORA预览,生成质量与目前的animadiffuse相比,一致性和稳定性强太多。(但是一直没有公开测试)

语言模型

2021年

  • 2021-11 GitHub Copilot公测,可以智能补全代码。

2022年

  • 2022-11 ChatGPT3.0爆火,LLM大语言模型颠覆了人们的认知,GPT不只能对话,它可以担任非常多的角色,可以写代码,可以探讨哲学,可以模拟为一个终端,可以模拟一个异世界文字游戏。GPT的出现注定将会改写人类的历史。

2023年

  • 2023-02 微软推出NewBing,集成了GPT的搜索引擎,Google股票应声下跌10% 集成了GPT的搜索引擎能大幅缩短人们获取答案的时间,可以给出搜索总结。也可能再次改变搜索引擎的盈利模式。
  • 2023-03-14 清华大学推出开源ChatGLM大模型,至少要20G显存才能跑的本地化微型GPT。
  • 2023-03-15 ChatGPT4.0推出,基于3.5的改进,一定程度上解决了GPT在逻辑处理上的短板,同时增加了图片识别功能,甚至可以通过图片线稿编写网站。
  • 2023-03-17 微软推出内嵌GPT的Office全家桶,可以使用自然语言处理office办公软件。
  • 2023-03-23 Google对话模型Bard公测。
  • 2023-03-24 ChatGPT开放插件市场
  • 2023-04-07 阿里大模型通义千问出现,通义千问将接入所有阿里产品
  • 2023-04 基于GPT的微型西部世界,斯坦福用GPT做了一个25个人口的小镇,镇子里所有AI都进行独立思考。项目演示https://reverie.herokuapp.com/arXiv_Demo/# 论文 https://arxiv.org/pdf/2304.03442v1.pdf
  • 2023-07-19 meta公布其开源大模型LLAMA2,可免费商用,最大模型70B
  • 2023-08-03 Claude2发布,个人体验下来比目前的GPT3.5更智能。
  • 2023-11-07 OpenAI推出GPTs,用户构建自定义ChatGPT完成特定的个人和专业任务。用户能快速创建自己专用版本的ChatGPT。
  • 2023-12-07 Google公布了Gemini用于对标GPT4v的多模态模型。

语音模型

2020年

  • 2020-12 Synthesizer V AI 使用神经网络的AI歌姬发布

2024年

  • 2024-3 suno ai v3发布,支持中文生成,和以往AI作曲相比性能强很多( https://app.suno.ai/ )

Q.E.D.


寄蜉蝣于天地,渺沧海之一粟