在传统的大数据元数据管理系统中,以 HiveMetaStore 为核心的架构存在诸多问题和挑战。随着数据湖大规模应用、AI 数据大量增长、数据安全与数据治理被更加被重视,我们难以基于原有的架构或组件实现一套统一的元数据管理系统,进而解决数据孤岛、统一权限,多维度数据治理等问题。因此,在 B 站 我们引入了 Gravitino,本次分享将介绍 Gravitino 在 b 站的最佳实践。其中包括了统一了多种数据源的元数据视图,统一跨数据源任务的 schema 信息,并且基于其中的 Fileset 概念对非结构化数据进行管理与数据治理,取得了可观的收益。
在当前互联网行业飞速发展的背景下,企业对高效、稳定、灵活的服务治理方案需求愈发迫切。猫眼作为领先的互联网票务企业,通过采用腾讯云 北极星(Polaris),成功优化了其微服务架构,实现了显著的性能提升和故障容错能力增强。通过将注册配置中心从 Nacos 迁移至北极星,猫眼解决了多项技术瓶颈问题,在同等规格下,承载的服务注册数更多,注册发现性能提高了30%,并显著提升了系统的扩展性和稳定性。
在前端开发大模型应用的时候,处理和分割文本是常见需求,毕竟现在的大模型输入输出都有限-嵌入等也是有token限制的,合理的文本分割能显著提高模型的表现。Langchain提供了多种文本分割方式,本文将对比五种文本分割器
自 2015 年 TensorFlow 开源以来,伴随着深度学习的迅猛发展,通用深度学习框架经历了 10 年的高速发展,大浪淘沙,余者寥寥。曾几何时,也有过性能与易用性之争,也有过学术界和工业界之分,但随着本轮大模型应用的推波助澜,PyTorch 无疑已经成为事实上的大模型“标准框架”。时至今日,PyTorch AOTCompile 特性的发布更是直接撕下了 TensorFlow 最后一块“易于部署”的遮羞布。社区活跃度、性能和易用性,数张无形的大手,推搡着我们去拥抱更加现代化的新质生产力 —— PyTorch。
站外商详(H5/小程序)一直以来采用detailV3老接口数据,在样式和功能上,不能与最新版的客户端同步对齐,各个端之间的使用体验之间存在差异。
现有的文生图技术已经较为成熟,Flux、SD 3.5 和 Midjounery 等最先进文生图模型已经可以生成足够“以假乱真”的图像。在淘系内部,现有文生图模型已经被应用于各种需要创意图像的业务,例如 AI 会场等。但是,文生图技术的缺陷在于文本作为控制条件的指导性仍然较弱--例如我们无法仅利用文本生成一个带有“GitHub”样式的包包的营销图
LangEngine作为阿里集团内部发起的纯Java版本的AI应用开发框架,经过充分实践,已经广泛应用于包括淘宝、天猫、阿里云、爱橙科技、菜鸟、蚂蚁、飞猪、1688、LAZADA等在内的多个业务场景。此外,LangEngine还支撑了阿里国际AI应用搭建平台的自研与上线,对集团内部的AI平台基础设施产生了深远影响。
CloudWeGo 开源走过了三周年,秉持内外统一的原则,我们持续在开源仓库迭代,将服务于字节内部的特性发布到外部,23-24 年 Kitex/Hertz 重点关注大模型、用户体验和性能三个方面,帮助新的业务场景快速发展,并在用户体验和性能上持续优化。同时,Kitex/Hertz 在外部企业得到了广泛应用,也吸引了众多外部开发者,持续完善 CloudWeGo 的生态。