本文主要以一个Java工程师视角,阐述如何从零(无任何二三方依赖)构建一个极简(麻雀虽小五脏俱全)现代深度学习框架(类比AI的操作系统)。
LoRA(Low-rank Adapter)在大模型(如GPT-3,LLama, Qwen等)中,是一种重要的微调技术。该技术通过在不改变预训练模型参数的同时,添加低阶矩阵,学习新的、特定于任务的参数。这种微调方式不仅维持了模型的高效性能,也显著提升了模型训练和部署的效率。然而当对base model进行规模化多任务微调时,相关部署成本可能会显著增加。基于实际应用场景,成本和效率考虑,我们在RTP-LLM框架上实现了两种LoRA方法:静态LoRA和动态LoRA。
商品主图在淘宝的各类导购渠道中(如搜索结果页、推荐列表、商品详情页等)至关重要,是向消费者表达商品信息的重要窗口,好的主图可以帮助消费者快速了解商品特性,加速购买决策,从而产生转化。
随着春节大促即将到来,为了确保线上业务高效稳定地运行,电商企业大多会对旗下关键业务应用进行多轮测试。通过模拟线上较高流量的请求,来观察服务性能的实际表现。
过去一年,淘天业务技术同学持续关注技术的前沿和变革,并在研究领域取得了一系列创新成果。 按照计算机协会定义的CCF-A类会议和期刊,我们精选出同学们在数据挖掘领域、机器学习、计算机视觉及多媒体等领域里发表的17篇顶会paper,涵盖了KDD2023 、WWW2023 、IEEE VR2023 、 CVPR2023等多个国际会议。后文将带大家迅速了解这17篇论文的研究成果及其在业务领域内的落地应用,并附上paper全文PDF文件可供下载和阅读。 保持更新,不断迭代,希望你读以下论文时能够为你带来新的思考。
本文讨论了在不使用websocket做服务端推送的情况下,如何写出一个健壮的前端轮询。文章提供了一些常见的前端轮询的应用场景以及可能遇到的问题,欢迎大家一起讨论。
广义的软件研发活动涉及到需求分析、源码阅读和理解、代码编写、测试编写、配置环境、发布运维、安全漏洞修复,各种基础软件升级等等,这些方方面面的工作,大致可以分为两类,第一类是价值创造活动,第二类是为了价值创造不得不付出的成本。 新产品特性的研发,属于价值创造的部分。例如一个编辑器的软件,新增特性可现实用户当前编写文章的字数,这个特性可以激励用户更积极地创作,潜在的用户会更喜欢这个编辑器软件。新产品特性的研发,对于开发者来说,是一个学习和创造的过程,他可能需要和用户沟通,和产品经理沟通,需要理解现有系统的概念和运行逻辑,以及在必要的时候需要通过搜索学习新的技术以实现特性,有了这些上下文基础,才能进行编码和测试等工作。可以把编码理解成翻译工作,在我看来,把英文翻译成中文,和把领域知识翻译成编程语言,有着非常高的相似度。这类研发活动,通常是产品导向的,其关键目标是给用户创造增量的价值。