清华大学毕业证照片高清生成base64和清华大学硕士毕业证

关于清华大学毕业证照片高清生成base64、毕业证样品网总结了各种问题,给大家分析一下!
在这一期的工作中,我们在EasyNLP框架中集成了中文文图生成功能,同时开放了模型的Checkpoint,方便开源社区用户在资源有限情况下进行少量领域相关的微调,进行各种艺术创作。
该研究对pNLP-Mixer模型进行了广泛的架构探索,以确定不同超参数对下游性能的影响,研究范围包括投影超参数和MLP-Mixer

关于清华大学毕业证照片高清生成base64、毕业证样品网总结了各种问题,给大家分析一下!希望读者认为关于清华大学毕业证照片高清生成base64的详细知识和(清华大学硕士毕业证)的讨论值得一读!
问题1。了解双碳能抓住什么职业的新机会|红利人物圆桌36氪《职场Bonus》(ID:zhi Chang Hong Li)
BONUSTALK#MARISSUE
“双碳”一词从2020年开始出现在公众视野中,在2021年两会上被写进政府工作报告后,一年来持续升温。
众所周知,今年中国主动向世界宣布了“2030年前实现碳高峰,2060年前实现碳中和”的双重碳目标。你知道,中国从2007年开始开发新能源。我们在光伏领域已经处于全球领先地位,用高压技术实现西电传输,下一步是将清洁能源沿着丝绸之路运输到整个欧亚大陆。(约翰f肯尼迪)。
但是这些似乎都与不相关的专业相去甚远。
也许你不知道,双碳的主旋律已经悄悄地登上了工作舞台。
一些人通过CCER中介交易、碳配额交易、国际碳汇交易、碳检查验证、绿色金融等业务节操赚了100万个单位的第一桶,成立了创业公司。参考MAC MAC的2021年人才吸引力报告显示,去年新经济中职位增长率最快的前三个领域分别是
“新能源发电”、“新能源汽车”和“智能制造”都与降低能源强度密切相关。
为了在这场双碳变化中找到对个人职业成长的启发,上班族Bonus邀请了两位嘉宾——王军和王秋。在2小时15分钟的直播中,两人以最接近业界现场的独家视角,带来高密度信息输出,回答上班族。
《碳中和时代》本书的作者。如果在豆瓣上搜索“碳中和”,这本书将以8.3分的高分出现在第一位。他也是“王潭碳中和”的澳大利亚,目前担任某大型集团公司碳中和管理监督。在直播中,王老师向我们独家揭露了他。
作为Advisory的年轻创业合作伙伴,带领中国第一个“影响力投资”顾问团队专注于碳中和和气候变化轨道,公司名称中的数字“2060”正是中国旨在实现碳中立的一年。
这篇文章是直播精选对话,全文约为5500字,预计阅读时间为15分钟。我们一起从零开始认识双碳,找到打开职场红利的好方法。
2022年,职场红利研究所(以下简称职场红利研究所)诞生。
36氪旗下推出的工作单位将以新的IP的身份,集中在为上班族发掘最长期价值的个人途径上。我们不想引起不安。我们必须从所有群体的职业苦恼中找到解决办法。
中信兰行业侦察机将搭载“红利消失的大企业”、“医生红利被褥指南”、“红利新品种”、“红利城市”
四大系列主题为读者深入报道2022年的职场风向。
职场Bonus:两位能否以对自己产业的底层洞察,先做行业内重要概念的科普?
王军:ESG是投资者对投资对象非财务表现的评价标准。
与以前的企业社会责任报告相比,更加注重量化各种数据,包括环境、社会和公司治理结构。环境部分包括气候管理部分,表示企业在碳管理或碳中和方面的业绩。
双碳与碳中性包含关系,双碳是碳峰碳中性的总称,碳排放是二氧化碳或温室气体排放的简称。
王超东京:我会在王老师的基础上补充的。可以思考气候变化。可以用二氧化碳作为核心温室气体。因为人为因素超过了自然可以消化的量。
因此,我们必须以各种人为自然的方式减少和中和碳排放,以抵消人类增加的负担。
职场Bonus:双碳概念涉及的领域很多,两位老师分别如何纠正行业脉络?在这个大领域,就业市场有什么职位?
王军:双碳概念需要从广义和协议两个层面来看。
广义上说,双碳是指实现双碳的所有产业
因为风电、光伏、储能、氢能、新能源汽车、CCUS等产业总体不稳定,产业波动严重。
狭义的双碳是指国家公布的新的职业碳排放管理人员。这个领域在双碳被提出之前是一个很小的领域。市场上最需要的是审计师。这个职位工作量大,收入低,往往进入这个领域多少是拯救世界的情绪。
王网:我们碳中立的想法是国家和全球社会、经济变化的大方向。
在这样的前提下,分为能源、工业、建筑、交通、农业、人工、自然的碳减排技术和碳权支持系统。
上班族Bonus:如果想知道这个专业赛道,有哪些节点大事件值得我们回顾关注?(美国电视剧《Northern Exposure》)。
王军:2005年京都议定书生效。2012年京都议定书失效。2013年,中国开始了碳交易试点。2015年巴黎协定2020年提出了双重碳目标。
从一级市场的角度来看,我认为可以看到业界主要赛道的增长、增长和indicator。例如,碳管理软件碳拦截的A轮融资,在业界看碳的底层数据基础上,是风向标的共识。例如,从去年到今年,能源储存、氢能源关注;例如,最近的核能投资、去年年底开始的新型电力市长/市场改革带来的未来机会等。
上班族Bonus:双碳行业火了以后,在什么水平上与过去相比出现了变数?
王军:首先,从产业角度看,双碳目标的提出给了很多产业很大的确定性,提高了投资者的决心。
所以我前面说的产业都在迅速扩大,相关工作岗位需求在迅速扩大。
这个行业在双碳提案前后可以说是两个行业。因为以前基本业务是碳验证,偶尔有政府课题和碳资产开发业务,之后企业的双重碳意识提高,企业内部对碳管理的岗位需求大量产生。
王超:刚才提到的几个方面发生了很大的变化。包括很多投资机构在内,还出现了专门观看碳中和赛道的队伍。
我们看到这些队伍从1人增加到近10人。
职场Bonus:两位都是以什么契机接触和理解这个行业的?你们从事这个行业多年了,有没有想过中途放弃或转行?
王军:我当时在韩国,用试一试的态度写简历,没想到就进来了。这个行业走过来其实比较难。如果我们把这个行业的京畿道划成一条线,
它应该表现出U型形状。也就是说,行业初期很景气,中期很低迷。直到双碳目标提出后再次起飞。
中期的时候,我以为这是我一辈子的工作,但是家庭有了孩子,多次放弃,打算去其他行业赚够钱再回到这个行业。
我个人在影响力投资领域投入了比较长的时间。气候变化一直是我们关注的一部分,但现在通过“碳中和”被提到了前所未有的高度。一直关心我的前辈们提醒我,有影响力的投资不可能在中国进行,但我仍然相信我看到的。还是要有的。
“makeitwork”的信仰。另外,我认为这是一个有趣的挑战。
上班族Bonus:王军老师现在通过自己的《王谭碳中立》和你写的书《碳中和时代》成为碳中立领域的KOL。这种目标和初衷是什么?现在这个初心有变化吗?
一是通过自己的出口提高整个碳管理行业的专业水平,降低新手的学习门槛,二是让更多的人关注气候变化带来的危机。
当然,写得太专业反而会适得其反,所以为了提高公众对气候危机的认识,我打算写科幻小说,通过小说传播气候和双碳知识。
职场Bonus:老师的目标和初心有变化吗?
王网:我们的初衷是帮助解决环境和社会问题的创业者找到更合适、更有效的资本。
这段时间没有变化。我在英国的时候遇到了很多这样的impact。
Entrepreneurs,但是每个创业者的需求太多样化了,没有中标。在这种想法下,我后来发现,有影响力的投资是有效的工具,近年来发展到资产分类也可以对他们有帮助。
世界需要各种类型的创业者。
上班族Bonus:今年,36氪和东方证券共同举办了名为“双碳星种”的可持续创新大会,重点关注新能源、新材料、新技术、新模式四大赛道,发掘了创新企业。对于创新项目,如果能准确把握市场和产业资本的需求,就想确保资源。所以,当我们从狭义的角度来看双碳产业时,其中钱的流动逻辑是什么?
王军:光是碳管理业本身,我想可以在以下几种类型的公司介绍。首先是参与碳市场的控制和排放企业。
这些企业同意行业,但有高排放企业的钱流向低排放企业的现象。排放企业配额不足,必须从低排放企业购买。
另一种类型的公司是包括软件服务在内的公司
目前,由于大量企业和政府有双碳方面的业务需求,相应产生的相应服务公司属于新市场,钱从有双碳需求的企业和政府流入服务公司。
第三类是类似于股票交易商的碳交易公司,该公司的资金流类似于股票市场。
王网:帮助各行业赛道转变为碳中和技术和商业模式,是资金和人才流动的地方。不重视或不改变的企业将逐渐被市场淘汰。
职场Bonus:哪里最有可能生产双碳领域的独角兽、明星创业公司?
王武胜:有我刚才提出的各种生活方式。
,可以想象储能、氢气、低碳水泥等巨头公司。循环经济、printing、可持续时尚、可持续消费品机会等许多其他新机会都是创新的。
职场Bonus:目前谁最有可能反对双碳推进?
王军:目前最排斥的应该是配额不足的火力企业,从长远来看,是化石燃料采掘业。
奖金人物圆桌直播现场。从左到右:陈彤,《职场Bonus》主编;王军,豆瓣高分书《碳中和时代》作家;王超东京2060Advisory影响力投资创始合伙人
03双碳风会对我们的职业产生什么影响?
职场Bonus:全国哪个城市在双碳细分赛道上已经取得了规模化的成果?放眼世界,哪个国家和地区在产业模式上值得我们参考?年轻人想选择双碳作为未来发展方向,有没有推荐发展的城市?
王军:业界的历史原因,我第一次推北京
碳管理行业最初来自开发CDM项目的人,所以当初开发CDM项目的公司因为项目申报方便,集中在背景上。所以到目前为止,背景方面的圈子还是最集中的。
王柱愿景:投资机构或大城市。创业公司的话,每个城市都有。目前,我自己的队伍在杭州。在这里也给杭州打个小广告吧。哈哈。
职场Bonus:不久前,我们工号做了一篇深度报道,重点介绍了名为“碳排放经理”的新工作和相关证书培训(详见详细信息)
碳排放训练公开:踩风口还是坑?(|业界侦察机)。首先不要谈论证书培训——。你觉得这种新工作怎么样?
王军:我认为碳排放经理这个职业是未来最有前途的职业。
第一,双碳目标是未来几十年的国家基本战略,也是拯救全人类的崇高事业。所以有前途,天然气行业初期人才不足,未来会去拯救大量人才。在这种环境下,工资水平只会提高。
碳中和细分领域有很多好机会。例如,如果今天能开发出可市场化的新CCUS技术、新材料等,很多机构会排队投资这种新项目。
职场Bonus:如果职业等级在这个行业排名,这个阶梯会是什么样子?那和职位真正价值的梯队顺序一样吗?
王军:各职业根据能力的不同,工资的变化幅度可能会很大。例如,如果限制三年经验能力的平均职位。
碳审计院的性价比最低。也就是说,买的钱少。
碳部门以性价比为中心,其中包括碳资产开发技术人员。
碳管理公司,也就是我们常说的甲方,性价比相对较高,钱多生活少,但一般只寻找丰富的经验。
碳交易职位的变动很大。行情好的时候,其他职位的工资可能达不到碳交易员的一部分。当然,如果行情不好,可能会赔钱。
王网:碳中和是一个很大的经济变化。刚才提到的各行各业机会的薪资都要回到自己所属细分行业的具体情况。
创业公司、投资机构、三方生态圈机构的薪资目前应该与去年同期水平比较,具有竞争力!
上班族Bonus:在调查过程中,我发现很多人可能不是环保等相关专业出身,但由于双碳政策的火爆,我想加入这条赛道。你们认为有什么学科背景的人更容易进入这条赛道?每个专家在选择双碳业务时,应该通过什么途径发挥自己的潜力?
王军:事实上,双碳与传统的环境保护没有太大关系,所以任何有专业背景的人都可以进入这个产业。
当然,工科生比文科生有优势。这个行业是新兴行业,没有成熟的训练和晋升机制,所以自我学习能力和理解力是停留在这个领域,快速成长的关键。
王超东京:首先我们不能追热点。从历史数据不难看出,所有燃烧的轨道不可能一直站在高位。最终趋于回落和稳定。 (以英语发言)(以英语发言)(以英语发言)。
还是要回到自己的专业和爱好本身。碳中和本质上也是为了解决气候变化问题。回到本心,你想为解决气候问题贡献自己的力量吗?
那么,可以把重点放在自己的专业和碳中和相关部分,发挥自己的优势,同时快速学习。例如,金融专业可以考虑碳中和投资和金融机会,材料专业可以考虑碳减排、碳固定相关技术研发、产业研究等。
职场Bonus:假设我是金融专业毕业生。在整个碳中和赛道上看到有这么多就业和投资机会的情况下,如何简单地选择繁杂呢?
王网:金融的从业技术,各行各业的交叉知识背景应该最符合目前的需求。利用自己的金融专业知识,借助资本的力量,在碳中和赛道上帮助或推动这些创业者/创业项目,扩大影响力。具体就业选择:可以重点考虑相应的创业公司、投资机构,甚至我们这样的第三方投融资咨询机构。
我们自己的团队和很多投资机构和创业公司都有气候环境、生物工程、能源、材料、化学等博士。
另外,人文背景,想做有意义有价值的事情的小伙伴,我认为大家应该更追求make-things-。
韩。投资机构里有很多有人文科学背景的知名投资者,对社会和发展底层的思考以投资形式转变为自己的认知和判断。有人文背景的小伙伴们需要更加坚定、快速学习、完善知识框架。虽然很难,但没有那么难。
主要是:这不是自己真正想做的事。
上班族Bonus:对于环境工程、能源、电力、生物、材料等背景的同学来说,就业切口有哪些地方?
王军:如果是理工科背景的话,最好从这个专业的细分领域开始,充分利用对行业/技术等的认知优势。同时,要明白碳中和不是单一领域或学科。
要有快速学习和交叉学习的能力。现在我们队正在招聘这种类型的人才。
上班族Bonus:说到奖金顶峰的行业,当谈到上升曲线中的另一个行业时,大多数人仍然担心薪资总包装在现阶段不符合心理预期。至少,人们希望看到双碳已经足够可靠的行业成果。在两人眼中的例子中,过去有哪些努力可以看到最初的规模和效果?
王军:从产业上看,氢能、CCUS等目前看不到商业模式,但成为了主人。要投资领域并且开始小范围商业化。
从碳管理领域说,目前国内应该有数十家公司公布了自己的碳中和目标,还有很多的公司正在抓紧制定双碳战略,这个数字在2020年还是0。
王苡憬:很多已经跑出来的能源、电池、光伏、EV已经是绝对的成效结果。这些下沉细分还会有很多衍生机会。
再就是刚才提到的各种各业赛道,大家对创投感兴趣,可以多多关注未来潜力大的赛道,融资节奏健康的公司。
职场Bonus:就我国目前的社会情况而言,要实现碳中和目标,未来可能会再推出怎么样的规划或制度?如果我们以个人视角去畅想未来40年,以及这其中还可能出现哪些节点性事件?
我在书《碳中和时代》中专门有一节就是预测未来的一些场景,比如电动车无感充电、海绵电网、个人炒碳、低碳消费升级等,这些预测得到了清华大学碳中和学院院长的肯定,感兴趣的可以买来看看。
职场Bonus:我们职场红利研究所的直播不会给你推荐生活好物,但会请嘉宾朋友为你分享优质的书、电影和音乐。这可能是我作为文艺青年的一种坚持。二位简单介绍一下你们这次的推荐?
汪军:推荐书的话那肯定首推自己的书《碳中和时代》,
无论是想从事这一行业的人,还是对气候变化以及由此带来的大国博弈和宏观经济感兴趣的人,相信你看了这本书都会有所收获。另一本推荐的书是经典名著
《百年孤独》,因为我们可通过该书体验连续下4年雨和连年干旱的场景,这种场景在未来的气候危机中可能成为现实。电影方面我推荐美国前副总统戈尔拍的纪录片
《难以忽视的真像》,这部电影算得上是我对气候危机的启蒙。
王苡憬:我本人从小就非常喜欢看纪录片。在这里给大家推荐一部纪录片,名字是《蓝色星球》。
职场Bonus:和读者们介绍下自己现在在做的事情?
汪军:我现在一家大型集团公司任碳中和负责人,负责集团总体的碳中和战略及实施。
王苡憬:2021年,我成立了2060
Advisory影响力投资这家base在杭州的影响力投融资顾问公司。我们重点关注碳中和转型和17项联合国可持续发展目标范围内的项目。核心业务包括赛道内中早期创业项目(侧重天使轮到B轮)的投融资顾问业务和影响力业务。
近期我们团队也正在积极招募小伙伴。欢迎推荐/自荐创业项目或候选人。机会详情见推送二条《职位顺风车|碳中和投资、分析师机会》
你对双碳行业的发展前景有什么样的看法?
欢迎在评论区畅所欲言,好问题有机会被嘉宾看见回复~
最多的留言,将会获得汪军老师签名版《碳中和时代》一本。
获奖名单将在下周四“红利简讯·疯四播报”中公示。
36氪「职场Bonus」(ID:ZhiChangHongLi)
本文来自微信“职场Bonus”(ID:ZhiChangHongLi),36氪经授权发布。
问题二.EasyNLP中文文图生成模型带你秒变艺术家导读
多模态数据(文本、图像、声音)是人类认识、理解和表达世间万物的重要载体。近年来,多模态数据的爆炸性增长促进了内容互联网的繁荣,也带来了大量多模态内容理解和生成的需求。与常见的跨模态理解任务不同,文到图的生成任务是流行的跨模态生成任务,旨在生成与给定文本对应的图像。这一文图生成的任务,极大地释放了AI的想象力,也激发了人类的创意。典型的模型例如OpenAI开发的DALL-
E和DALL-E2。近期,业界也训练出了更大、更新的文图生成模型,例如Google提出的Parti和Imagen。
然而,上述模型一般不能用于处理中文的需求,而且上述模型的参数量庞大,很难被开源社区的广大用户直接用来Fine-
tune和推理。本次,EasyNLP开源框架再次迎来大升级,集成了先进的文图生成架构Transformer+VQGAN,同时,向开源社区免费开放不同参数量的中文文图生成模型的Checkpoint,以及相应Fine-
tune和推理接口。用户可以在我们开放的Checkpoint基础上进行少量领域相关的微调,在不消耗大量计算资源的情况下,就能一键进行各种艺术创作。
EasyNLP是阿里云机器学习PAI团队基于PyTorch开发的易用且丰富的中文NLP算法框架,并且提供了从训练到部署的一站式NLP
开发体验。EasyNLP提供了简洁的接口供用户开发NLP模型,包括NLP应用Zoo、预训练模型
ModelZoo、数据仓库DataHub等特性。由于跨模态理解和生成需求的不断增加,EasyNLP也支持各种跨模态模型,特别是中文领域的跨模态模型,推向开源社区。例如,在先前的工作中,EasyNLP已经对中文图文检索CLIP模型进行了支持(看这里)。我们希望能够服务更多的
NLP和多模态算法开发者和研究者,也希望和社区一起推动NLP
/多模态技术的发展和模型落地。本文简要介绍文图生成的技术,以及如何在EasyNLP框架中如何轻松实现文图生成,带你秒变艺术家。本文开头的展示图片即为我们模型创作的作品。
下面以几个经典的基于Transformer的工作为例,简单介绍文图生成模型的技术。DALL-
E由OpenAI提出,采取两阶段的方法生成图像。在第一阶段,训练一个dVAE(discretevariational
autoencoder)的模型将256×256的RGB图片转化为32×32的image
token,这一步骤将图片进行信息压缩和离散化,方便进行文本到图像的生成。第二阶段,DALL-
E训练一个自回归的Transformer模型,将文本输入转化为上述1024个imagetoken。
由清华大学等单位提出的CogView模型对上述两阶段文图生成的过程进行了进一步的优化。在下图中,CogView采用了sentencepiece作为text
tokenizer使得输入文本的空间表达更加丰富,并且在模型的Fine-tune过程中采用了多种技术,例如图像的超分、风格迁移等。
ERNIE-ViLG模型考虑进一步考虑了Transformer模型学习知识的可迁移性,同时学习了从文本生成图像和从图像生成文本这两种任务。其架构图如下所示:
随着文图生成技术的不断发展,新的模型和技术不断涌现。举例来说,OFA将多种跨模态的生成任务统一在同一个模型架构中。DALL-E
2同样由OpenAI提出,是DALL-E模型的升级版,考虑了层次化的图像生成技术,模型利用CLIP
encoder作为编码器,更好地融入了CLIP预训练的跨模态表征。Google进一步提出了Diffusion
在本文中,我们不再对这些细节进行赘述。感兴趣的读者可以进一步查阅参考文献。
由于前述模型的规模往往在数十亿、百亿参数级别,庞大的模型虽然能生成质量较大的图片,然后对计算资源和预训练数据的要求使得这些模型很难在开源社区广泛应用,尤其在需要面向垂直领域的情况下。在本节中,我们详细介绍EasyNLP提供的中文文图生成模型,它在较小参数量的情况下,依然具有良好的文图生成效果。
考虑到Transformer模型复杂度随序列长度呈二次方增长,文图生成模型的训练一般以图像矢量量化和自回归训练两阶段结合的方式进行。
图像矢量量化是指将图像进行离散化编码,如将256×256的RGB图像进行16倍降采样,得到16×16的离散化序列,序列中的每个image
token对应于codebook中的表示。常见的图像矢量量化方法包括:VQVAE、VQVAE-2和VQGAN等。我们采用VQGAN在ImageNet上训练的f16_(16倍降采样,词表大小为)的模型权重来生成图像的离散化序列。
自回归训练是指将文本序列和图像序列作为输入,在图像部分,每个imagetoken仅与文本序列的tokens和其之前的image
tokens进行attention计算。我们采用GPT作为backbone,能够适应不同模型规模的生成任务。在模型预测阶段,输入文本序列,模型以自回归的方式逐步生成定长的图像序列,再通过VQGAN
在EasyNLP中,我们提供两个版本的中文文图生成模型,模型参数配置如下表:
pai-painter-base-zh
pai-painter-large-zh
参数量(Parameters)
层数(NumberofLayers)
注意力头数(AttentionHeads)
隐向量维度(HiddenSize)
文本长度(TextLength)
图像序列长度(ImageLength)
图像尺寸(ImageSize)
VQGAN词表大小(CodebookSize)
在EasyNLP框架中,我们在模型层构建基于minGPT的backbone构建模型,核心部分如下所示:
_stage_model=VQModel(ckpt_path=vqgan_ckpt_path).evaler=GPT
VQModel的Encoding阶段过程为:
#ineasynlp/zoo/text2image_generation/@_graddefencode_to_z(self,x):quant_z,_,info=_stage_(x)indices=info[2].view(quant_[0],-1)returnquant_z,indicesx=inputs['image']x=(0,3,1,2).to(memory_format=s_format)#onesteptoproducethelogits_,z_indices=_to_z(x)#z_indice:([batch_size,256])
VQModel的Decoding阶段过程为:
#ineasynlp/zoo/text2image_generation/@_graddefdecode_to_img(self,index,zshape):bhwc=(zshape[0],zshape[2],zshape[3],zshape[1])quant_z=_stage__codebook_entry((-1),shape=bhwc)x=_stage_(quant_z)returnx#sample为训练阶段的结果生成,与预测阶段的generate类似,详解见下文generateindex_sample=(z_start_indices,c_indices,steps=z_[1],)x_sample=_to_img(index_sample,quant_)
Transformer采用minGPT进行构建,输入图像的离散编码,输出文本token。前向传播过程为:
#ineasynlp/zoo/text2image_generation/forward(self,inputs):x=inputs['image']c=inputs['text']x=(0,3,1,2).to(memory_format=s_format)#onesteptoproducethelogits_,z_indices=_to_z(x)#z_indice:([batch_size,256])c_indices=cifand<1.0:mask=(*(z_,device=z_))mask=.to(dtype=64)r_indices=_like(z_indices,_size)a_indices=mask*z_indices+(1-mask)*r_indiceselse:a_indices=z_indicescz_indices=((c_indices,a_indices),dim=1)#targetincludesallsequenceelements(noneedtohandlefirstone#differentlybecauseweareconditioning)target=z_indices#makethepredictionlogits,_=er(cz_indices[:,:-1])#cutoffconditioningoutputs-outputicorrespondstop(z_i|z_{<i},c)logits=logits[:,c_[1]-1:]returnlogits,target
在预测阶段,输入为文本token,输出为256*256的图像。首先,将输入文本预处理为token序列:
#ineasynlp/zoo/text2image_generation/preprocess(self,in_data):ifnotin_data:raiseRuntimeError(InputdatashouldnotbeNone.)ifnotisinstance(in_data,list):in_data=[in_data]rst={idx:[],input_ids:[]}max_seq_length=-1forrecordinin_data:ifsequence_lengthnotinrecord:breakmax_seq_length=max(max_seq_length,record[sequence_length])max_seq_length=_lengthif(max_seq_length==-1)elsemax_seq_lengthforrecordinin_data:text=record[_sequence]try:text_ids=_tokens_to_ids((text))text_ids=text_ids[:_len]n_pad=_len-len(text_ids)text_ids+=[_id]*n_padtext_ids=(text_ids)+_vocab_sizefinally:rst[idx].end(record[idx])rst[input_ids].end(text_ids)returnrst
逐步生成长度为16*16的图像离散token序列:
#ineasynlp/zoo/text2image_generation/generate(self,inputs,top_k=100,temperature=1.0):cidx=inputssample=Truesteps=256forkinrange(steps):x_cond=cidxlogits,_=er(x_cond)#pluckthelogitsatthefinalstepandscalebytemperaturelogits=logits[:,-1,:]/temperature#optionallycropprobabilitiestoonlythetopkoptionsiftop_kisnotNone:logits=_k_logits(logits,top_k)#lysoftmaxtoconverttoprobabilitiesprobs=(logits,dim=-1)#samplefromthedistributionortakethemostlikelyifsample:ix=al(probs,num_samples=1)else:_,ix=(probs,k=1,dim=-1)#endtothesequenceandcontinuecidx=((cidx,ix),dim=1)img_idx=cidx[:,32:]returnimg_idx
最后,我们调用VQModel的Decoding过程将这些图像离散token序列转换为图像。
我们在四个中文的公开数据集COCO-
CN、MUGE、Flickr8k-CN、Flickr30k-CN上验证了EasyNLP框架中文图生成模型的效果。同时,我们对比了这个模型和CogView、DALL-
1)MUGE是天池平台公布的电商场景的中文大规模多模态评测基准(/muge)。为了方便计算指标,MUGE我们采用valid数据集的结果,其他数据集采用test数据集的结果。
2)CogView源自/THUDM/CogView
E模型没有公开的代码。已经公开的部分只包含VQVAE的代码,不包括Transformer部分。我们基于广受关注的/lucidrains/DALLE-
pytorch版本的代码和该版本推荐的checkpoits进行复现,checkpoints为2.09亿参数,为OpenAI的DALL-
E模型参数量的1/100。(OpenAI版本DALL-E为120亿参数,其中CLIP为4亿参数)。
我们分别在自然风景数据集COCO-CN上Fine-tune了base和large级别的模型,如下展示了模型的效果:
示例1:一只俏皮的狗正跑过草地
示例2:一片水域的景色以日落为背景
我们也积累了阿里集团的海量电商商品数据,微调得到了面向电商商品的文图生成模型。效果如下:
示例3:女童套头毛衣打底衫秋冬针织衫童装儿童内搭上衣
示例4:春夏真皮工作鞋女深色软皮久站舒适上班面试职业皮鞋
除了支持特定领域的应用,文图生成也极大地辅助了人类的艺术创作。使用训练得到的模型,我们可以秒变“中国国画艺术大师”,示例如下所示:
欣赏了模型生成的作品之后,如果我们想DIY,训练自己的文图生成模型,应该如何进行呢?以下我们简要介绍在EasyNLP框架对预训练的文图生成模型进行Fine-
用户可以直接参考链接的说明安装EasyNLP算法框架。
首先准备训练数据与验证数据,为tsv文件。这一文件包含以制表符\t分隔的两列,第一列为索引号,第二列为文本,第三列为图片的base64编码。用于测试的输入文件为两列,仅包含索引号和文本。
为了方便开发者,我们也提供了转换图片到base64编码的示例代码:
importbase64fromioimportBytesIOfromPILimportImageimg=(fn)img_buffer=BytesIO(img_buffer,format=)byte_data=img_base64_str=base64.b64encode(byte_data)#bytes
下列文件已经完成预处理,可用于测试:
#train/release/tutorials/painter_text2image/MUGE_train_text_#valid/release/tutorials/painter_text2image/MUGE_val_text_#test/release/tutorials/painter_text2image/MUGE_
我们采用以下命令对模型进行fine-tune:
easynlp\--mode=train\--worker_gpu=1\--tables=MUGE_val_text_,MUGE_val_text_\--input_schema=idx:str:1,text:str:1,imgbase64:str:1\--first_sequence=text\--second_sequence=imgbase64\--checkpoint_dir=./finetuned_model/\--learning_rate=4e-5\--epoch_num=1\--random_seed=42\--logging_steps=100\--save_checkpoint_steps=1000\--sequence_length=288\--micro_batch_size=16\--_name=text2image_generation\--user_defined_parameters='pretrain_model_name_or_path=alibaba-pai/pai-painter-large-zhsize=256text_len=32img_len=256img_vocab_
我们提供base和large两个版本的预训练模型,pretrain_model_name_or_path分别为alibaba-pai/pai-
painter-base-zh和alibaba-pai/pai-painter-large-zh。
训练完成后模型被保存到./finetuned_model/。
模型训练完毕后,我们可以将其用于图像生成,其示例如下:
easynlp\--mode=predict\--worker_gpu=1\--tables=MUGE_\--input_schema=idx:str:1,text:str:1\--first_sequence=text\--outputs=./T2I_\--output_schema=idx,text,gen_imgbase64\--checkpoint_dir=./finetuned_model/\--sequence_length=288\--micro_batch_size=8\--_name=text2image_generation\--user_defined_parameters='size=256text_len=32img_len=256img_vocab_'
结果存储在一个tsv文件中,每行对应输入中的一个文本,输出的图像以base64编码。
使用Pipeline接口快速体验文图生成效果
为了进一步方便开发者使用,我们在EasyNLP框架内也实现了InferencePipeline功能。用户可以使用如下命令调用Fine-
tune过的电商场景下的文图生成模型:
#直接构建pipelinedefault_ecommercial_pipeline=pipeline(pai-painter-commercial-base-zh)#模型预测data=[宽松T恤]results=default_ecommercial_pipeline(data)#results的每一条是生成图像的base64编码#base64转换为图像defbase64_to_image(imgbase64_str):image=(BytesIO(_b64decode(imgbase64_str)))returnimage#保存以文本命名的图像fortext,resultinzip(data,results):imgpath='{}.png'.format(text)imgbase64_str=result['gen_imgbase64']image=base64_to_image(imgbase64_str)(imgpath)print('text:{},savegeneratedimage:{}'.format(text,imgpath))
除了电商场景,我们还提供了以下场景的模型:
自然风光场景:“pai-painter-scenery-base-zh”
中国山水画场景:“pai-painter-painting-base-zh”
在上面的代码当中替换“pai-painter-commercial-base-zh”,就可以直接体验,欢迎试用。
对于用户Fine-tune的文图生成模型,我们也开放了自定义模型加载的Pipeline接口:
#加载模型,构建pipelinelocal_model_path=.text_to_image_pipeline=pipeline(text2image_generation,local_model_path)#模型预测data=[xxxx]results=text_to_image_pipeline(data)#results的每一条是生成图像的base64编码
在这一期的工作中,我们在EasyNLP框架中集成了中文文图生成功能,同时开放了模型的Checkpoint,方便开源社区用户在资源有限情况下进行少量领域相关的微调,进行各种艺术创作。在未来,我们计划在EasyNLP框架中推出更多相关模型,敬请期待。我们也将在EasyNLP框架中集成更多SOTA模型(特别是中文模型),来支持各种NLP和多模态任务。此外,阿里云机器学习PAI团队也在持续推进中文多模态模型的自研工作,欢迎用户持续,也欢迎加入我们的开源社区,共建中文NLP和多模态算法库!
Github地址:/alibaba/EasyNLP
ChengyuWang,MinghuiQiu,TaolinZhang,TingtingLiu,LeiLi,JianingWang,MingWang,JunHuang,WeiLin.EasyNLP:AComprehensiveandEasy-to-useToolkitforNaturalLanguageProcessing.arXiv
AdityaRamesh,MikhailPavlov,GabrielGoh,ScottGray,ChelseaVoss,AlecRadford,MarkChen,IlyaSutskever.Zero-ShotText-to-ImageGeneration.ICML2021:8821-8831
MingDing,ZhuoyiYang,WenyiHong,WendiZheng,ChangZhou,DaYin,JunyangLin,XuZou,ZhouShao,HongxiaYang,JieTang.CogView:MasteringText-to-ImageGenerationviaTransformers.NeurIPS2021:-
HanZhang,WeichongYin,YeweiFang,LanxinLi,BoqiangDuan,ZhihuaWu,YuSun,HaoTian,HuaWu,HaifengWang.ERNIE-ViLG:UnifiedGenerativePre-trainingforBidirectionalVision-LanguageGeneration.arXiv
PengWang,AnYang,RuiMen,JunyangLin,ShuaiBai,ZhikangLi,JianxinMa,ChangZhou,JingrenZhou,HongxiaYang.UnifyingArchitectures,Tasks,andModalitiesThroughaSimpleSequence-to-SequenceLearningFramework.ICML2022
AdityaRamesh,PrafullaDhariwal,AlexNichol,CaseyChu,MarkChen.HierarchicalText-ConditionalImageGenerationwithCLIPLatents.arXiv
VanDenOordA,VinyalsO.Neuraldiscreterepresentationlearning.NIPS2017
EsserP,RombachR,OmmerB.Tamingtransformersforhigh-resolutionimagesynthesis.CVPR2021:-.
ChitwanSaharia,WilliamChan,SaurabhSaxena,LalaLi,JayWhang,EmilyDenton,SeyedKamyarSeyedGhasemipour,BurcuKaragolAyan,S.SaraMahdavi,RaphaGontijoLopes,TimSalimans,JonathanHo,DavidJ.Fleet,MohammadNorouzi:PhotorealisticText-to-ImageDiffusionModelswithDeepLanguageUnderstanding.arXiv
本文为阿里云原创内容,未经允许不得。
问题三.CV之后,纯MLP架构又来搞NLP了,性能媲美预训练大模型机器之心报道
搞不起大模型,试一下超高性能的纯MLP架构?
去年来自谷歌大脑的研究团队在网络架构设计方面挖出新坑,提出MLP-Mixer,这是一个纯MLP构建的视觉架构。该架构无需卷积、注意力机制,仅需
MLP,在ImageNet数据集上就实现了媲美CNN和ViT的性能表现。
之后清华大学等机构的研究者先后将纯MLP用于构建视觉架构和新的注意力机制,这些研究将CV的研究重心重新指向MLP。
众多研究者纷纷感叹:CV领域网络架构的演变从MLP到CNN到Transformer再回到MLP,真简直是一场AI领域的「文艺复兴」。
时隔不到一年,来自IBMResearch的研究团队近日又提出了pNLP-Mixer,将MLP-Mixer应用于自然语言处理(NLP)任务。
大型预训练语言模型极大地改变了NLP的格局,如今它们成为处理各种NLP
任务的首选框架。但是,由于内存占用和推理成本,在生产环境中使用这些模型(无论是在云环境还是在边缘环境)仍然是一个挑战。
研究者开始提出可替代方案,他们最近对高效NLP的研究表明,小型权重高效(weight-
efficient)模型可以以很低的成本达到具有竞争力的性能。IBMResearch提出的pNLP-Mixer,是一种可用于NLP
任务的基于投影(projection)的MLP-Mixer模型,它通过一个全新的投影层(projectionlayer)实现了高权重效率。
该研究在两个多语言语义分析数据集MTOP和multiATIS上对模型进行了评估。结果表明,在MTOP数据集上,pNLP-Mixer达到了与
mBERT媲美的性能,而后者有38倍多的参数,此外,pNLP-Mixer还优于小模型pQRNN,而后者参数是前者的3
倍。在长序列分类任务中,pNLP-Mixer在没有进行预训练的情况下比RoBERTa表现更好,后者的参数是pNLP-Mixer的100倍。
作为一种从头开始设计的高效架构,pNLP-Mixer适用于两种边缘情况,即内存和延迟受限,并作为NLPpipeline的主干网络而存在。
图1描述了pNLP-Mixer模型的架构,是基于投影的模型,不像基于transformer的模型那样可以存储大型嵌入表。pNLP-Mixer
使用投影层,该投影层使用不可训练的哈希函数从单个token
中捕获词法知识。这个投影层可以被看作是从输入文本中生成表征的特征提取器。一旦输入特征被计算出来,它们就会被送入一个称为瓶颈层(bottleneck
layer)的可训练线性层。其中瓶颈层的输出是标准MLP-mixer架构(Tolstikhinetal.2021)的一系列MLP块的输入。
使用全MLP架构进行语言处理具有一些优点。与基于注意力的模型相比,MLP-Mixer
可以捕获长距离依赖关系,而不会在序列长度上引入二次成本。此外,仅使用
MLP,模型不仅实现起来简单,而且在从手机到服务器级推理加速器的各种设备中都具有开箱即用的硬件加速功能。
这项研究表明,在NLP任务中,像MLP-Mixer这样的简单模型可以作为基于transformer
模型的有效替代方案,即使在不使用大型嵌入表的环境中也是如此。这其中的关键是模型提供了高质量的输入特征。
投影层是基于局部敏感哈希(LSH),从文本中创建表征。虽然这一概念在其他现有的投影中是常见的(例如pQRNN(Kaliamoorthietal.
2021)),但该研究提出的投影方法却是全新的。MinHash因计算简单被用作哈希函数,并依靠子词tokenization来确定哈希输入。子词
tokenization通常在transformer
模型中使用,它确保了任何字符串都可以被表征为子词单元的组合,即不存在词表外的词。在该研究的语境中,使用子词tokenizer有两个主要优点:
通过训练新的tokenizer或使用可用的预训练语言模型中的词汇来扩充语言知识;
每个子词单元的表征可以被缓存以降低推理成本。
投影层通过复用词汇表V的单个子词单元的fingerprint来计算每个输入tokent的MinHashfingerprint
F^t。fingerprintF∈N^n是由n个正整数组成的数组(F_0到F_(n-1)),使用n个不同的哈希函数h_0(x)到
h_n-1(x)将字符串映射成正整数来进行计算。
MLP-Mixer是一个简单的架构,仅由mixer块组成,每个块有两个多层感知器(MLP),以换位操作(transposition
operation)进行交错。第一个MLP输出的换位给到第二个MLP,然后对序列维度进行操作,从而有效地混合了token之间的信息。此外,MLP-
Mixer遵循了最初的架构设计,使用了跳跃连接、层标准化和GELU非线性。
在该方法中,投影层产生的矩阵C∈R^(2w+1)m×s将通过一个瓶颈层,即一个线性层,该线性层输出矩阵B∈R^b×s,其中B为瓶颈大小,s
为最大序列长度。这个矩阵B是MLP-Mixer模型的输入,它反过来产生与B相同维度的输出表征O∈R^(b×s)。在输出O
之上应用分类头以生成实际预测。在语义解析的情况下,这个分类头是应用于每个token的线性层,而对于分类任务,该方法使用注意力池化。
在评估模型的最终性能之前,该研究彻底分析了所提架构。本节的实验是在英文MTOP的验证集上进行的,报告的指标是最佳epoch
的精确匹配准确率(exactmatchaccuracy)。该研究使用具有2层的pNLP-Mixer作为基础模型,瓶颈和隐藏大小为
256,输入序列长度为64,token特征大小固定为1024,窗口大小为1,并训练80个epoch,学习率为5e^-4、batch
首先,该研究比较了不同特征提取策略对性能的影响,包括:
下表1给出了基模型获得的投影分数。结果表明,BERT嵌入的性能极差,这是因为BERT
的主要优势之一是它产生上下文嵌入,即包含来自周围上下文的信息的嵌入,这里需要单独嵌入每个
token。关于基于哈希的投影,它们都在相同的值范围内达到分数。然而,表现最好的投影MinHash,精确匹配准确率为80.8%,与最差的投影TSP
相比,其得分为77.6%,它们之间存在相当大的差异。超过3%
的差异凸显了仔细设计投影层的重要性,并证明了进一步研究投影算法的努力。鉴于这些结果,在剩下的实验中,该研究仅将MinHash视为投影层。
已有结果表明,MinHash投影提供了强大的语言表征。下一个问题是MLP-Mixer
是否是处理这种表征的最佳架构。为了研究这一点,该研究首先考虑一个基线,其中MLP-Mixer
被移除,瓶颈层的输出直接传递给分类头。在这里,研究者考虑两个不同的投影层,一个窗口大小为1,另一个窗口大小为4。该研究将MLP-Mixer
与其他两种架构进行比较,方法是保持相同的投影、瓶颈层和分类头,并用LSTM和具有相似数量参数的transformer编码器专门替换MLP-
表2表明简单地移除MLP-Mixer并仅依赖投影会导致性能显着下降。特别是,使用窗口大小为1的投影将参数数量减少到
820K,但代价是性能下降超过15个点。另一方面,大型投影层导致参数数量翻倍,而精确匹配准确率仅达到76.5%,即比MLP-Mixer低
4.3%。从替代模型来看,LSTM的性能明显低于MLP-Mixer,但使用180万个参数,即多出
50%,精确匹配准确率较低(73.9%)。Transformer模型的参数数量与MLPMixer(1.2M)大致相同,得分低
1.4%。最后一个结果是显着的:对于相同数量的参数,MLPMixer优于
transformer,同时具有线性复杂性依赖于输入长度,而不是二次。总体而言,该评估表明MLP-Mixer
是一种用于处理投影输出的重量效率高的架构,即它比具有较少参数的替代方案具有更高的性能。
该研究对pNLP-Mixer模型进行了广泛的架构探索,以确定不同超参数对下游性能的影响,研究范围包括投影超参数和MLP-Mixer
超参数。对于投影,研究包括token特征大小、哈希数和窗口大小;而MLP-Mixer研究了瓶颈大小(bottleneck
size)和层数。使用的学习率为5e^?4,batch大小为256,隐藏大小为256。表3报告了每个配置的精确匹配准确率和参数数量。
考虑到MLPmixer,将瓶颈大小(bottlenecksizes)增加到512会略微提高性能,而当使用4层时,它会达到与2
层相似的值。然而,这些超参数并不独立于投影层:较大的投影可能需要较大的MLP-Mixer来处理所有的信息。因此,表4研究了投影大小和MLP-
实验报告了两个较大模型和两个较小模型的结果,由结果可得较大的模型具有更大的特征和瓶颈大小,实验还表明4
层达到了所有研究模型的最佳性能。另一方面,其中一个小型模型仅用200K参数就达到了76.9%的精确匹配。
表5结果表明,大型语言模型XLM-R和mBERT获得了最高分。值得注意的是,从较小的替代方案来看,pNLPMixerX-LARGE只有
4.4M参数,mBERT参数量达170M,平均精确匹配准确率仅比mBERT和XLM-R低2和3个点。LARGE模型具有与
pQRNN相似的大小,比pQRNN精确匹配准确率高近3%,比精馏后的pQRNN高0.8%。
表6是在multiATIS数据集上的评估结果。在这里,pQRNN获得了最高的intent准确率,甚至比mBERT高出1.8%。在
pNLP-Mixer系列中,我们看到更大的尺寸并不对应更好的性能;由于ATIS
查询中使用的词汇相对统一和简单,因此表达能力更强的模型不一定更好。事实上,BASE模型在pNLP-Mixers中达到最高分,达到92.1%,仅比只有
1.2M参数的mBERT低0.5%,但参数只有pQRNN参数的60%。较小的pNLP-Mixer模型SMALL和X-SMALL
分别获得了91.8%和90.0%的竞争性能,而参数都非常小。
表7显示,在IMDB中,RoBERTa和Longformer的性能明显优于pNLP-Mixer,Longformer的准确率达到
95.7%,而最好的pNLP-Mixer只有82.9%。然而,在Hyperpartisan任务中,Longformer仍然是最好的模型,而
pNLP-Mixers的表现优于RoBERTa,BASE模型达到90.6F1,即高出3.2分。
微型pNLP-Mixer模型的参数分别是Longformer和RoBERTa参数的1/120倍和1/100,在
Hyperpartisan任务中获得了具有竞争力(甚至优于RoBERTa)的结果,而无需任何预训练或超参数调整。然而,pNLP-Mixer在IMDB
上的性能较低。总而言之,这个结果提出了一个问题,即具有预训练的大型pNLP-Mixer是否可以成为大型Transformer模型的轻量级替代品。讨论清华大学毕业证图片高清生成base64的样本介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于(清华大学硕士毕业证)的问题的信息我们也在下面的文章中进行了推荐,方便查阅。

你可能还喜欢下面这些文章

清华大学毕业证照片高清生成base64和清华大学硕士毕业证

毕业证样本网创作《清华大学毕业证照片高清生成base64和清华大学硕士毕业证》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/500897.html

(0)
上一篇 2022年9月4日
下一篇 2022年9月4日

相关推荐

  • 北京大学毕业证样本

    那几十号人是有钱收的,死者的家属一人一百一天的发,北京大学毕业证样本这世道真的没落的没有人性,没有底线,为了钱,任何荒唐的借口理由都可以有。

    2022年4月10日
    420
  • 清华大学毕业证样本

    可也要有人甘心当小弟啊,现在我北京工业大学毕业证样本们的邻居都已欺负中国为荣,不然都不好意思说自己和中国为邻。

    2022年4月10日
    470
  • 上海应用技术大学毕业证样本

    我认为一个人有钱最次要看开的什么车其次要看带的什么手表 最主要的是看出门带几个丈母娘 就中国现在的收入丫的手机还真看不出来是高大上还是>

    2022年4月10日
    470
  • 中国人民大学毕业证样本

    公务员上班一杯茶一份报,吃拿卡要,下班公款吃喝,纸醉金迷,包二奶做北京科技大学毕业证样本做爱,工资基本不用,老婆基本不动,住有公改房,住房补贴,公积金等高福利,及名目繁多灰色收入,改革红利哪去了,面对农民55元底保,要加薪情何以堪?

    2022年4月10日
    470
  • 北京建筑大学毕业证样本

    美国政府还是一直存在,他们依然吃得好睡的香,世界上也还是会有那么多人想移民到美国。

    2022年4月10日
    420
客服微信
客服微信
返回顶部