追星族。一个分析你的GitHub明星的工具自从CockroachDB成为GitHub项目以来,已经有6年多了。在这段时间

发布时间:2024-12-09 05:57

自从CockroachDB成为GitHub项目以来,已经有6年多了。在这段时间里,该项目已经积累了超过2万颗GitHub星,这是GitHub用户将他们感兴趣的存储库加入书签的一种简单方式。自然,我们也想知道人们是如何发现我们的项目的。我们是否可以做一些事情来加速人们的认识和兴趣?

几年前,我把一个Flex Friday(我们的20%时间版本)献给了追星族,这个工具可以查询CockroachDB仓库的GitHub明星信息并分析结果。在写这篇文章的时候,我们有6000多颗星(感觉很多),这篇博客中的数据将基于那套最初的6000个追星族。

Github和开源社区的新时代

我要对开放源码狂热一番。我对 "开源 "的第一次体验是在苹果IIc上输入BASIC程序。我通过手动抄写发表在《字节》杂志上的几行代码,吸收了其他软件工程师的聪明才智。几年后,我在一个BBS上发现了一个Pascal的开放源码实现。我花了好几个小时试图用翻译字典来弄清楚它是如何工作的(注释都是德语)。但是哇,不用再从打印出来的文件中输入整个东西,这是一个很大的进步。

在加州大学伯克利分校,互联网突然第一次出现,我发现在Borland和微软的盲目世界之外,还有一个完整的宇宙。GCC、Bash、Emacs、X11、Linux......所有这些都是为了寻找和获取。一个真正的财富的尴尬!你可以用archie搜索位于FTP档案中的代码tarballs,或者通过搜索Usenet。以今天的标准来看,这是很陈旧的,但我向你保证,这是另一个很大的进步。这把我们带到了现在,和另一个进化的步骤。

GitHub,通过一些临界质量和易用性的有效结合,为开源项目增加了一个重要的社区维度。开放源码项目已经成为有生命的东西,通过许多智能体的关注和管理而成长和进化。如果你花点时间使用GitHub的API进行挖掘,你就可以开始了解它们是如何相互关联的,以及它们是如何相互影响的。

是什么驱动着GitHub的明星?

我做的第一件事是查看数据,并试图将GitHub之星的积累中任何明显的不连续现象与外生事件相匹配。结果发现,媒体很重要我们第一次被提及是在《黑客新闻》上,然后是《连线》,然后是另一个关键的《黑客新闻》报道,接着是我们宣布成立公司并获得资金时的大量新闻(VB、《连线》、《华尔街日报》)。有趣的是,FoundationDB被苹果公司收购的消息也带动了人们的兴趣。会议讲座效果很好:Tobias在FOSDEM做了一个演讲,我在CoreOS Fest做了一个讲座。

github-stars-over-time

对于小型初创公司来说,要想获得针锋相对的新闻报道是很困难的,但你可以创造新的内容,这个博客就是一个例子,如果它足够有趣,它可能会在Hacker News上被提及,甚至引发一场讨论。事实上,在这篇Reddit帖子中分析了Hacker News对你项目的GitHub星级的积极影响。有争议的话题也不需要害怕,它们会受到关注。

还有什么是我们的追星族们的明星?

人们似乎很喜欢给项目加星。在这篇博客最初发表的时候,我们有6000多个 "追星族"(GitHub对他们的称呼),他们在120万个项目上加了星(在这次分析中,我们在每个用户加了300个星后就不再计算了,因为有些人显然加了好几千个星)。在这120万个用户中,有22.7万个是唯一的,所以在兴趣方面有很大的重叠性。如果你想一想,这种重叠代表了与CockroachDB相关的其他资源库,就我们追星族的兴趣而言。同样,出于对更多信息的好奇,我们做了一个分析,计算了重合度,并对最常见的共星资源库进行了排名。

前15名。

Top 15 Most Correlated Starred Repos

我们的追星族对哪些项目有贡献?

但是我们的追星族自己呢?他们到底在做什么?为了回答这个问题,我们看了一下我们的追星族都订阅了哪些软件库。订阅通常意味着有贡献的活动,而且至少是高度的兴趣。

以下是按订阅的追星族中同时也是提交者的人数排序的顶级软件库,以及追星族的总提交量、新增量和删除量。

CockroachDB Stargazers’ Most Committed Repos

我们的追星族对开源项目的贡献有多大?

结果发现,在6000名追星族中,大约有2200人至少向一个资源库提交了一次。为了使数字更有意义,我们只包括那些至少有25名追星族、10个分叉或10个开放问题的软件库。总的来说,我们的追星族向符合这些最低门槛的3600个软件库提交了728K次!平均提交次数为325次,中位数为64次。

前15名最多产的追星族。

CockroachDB Stargazers’ Aggregate Commit Stats

我们还可以看一下追星族的追随者。结果发现,我们的追星族自己总共被216K其他GitHub用户关注。在这216K人中,有112K人是唯一的,所以再次出现了大量的重叠现象。也许并不令人惊讶,但这是一个很大的关联性。当然,如果我们能幸运地让这些人贡献或使用CockroachDB,就很难想象有什么更好的方法来推动开发者采用。

下面是我们的追星族的追随者数量柱状图(注意追随者数量是对数,所以1=10,2=100,3=1000)。

histogram-of-cockroachDB-followers

当新的追星族发现CockroachDB项目时,他们的属性是否有变化?我们看了关注者和总提交量的平均数。结果发现,早期对项目的兴趣与更多的GitHub参与相关,包括提交量和关注者的数量都有关系。

但是,如果我们通过对追星族的GitHub年龄进行归一化来修正呢?怀疑是早期的追星族有更多的时间来获得追随者和合并拉动请求。然而,即使按年龄归一化,平均关注者和提交量仍然与早期对CockroachDB的兴趣呈正相关关系。

有兴趣看看另一个存储库吗?

你可以自己使用stargazers应用来分析任何 GitHub 仓库中的明星用户构成。 就cockroachdb/cockroach而言,它需要从API中查询24G的数据。在每小时5000个API请求的情况下,它需要几天的时间来运行,所以如果你有一个有大量粉丝的仓库,并不完全适合胆怯的人。

网址:追星族。一个分析你的GitHub明星的工具自从CockroachDB成为GitHub项目以来,已经有6年多了。在这段时间 https://mxgxt.com/news/view/106701

相关内容

追星族(崇拜某些明星的一些人或群体)
2023前端明星项目深度解析与排行
大学生追星现象分析专题
"追星"心理分析:是谁在让我们“追星”
同时有8档节目在播,明星旅行综艺为何层出不穷?
明星形象的媒介符号价值的分析
明星周边产品市场分析
从童年到明星:回顾体育明星的初始时光与成长历程
NBA篮球明星全面资料解析:从成名经历到场上数据统计一网打尽
如何管理团队中的“明星员工”

随便看看