オープンサイエンス

最終更新日：2024-11-24 | ページの編集

概要

質問

バージョン管理は、私の研究をよりオープンにするのにどのように役立ちますか?

目的

バージョン管理システムを計算実験用の電子実験ノートとしてどのように活用できるか説明しましょう。

“open” の反対は “closed” ではありません。 “open” の反対は “broken” です。

-– John Wilbanks

科学では情報を自由に共有することが理想的かもしれませんが、現実はもっと複雑なことがよくあります。最近のよくあるやり方は次のようになります。

科学者は何らかのデータを収集し、それを自分の部門によって時折バックアップされるマシンに保存します。
次に、科学者はそのデータを分析するために、いくつかの小さなプログラム（これもその科学者のマシンにあります）を作成または変更します。
結果が出たら、それを書き留めて論文を提出します。科学者は自分のデータを含めるかもしれません – ますます多くのジャーナルがこれを必要としています – しかし科学者はおそらく自分のコードを含めていません。
時間が経過します。
ジャーナルは、科学者の分野の他の少数の人々によって匿名で書かれたレビューを科学者に送信します。科学者はレビューした人を納得させるために自分の論文を改訂し、その間に科学者は以前に書いたスクリプトを修正し、論文を再提出するかもしれません。
さらに時間が経過します。
ついに論文が出版されます。科学者のデータのオンラインコピーへのリンクが含まれている可能性がありますが、論文自体はペイウォールの背後にあるでしょう：個人的または組織的なアクセス権を持つ人だけがそれを読むことができるでしょう。

しかし、ますます多くの科学者にとって、そのプロセスは次のようになります:

figshareやZenodoなどのオープンアクセスリポジトリに保存され、独自のデジタルオブジェクト識別子 (DOI) が与えられます。または、データはすでに公開されており、Dryad に保存されています。
科学者は、自分の研究を保持するためにGitHubに新しいリポジトリを作成します。
科学者は分析を行うときに、スクリプト (場合によってはいくつかの出力ファイルも) への変更をそのリポジトリにプッシュします。科学者はまた、自分の論文用にそのリポジトリを使用します；そしてそのリポジトリは、同僚とのコラボレーションのハブになります。
論文の状態に満足したら、arXivまたはその他のプレプリントサーバーに版を投稿し、仲間からのフィードバックを求めます。
そのフィードバックに基づいて、科学者は最終的に論文をジャーナルに投稿する前に、いくつかの改訂を投稿する可能性があります。
公開された論文には、科学者のプレプリントとコードそしてデータリポジトリへのリンクが含まれているため、他の科学者が論文の研究を自分の研究の出発点として使用するのがはるかに簡単になります。

このオープンモデルは発見を加速します：研究結果がオープンになっていればなっているほど、広く引用され、再利用されます。ただし、このように作業したい人は、正確に “オープン” が何を意味し、それをどのように行うかについて、いくつかの決定を下す必要があります。この本では、オープンサイエンスのさまざまな側面について詳しく知ることができます。

これは、バージョン管理を教える (多くの) 理由の1つです。コツコツと使うと、計算作業のための共有可能な電子ラボノートとして機能することによって、バージョン管理は “どのように” の質問に答えてくれます：

誰がいつ何をしたかなど、作業の概念的な段階が文書化されています。すべてのステップには、（ほとんどの場合）固有の識別子 (コミットID) がスタンプされています。
理論的根拠、アイデア、およびその他の知的作業の文書化を、それらから生じる変化に直接結び付けることができます。
独自の回復可能な方法で計算結果を取得するために、研究で使用したものを参照できるようになります。
Gitなどのバージョン管理システムを使用すると、リポジトリの履歴全体を簡単にアーカイブして永続化できます。

コードを引用可能にすること

バージョン管理リポジトリでホストされているもの（データ、コード、論文など）はすべて、引用可能なオブジェクトに変換できます。これを行う方法は、これを行う方法は、レッスン 12: 引用で学習します。

私の仕事はどれくらい再現可能ですか？

ラボメイトの1人に、あなたの論文やウェブで見つけることができるものだけを使用して、あなたが最近得た結果を再現するように依頼してみましょう。ラボメイトの結果の1つに対して同じことを行ってみてから、あなたの研究室由来の結果にそれを行ってみてください。

適切なデータリポジトリを見つける方法は?

数分間インターネットサーフィンして、次のデータリポジトリをチェックしてみましょう：Figshare, Zenodo、Dryad。研究分野によっては、その分野でよく知られたコミュニティで認められたリポジトリが見つかるかもしれません。 Natureが推奨するこれらのデータリポジトリも便利かもしれません。現在のプロジェクト用にどのデータリポジトリにアプローチしたいかを隣人と議論し、その理由を説明してみましょう。

How to Track Large Data or Image Files using Git?

Large data or image files such as .md5 or .psd file types can be tracked within a github repository using the Git Large File Storage open source extension tool. This tool automatically uploads large file contents to a remote server and replaces the file with a text pointer within the github repository.

Try downloading and installing the Git Large File Storage extension tool, then add tracking of a large file to your github repository. Ask a colleague to clone your repository and describe what they see when they access that large file.

まとめ

オープンな科学的研究は、クローズドよりも有用であり、引用数が多い。