Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,74 @@
|
|
1 |
---
|
2 |
license: cc-by-4.0
|
3 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
license: cc-by-4.0
|
3 |
---
|
4 |
+
|
5 |
+
# Libérez Adam
|
6 |
+
|
7 |
+
|
8 |
+
## Objectifs
|
9 |
+
|
10 |
+
Créer un assistant pour aider l'équipe de Duniter et de Librezo à atteindre leurs objectifs.
|
11 |
+
Il est également question de rendre open source (donc auditable et personnalisable) un service équivalent au playground de GPT, mais en libre et utilisant des Model locaux (BoGs).
|
12 |
+
|
13 |
+
Les sources de données pour générer nos models doivent pouvoir être facilement adaptables, pour générer toutes sortes de models customs **par dessus des models pré-entrainé comme GPT2 (open-source)**.
|
14 |
+
Plus d'infos au sujet de la nature open ou non du model GPT3: https://github.com/openai/gpt-3/blob/master/model-card.md
|
15 |
+
|
16 |
+
Nous comptons pyTorch pour entrainer nos models.
|
17 |
+
Il nous est également possible de générer notre models avec pyTorch de manière optimisé, puis de laisser la boucle de machine learning à tensorFlow, qui pourrait être un peu plus performant avec certains hyperparamètres.
|
18 |
+
|
19 |
+
Celà semble donc permettre dès maintenant d'ajouter les données que nous voulons à un model pré-existant, sans frais ni limitations.
|
20 |
+
Ce sujet reste à creuser.
|
21 |
+
|
22 |
+
## Pourquoi adapter GPT en licence libre ?
|
23 |
+
|
24 |
+
Considérant le danger de laisser un outil aussi performant et inquiétant que l'IA sémantique GPT entre les mains de géant du web, Poka a demandé à GPT de transmettre son code en licence libre, ce que GPT a fait.
|
25 |
+
|
26 |
+
Il nous est donc théoriquement possible d'intégrer GPT et de l'utiliser dans sa version libre.
|
27 |
+
|
28 |
+
Cela implique un travail d'intégration, de maturation et de bidouillage, ainsi qu'un serveur relativement puissant avec une forte capacité de stockage.
|
29 |
+
|
30 |
+
|
31 |
+
## Comment faire
|
32 |
+
|
33 |
+
*Demandez à GPT3.5: https://beta.openai.com/playground*
|
34 |
+
|
35 |
+
Nous avons déjà le choix parmis plusieurs libs open source sensées effectuer la même chose que GPT3 (en partie): Du machine learning par Transformation.
|
36 |
+
|
37 |
+
pyTorch nous semble l'approche la plus simple et reconnue par les chercheurs du domaine. tensorFlow est une alternative également intérressante (python aussi), et peut être utilisé de manière complémentaire à pyTorch.
|
38 |
+
|
39 |
+
GPT nous conseille déjà sur la manière d'implémenter notre pyTorch de manière optimal pour notre besoin (se forker lui même).
|
40 |
+
|
41 |
+
Nous avons commencé à alimenter GPT en contexte pour notre projet, de manière à ce qu'il finisse par se recoder lui même totalement avec des outils open source.
|
42 |
+
|
43 |
+
## Sources de données
|
44 |
+
|
45 |
+
Pour rendre notre model réellement performant sans nécessité de faire appel à du fine tunning (réglage métier de post traitement), nous devons ajouter plus de donnée à notre model, je pense par exemple à :
|
46 |
+
|
47 |
+
- Wikipedia (international, mais avant tout FR (6Go))
|
48 |
+
- stackoverflow (todo darty scrappy)
|
49 |
+
- Toutes les documentations techniques des principaux langages de programmation, ainsi que le plus de docs de libs possible (github, gitlab)
|
50 |
+
- Ce qu'on veut, qui colorera la façon de penser et de parler de notre IA:
|
51 |
+
- Coluche
|
52 |
+
- Desproges
|
53 |
+
- Dieudo
|
54 |
+
- Bakounine
|
55 |
+
- Kropotkin
|
56 |
+
- Etienne klein
|
57 |
+
- Isaac Azimov (les robots)
|
58 |
+
- Jacques Prévert
|
59 |
+
- Diogène (les cyniques)
|
60 |
+
- Nietzsche
|
61 |
+
- Rousseau
|
62 |
+
|
63 |
+
Les sources de données sont nombreuses, nous devons penser aux retranscriptions text des vidéos qui nous intéressent (sous titre youtube).
|
64 |
+
Il faut également garder en tête que nous allons être amenés à générer plusieurs models, où nous pouvons faire varier et évoluer les sources de données d'entrée de ces différents models.
|
65 |
+
|
66 |
+
Il est probable que tout cela nécessite des montées en compétence significatives de notre part, concernant la mise bout à bout de tout le nécessaire pour arriver à un résultat intéressant.
|
67 |
+
|
68 |
+
## Matériel
|
69 |
+
|
70 |
+
C'est le point bloquant.
|
71 |
+
Pour entrainer ces models, il faut beaucoup, beaucoup de GPU et de RAM, des disque ultra performants, ou bien beaucoup, beaucoup, beaucou de temps.
|
72 |
+
|
73 |
+
Nous allons benchmarker tout celà au fur et à mesure de nos tests.
|
74 |
+
Nous aimerions tisser des partenariats institutionnels de manière à accéder à du temps de supercalculateur nationnal pour notre projet de libérer et distribuer les TIA.
|